Carregando...
Dashboard de implantação e inventário de dados

O painel vivo do Sabiá Data Lake.

Esta dashboard apresenta o acompanhamento inicial do Sabiá Data Lake, reunindo informações sobre pessoas, exames, bases, arquivos, infraestrutura computacional, capacidade do servidor, segurança, governança e estágio de implantação do ecossistema de dados em saúde.

Visão Geral

Indicadores iniciais do Data Lake

Como o projeto ainda está em fase de estruturação, esta dashboard prioriza indicadores objetivos e verificáveis: número de pessoas, exames, arquivos, bases, instituições, capacidade de armazenamento e status da infraestrutura.

395.078
Registros de pessoas ou pacientes
Mapeamento inicial
7.011.805
Registros clínicos/diagnósticos
Mapeamento inicial
2.958.532
Exames registrados
Mapeamento inicial
+80
Bases de dados mapeadas
Mapeamento inicial
Infraestrutura Computacional

Servidor, armazenamento e capacidade técnica

Esta seção apresenta os principais recursos computacionais previstos ou disponíveis para o Sabiá Data Lake, incluindo memória RAM, número de núcleos, armazenamento, discos, rede, sistema operacional e ambiente de processamento.

512 GB
Memória RAM disponível para processamento de dados
Dado validado
192
Núcleos de processamento disponíveis no servidor principal
Dado validado
40 GB GPU
Memória gráfica total com 2 GPUs Nvidia RTX A4500 de 20 GB para IA e processamento paralelo.
Dado validado
1.2 PB
Capacidade total para armazenamento do Data Lake
Armazenamento bruto
até 20 Gbps agregados
Capacidade de rede prevista para transferência de dados
Previsto
7.6 TB
Cache de alta velocidade com 2 SSDs NVMe Dual Port de 3.8 TB para acelerar leituras e escritas no storage.
Cache NVMe
Dual Controller
Storage com controladoras redundantes, fontes redundantes, módulos de ventilação e proteção com supercapacitor.
Alta disponibilidade
90 baias
Storage 4U com 90 baias para discos, permitindo expansão física e organização de grandes volumes de dados.
Expansível

Armazenamento

Área destinada à organização de dados brutos, dados curados, backups, arquivos analíticos e produtos derivados das análises.

  • Camada Bronze: dados brutos
  • Camada Prata: dados tratados
  • Camada Ouro: dados prontos para análise
  • Área de backup e preservação
Bronze Prata Ouro Backup

Segurança técnica

Controles técnicos para proteger dados sensíveis, restringir acessos, registrar ações e reduzir riscos operacionais.

  • Controle de usuários e permissões
  • Logs de acesso e auditoria
  • Ambiente protegido para dados sensíveis
  • Política de backup em definição
Segurança Auditoria LGPD Controle
Especificações Técnicas

Resumo técnico do ambiente

A tabela abaixo apresenta a configuração técnica do ambiente computacional do Sabiá Data Lake, incluindo servidor de processamento, storage dedicado, aceleração por GPU, rede, armazenamento, redundância e recursos de expansão.

Componente Informação atual Status Observação
Servidor principal Supermicro 2U com fontes redundantes Adquirido Servidor dedicado ao processamento, organização e análise dos dados do Sabiá Data Lake.
Processadores 2x Intel Xeon 6740E Alta performance Dois processadores Intel Xeon para processamento intensivo de dados em saúde.
Núcleos de processamento 192 cores Alto desempenho Configuração composta por 2 processadores de 96 cores cada.
Memória RAM do servidor 512 GB DDR5 ECC REG Memória corporativa Memória com correção de erro, adequada para ambientes críticos e processamento científico.
Discos do sistema 2x 480 GB SSD NVMe Sistema operacional Discos destinados ao sistema, serviços principais e ambiente operacional do servidor.
Discos rápidos locais 2x 7.6 TB SSD NVMe Alto desempenho Armazenamento local rápido para processamento temporário, cache, staging ou análises intensivas.
GPUs 2x Nvidia RTX A4500 20 GB Pronto para IA Total de 40 GB de memória GPU para modelos de IA, aprendizado de máquina e computação paralela.
Expansão de GPU 2 slots adicionais disponíveis Expansível Permite expansão futura da capacidade de aceleração por GPU para novas demandas de IA.
Rede do servidor 2x 10G SFP+ Alta conectividade Capacidade agregada teórica de até 20 Gbps, dependendo da configuração de rede e switch.
Storage dedicado EonStor GS 3090 G3, 4U/90 baias Storage corporativo Storage unificado com suporte a NAS, SAN, protocolo de objetos e integração com nuvem.
Armazenamento bruto 1.2 PB Capacidade bruta Composto por 60 discos SAS Enterprise de 20 TB cada.
Discos principais do storage 60x HD 20 TB SAS 3,5" Enterprise Alta capacidade Discos corporativos voltados ao armazenamento massivo de dados em saúde.
Cache do storage 2x SSD 3.8 TB NVMe Dual Port Cache NVMe 7.6 TB de cache NVMe para acelerar operações de leitura e escrita no storage.
Rede do storage 4x 25GbE SFP28 Alta velocidade Capacidade agregada teórica de até 100 Gbps no storage, dependendo da configuração da rede.
Controladoras do storage Controladoras redundantes duplas Alta disponibilidade Reduz risco de indisponibilidade em caso de falha de uma controladora.
Memória das controladoras 4x 8 GB 32 GB total Memória dedicada ao gerenciamento interno das controladoras do storage.
Portas SAS de expansão 4x 12Gb/s SAS EXP. Expansão Portas para expansão e conexão com módulos adicionais compatíveis.
Baias disponíveis 90 baias / 94 drive trays Grande expansão Estrutura física preparada para grande densidade de discos e expansão futura.
Slots para U.2 SSD 4 slots Expansão NVMe Permite adicionar SSDs U.2 para demandas específicas de desempenho.
Protocolos suportados NAS, SAN, Object e Cloud Gateway Storage unificado Permite acesso por arquivos, blocos, objetos e integração com ambientes de nuvem.
Redundância elétrica 2x PSU no storage e fontes redundantes no servidor Redundante Reduz risco de parada por falha em fonte de alimentação.
Resfriamento 3 módulos de ventilação no storage Resfriamento redundante Contribui para estabilidade térmica em operação contínua.
Proteção de cache 2x SuperCap + Flash Module Proteção contra falhas Ajuda a proteger dados em cache em caso de falha elétrica ou interrupção inesperada.
Inventário de Dados

Tipos de dados que podem compor o Data Lake

O inventário apresenta os principais tipos de dados que poderão ser armazenados, organizados, tratados e disponibilizados pelo Sabiá Data Lake.

Pessoas

Dados de pessoas e pacientes

Informações associadas a indivíduos presentes nas bases recebidas, sempre considerando anonimização, confidencialidade e proteção de dados pessoais.

Pacientes Cadastros Identificadores
Exames

Exames, laudos e resultados

Exames laboratoriais, clínicos, genômicos, imagens, laudos e outros registros associados ao acompanhamento em saúde.

Laboratório Laudos Resultados
Eventos

Atendimentos e eventos de saúde

Registros de consultas, internações, notificações, procedimentos, atendimentos e eventos relevantes para análise em saúde pública.

Consultas Internações Procedimentos
Epidemiologia

Indicadores epidemiológicos

Dados para monitoramento de doenças, agravos, tendências, surtos e distribuição territorial de eventos em saúde.

Vigilância Notificações Território
Genômica

Dados genômicos e moleculares

Informações biológicas e genômicas que podem apoiar medicina de precisão, vigilância genômica e pesquisa translacional.

Genoma Sequências Pesquisa
Território

Dados socioeconômicos e territoriais

Informações sobre municípios, regiões, vulnerabilidade, contexto social e determinantes que influenciam a saúde da população.

Municípios Vulnerabilidade Determinantes sociais
Resumo dos Dados

Tabela de acompanhamento

Esta tabela apresenta uma síntese inicial dos dados já mapeados para o Sabiá Data Lake, considerando cadastros, exames, municípios e arquivos recebidos. Os números serão atualizados conforme novas bases forem recebidas, validadas e integradas ao ambiente do projeto.

Tipo de dado Quantidade atual Origem Status Observação
Pessoas / Pacientes 395.078 Base FastMedic Em validação Quantidade inicial de cadastros identificados. Ainda será validado duplicidades, identificadores e critérios de anonimização.
Exames 7.011.805 Registros clínicos/diagnósticos Em organização Total inicial de registros clínicos/diagnósticos na base.
Exames 2.958.532 Exames registrados Mapeamento inicial Exames que possuem associação com códigos CID, permitindo análises clínicas, epidemiológicas e territoriais.
Municípios mapeados 824 Abrangência territorial Mapeado Municípios identificados nos dados, úteis para análises regionais, distribuição territorial e estudos populacionais.
Status de Implantação

O Data Lake está em fase de estruturação

Nesta etapa, o foco está na organização da infraestrutura, definição da arquitetura, criação dos fluxos de governança, mapeamento das bases existentes e preparação do ambiente para receber dados de forma segura, auditável e escalável.

  • 2026
    Início do Projeto e seleção da equipe

    Organização das primeiras frentes técnicas, editais, bolsistas, e planejamento.

  • 2026
    Aquisição e organização do hardware

    Planejamento, aquisição e estruturação dos equipamentos computacionais necessários para sustentar o Sabiá Data Lake.

  • 2026
    Criação da identidade visual e comunicação institucional

    Desenvolvimento da identidade visual, linguagem institucional, páginas públicas e materiais de comunicação para apresentar o Sabiá Data Lake de forma clara, acessível e profissional.

  • 2026
    Desenvolvimento da plataforma

    Criação da primeira versão da plataforma digital do projeto, reunindo páginas institucionais e área de divulgação.

  • 2026
    Organização da arquitetura do Data Lake

    Definição da arquitetura técnica do Sabiá Data Lake, estruturando as camadas de ingestão, armazenamento, processamento, segurança e disponibilização dos dados.

  • 2026
    Início da divulgação e fechamento de parcerias

    Ampliação da visibilidade institucional do Sabiá Data Lake por meio de ações de divulgação, apresentação do projeto a parceiros estratégicos e articulação com instituições públicas, acadêmicas e técnicas.

  • 2026
    Início da Política de Segurança da Informação

    Estruturação das primeiras diretrizes da Política de Segurança da Informação do Sabiá Data Lake, definindo princípios, responsabilidades, controles de acesso, proteção de dados, rastreabilidade, uso aceitável dos recursos tecnológicos e procedimentos para reduzir riscos no tratamento de informações sensíveis em saúde.

  • 2026
    Governança, segurança e conformidade

    Criação de termos, políticas, fluxos de acesso, documentação institucional e diretrizes para uso responsável dos dados.

Dados em saúde exigem segurança, governança e responsabilidade.

O Sabiá Data Lake está sendo estruturado para receber, organizar e analisar dados sensíveis em saúde com atenção à LGPD, rastreabilidade, controle de acesso, documentação institucional, segurança da informação e uso ético dos dados.

Acesso

Controle de usuários

Definição de perfis, permissões, autorização de acesso e responsabilidades dos usuários.

Perfis Permissões
Documentação

Termos e políticas

Criação de termos de confidencialidade, uso aceitável, solicitação de acesso e responsabilidade.

Termos Políticas
Auditoria

Rastreabilidade

Registro de acessos, consultas, alterações e operações realizadas no ambiente do Data Lake.

Logs Auditoria
Risco

Backup e continuidade

Definição da estratégia de backup, recuperação, retenção, versionamento e continuidade do serviço.

Backup Resiliência

Observação importante sobre os indicadores

Esta dashboard apresenta apenas uma estatística inicial do Sabiá Data Lake, construída a partir das informações disponíveis nesta fase do projeto. Os números e indicadores serão atualizados progressivamente conforme avançarmos nas próximas etapas, incluindo recebimento de novas bases, revisão dos dados, validação das informações, integração ao ambiente do Data Lake e consolidação dos processos de governança.