Dashboard | Sabiá Data Lake

O painel vivo do Sabiá Data Lake.

Esta dashboard apresenta o acompanhamento inicial do Sabiá Data Lake, reunindo informações sobre pessoas, exames, bases, arquivos, infraestrutura computacional, capacidade do servidor, segurança, governança e estágio de implantação do ecossistema de dados em saúde.

Indicadores iniciais do Data Lake

Como o projeto ainda está em fase de estruturação, esta dashboard prioriza indicadores objetivos e verificáveis: número de pessoas, exames, arquivos, bases, instituições, capacidade de armazenamento e status da infraestrutura.

Componente	Informação atual	Status	Observação
Servidor principal	Supermicro 2U com fontes redundantes	Adquirido	Servidor dedicado ao processamento, organização e análise dos dados do Sabiá Data Lake.
Processadores	2x Intel Xeon 6740E	Alta performance	Dois processadores Intel Xeon para processamento intensivo de dados em saúde.
Núcleos de processamento	192 cores	Alto desempenho	Configuração composta por 2 processadores de 96 cores cada.
Memória RAM do servidor	512 GB DDR5 ECC REG	Memória corporativa	Memória com correção de erro, adequada para ambientes críticos e processamento científico.
Discos do sistema	2x 480 GB SSD NVMe	Sistema operacional	Discos destinados ao sistema, serviços principais e ambiente operacional do servidor.
Discos rápidos locais	2x 7.6 TB SSD NVMe	Alto desempenho	Armazenamento local rápido para processamento temporário, cache, staging ou análises intensivas.
GPUs	2x Nvidia RTX A4500 20 GB	Pronto para IA	Total de 40 GB de memória GPU para modelos de IA, aprendizado de máquina e computação paralela.
Expansão de GPU	2 slots adicionais disponíveis	Expansível	Permite expansão futura da capacidade de aceleração por GPU para novas demandas de IA.
Rede do servidor	2x 10G SFP+	Alta conectividade	Capacidade agregada teórica de até 20 Gbps, dependendo da configuração de rede e switch.
Storage dedicado	EonStor GS 3090 G3, 4U/90 baias	Storage corporativo	Storage unificado com suporte a NAS, SAN, protocolo de objetos e integração com nuvem.
Armazenamento bruto	1.2 PB	Capacidade bruta	Composto por 60 discos SAS Enterprise de 20 TB cada.
Discos principais do storage	60x HD 20 TB SAS 3,5" Enterprise	Alta capacidade	Discos corporativos voltados ao armazenamento massivo de dados em saúde.
Cache do storage	2x SSD 3.8 TB NVMe Dual Port	Cache NVMe	7.6 TB de cache NVMe para acelerar operações de leitura e escrita no storage.
Rede do storage	4x 25GbE SFP28	Alta velocidade	Capacidade agregada teórica de até 100 Gbps no storage, dependendo da configuração da rede.
Controladoras do storage	Controladoras redundantes duplas	Alta disponibilidade	Reduz risco de indisponibilidade em caso de falha de uma controladora.
Memória das controladoras	4x 8 GB	32 GB total	Memória dedicada ao gerenciamento interno das controladoras do storage.
Portas SAS de expansão	4x 12Gb/s SAS EXP.	Expansão	Portas para expansão e conexão com módulos adicionais compatíveis.
Baias disponíveis	90 baias / 94 drive trays	Grande expansão	Estrutura física preparada para grande densidade de discos e expansão futura.
Slots para U.2 SSD	4 slots	Expansão NVMe	Permite adicionar SSDs U.2 para demandas específicas de desempenho.
Protocolos suportados	NAS, SAN, Object e Cloud Gateway	Storage unificado	Permite acesso por arquivos, blocos, objetos e integração com ambientes de nuvem.
Redundância elétrica	2x PSU no storage e fontes redundantes no servidor	Redundante	Reduz risco de parada por falha em fonte de alimentação.
Resfriamento	3 módulos de ventilação no storage	Resfriamento redundante	Contribui para estabilidade térmica em operação contínua.
Proteção de cache	2x SuperCap + Flash Module	Proteção contra falhas	Ajuda a proteger dados em cache em caso de falha elétrica ou interrupção inesperada.

Tabela de acompanhamento

Esta tabela apresenta uma síntese inicial dos dados já mapeados para o Sabiá Data Lake, considerando cadastros, exames, municípios e arquivos recebidos. Os números serão atualizados conforme novas bases forem recebidas, validadas e integradas ao ambiente do projeto.

Tipo de dado	Quantidade atual	Origem	Status	Observação
Pessoas / Pacientes	395.078	Base FastMedic	Em validação	Quantidade inicial de cadastros identificados. Ainda será validado duplicidades, identificadores e critérios de anonimização.
Exames	7.011.805	Registros clínicos/diagnósticos	Em organização	Total inicial de registros clínicos/diagnósticos na base.
Exames	2.958.532	Exames registrados	Mapeamento inicial	Exames que possuem associação com códigos CID, permitindo análises clínicas, epidemiológicas e territoriais.
Municípios mapeados	824	Abrangência territorial	Mapeado	Municípios identificados nos dados, úteis para análises regionais, distribuição territorial e estudos populacionais.

Tipo de dado

Quantidade atual

Origem

Status

Observação

Pessoas / Pacientes

395.078

Base FastMedic

Em validação

Quantidade inicial de cadastros identificados. Ainda será validado duplicidades, identificadores e critérios de anonimização.

Exames

7.011.805

Registros clínicos/diagnósticos

Em organização

Total inicial de registros clínicos/diagnósticos na base.

Exames

2.958.532

Exames registrados

Mapeamento inicial

Exames que possuem associação com códigos CID, permitindo análises clínicas, epidemiológicas e territoriais.

Municípios mapeados

824

Abrangência territorial

Mapeado

Municípios identificados nos dados, úteis para análises regionais, distribuição territorial e estudos populacionais.

O Data Lake está em fase de estruturação

Nesta etapa, o foco está na organização da infraestrutura, definição da arquitetura, criação dos fluxos de governança, mapeamento das bases existentes e preparação do ambiente para receber dados de forma segura, auditável e escalável.

Dados em saúde exigem segurança, governança e responsabilidade.

O Sabiá Data Lake está sendo estruturado para receber, organizar e analisar dados sensíveis em saúde com atenção à LGPD, rastreabilidade, controle de acesso, documentação institucional, segurança da informação e uso ético dos dados.

O painel vivo do Sabiá Data Lake.

Indicadores iniciais do Data Lake

Servidor, armazenamento e capacidade técnica

Servidor principal

Armazenamento

Segurança técnica

Resumo técnico do ambiente

Tipos de dados que podem compor o Data Lake

Dados de pessoas e pacientes

Exames, laudos e resultados

Atendimentos e eventos de saúde

Indicadores epidemiológicos

Dados genômicos e moleculares

Dados socioeconômicos e territoriais

Tabela de acompanhamento

O Data Lake está em fase de estruturação

Início do Projeto e seleção da equipe

Aquisição e organização do hardware

Criação da identidade visual e comunicação institucional

Desenvolvimento da plataforma

Organização da arquitetura do Data Lake

Início da divulgação e fechamento de parcerias

Início da Política de Segurança da Informação

Governança, segurança e conformidade

Dados em saúde exigem segurança, governança e responsabilidade.

Controle de usuários

Termos e políticas

Rastreabilidade

Backup e continuidade

Observação importante sobre os indicadores

Contato

Sobre o Sabiá

Links Úteis