Esta dashboard apresenta o acompanhamento inicial do Sabiá Data Lake, reunindo informações sobre pessoas, exames, bases, arquivos, infraestrutura computacional, capacidade do servidor, segurança, governança e estágio de implantação do ecossistema de dados em saúde.
Como o projeto ainda está em fase de estruturação, esta dashboard prioriza indicadores objetivos e verificáveis: número de pessoas, exames, arquivos, bases, instituições, capacidade de armazenamento e status da infraestrutura.
Esta seção apresenta os principais recursos computacionais previstos ou disponíveis para o Sabiá Data Lake, incluindo memória RAM, número de núcleos, armazenamento, discos, rede, sistema operacional e ambiente de processamento.
Ambiente computacional responsável por armazenar, organizar e processar os dados sensíveis do Sabiá Data Lake, com foco em escalabilidade, segurança e confiabilidade.
Área destinada à organização de dados brutos, dados curados, backups, arquivos analíticos e produtos derivados das análises.
Controles técnicos para proteger dados sensíveis, restringir acessos, registrar ações e reduzir riscos operacionais.
A tabela abaixo apresenta a configuração técnica do ambiente computacional do Sabiá Data Lake, incluindo servidor de processamento, storage dedicado, aceleração por GPU, rede, armazenamento, redundância e recursos de expansão.
| Componente | Informação atual | Status | Observação |
|---|---|---|---|
| Servidor principal | Supermicro 2U com fontes redundantes | Adquirido | Servidor dedicado ao processamento, organização e análise dos dados do Sabiá Data Lake. |
| Processadores | 2x Intel Xeon 6740E | Alta performance | Dois processadores Intel Xeon para processamento intensivo de dados em saúde. |
| Núcleos de processamento | 192 cores | Alto desempenho | Configuração composta por 2 processadores de 96 cores cada. |
| Memória RAM do servidor | 512 GB DDR5 ECC REG | Memória corporativa | Memória com correção de erro, adequada para ambientes críticos e processamento científico. |
| Discos do sistema | 2x 480 GB SSD NVMe | Sistema operacional | Discos destinados ao sistema, serviços principais e ambiente operacional do servidor. |
| Discos rápidos locais | 2x 7.6 TB SSD NVMe | Alto desempenho | Armazenamento local rápido para processamento temporário, cache, staging ou análises intensivas. |
| GPUs | 2x Nvidia RTX A4500 20 GB | Pronto para IA | Total de 40 GB de memória GPU para modelos de IA, aprendizado de máquina e computação paralela. |
| Expansão de GPU | 2 slots adicionais disponíveis | Expansível | Permite expansão futura da capacidade de aceleração por GPU para novas demandas de IA. |
| Rede do servidor | 2x 10G SFP+ | Alta conectividade | Capacidade agregada teórica de até 20 Gbps, dependendo da configuração de rede e switch. |
| Storage dedicado | EonStor GS 3090 G3, 4U/90 baias | Storage corporativo | Storage unificado com suporte a NAS, SAN, protocolo de objetos e integração com nuvem. |
| Armazenamento bruto | 1.2 PB | Capacidade bruta | Composto por 60 discos SAS Enterprise de 20 TB cada. |
| Discos principais do storage | 60x HD 20 TB SAS 3,5" Enterprise | Alta capacidade | Discos corporativos voltados ao armazenamento massivo de dados em saúde. |
| Cache do storage | 2x SSD 3.8 TB NVMe Dual Port | Cache NVMe | 7.6 TB de cache NVMe para acelerar operações de leitura e escrita no storage. |
| Rede do storage | 4x 25GbE SFP28 | Alta velocidade | Capacidade agregada teórica de até 100 Gbps no storage, dependendo da configuração da rede. |
| Controladoras do storage | Controladoras redundantes duplas | Alta disponibilidade | Reduz risco de indisponibilidade em caso de falha de uma controladora. |
| Memória das controladoras | 4x 8 GB | 32 GB total | Memória dedicada ao gerenciamento interno das controladoras do storage. |
| Portas SAS de expansão | 4x 12Gb/s SAS EXP. | Expansão | Portas para expansão e conexão com módulos adicionais compatíveis. |
| Baias disponíveis | 90 baias / 94 drive trays | Grande expansão | Estrutura física preparada para grande densidade de discos e expansão futura. |
| Slots para U.2 SSD | 4 slots | Expansão NVMe | Permite adicionar SSDs U.2 para demandas específicas de desempenho. |
| Protocolos suportados | NAS, SAN, Object e Cloud Gateway | Storage unificado | Permite acesso por arquivos, blocos, objetos e integração com ambientes de nuvem. |
| Redundância elétrica | 2x PSU no storage e fontes redundantes no servidor | Redundante | Reduz risco de parada por falha em fonte de alimentação. |
| Resfriamento | 3 módulos de ventilação no storage | Resfriamento redundante | Contribui para estabilidade térmica em operação contínua. |
| Proteção de cache | 2x SuperCap + Flash Module | Proteção contra falhas | Ajuda a proteger dados em cache em caso de falha elétrica ou interrupção inesperada. |
O inventário apresenta os principais tipos de dados que poderão ser armazenados, organizados, tratados e disponibilizados pelo Sabiá Data Lake.
Informações associadas a indivíduos presentes nas bases recebidas, sempre considerando anonimização, confidencialidade e proteção de dados pessoais.
Exames laboratoriais, clínicos, genômicos, imagens, laudos e outros registros associados ao acompanhamento em saúde.
Registros de consultas, internações, notificações, procedimentos, atendimentos e eventos relevantes para análise em saúde pública.
Dados para monitoramento de doenças, agravos, tendências, surtos e distribuição territorial de eventos em saúde.
Informações biológicas e genômicas que podem apoiar medicina de precisão, vigilância genômica e pesquisa translacional.
Informações sobre municípios, regiões, vulnerabilidade, contexto social e determinantes que influenciam a saúde da população.
Esta tabela apresenta uma síntese inicial dos dados já mapeados para o Sabiá Data Lake, considerando cadastros, exames, municípios e arquivos recebidos. Os números serão atualizados conforme novas bases forem recebidas, validadas e integradas ao ambiente do projeto.
| Tipo de dado | Quantidade atual | Origem | Status | Observação |
|---|---|---|---|---|
| Pessoas / Pacientes | 395.078 | Base FastMedic | Em validação | Quantidade inicial de cadastros identificados. Ainda será validado duplicidades, identificadores e critérios de anonimização. |
| Exames | 7.011.805 | Registros clínicos/diagnósticos | Em organização | Total inicial de registros clínicos/diagnósticos na base. |
| Exames | 2.958.532 | Exames registrados | Mapeamento inicial | Exames que possuem associação com códigos CID, permitindo análises clínicas, epidemiológicas e territoriais. |
| Municípios mapeados | 824 | Abrangência territorial | Mapeado | Municípios identificados nos dados, úteis para análises regionais, distribuição territorial e estudos populacionais. |
Nesta etapa, o foco está na organização da infraestrutura, definição da arquitetura, criação dos fluxos de governança, mapeamento das bases existentes e preparação do ambiente para receber dados de forma segura, auditável e escalável.
Organização das primeiras frentes técnicas, editais, bolsistas, e planejamento.
Planejamento, aquisição e estruturação dos equipamentos computacionais necessários para sustentar o Sabiá Data Lake.
Desenvolvimento da identidade visual, linguagem institucional, páginas públicas e materiais de comunicação para apresentar o Sabiá Data Lake de forma clara, acessível e profissional.
Criação da primeira versão da plataforma digital do projeto, reunindo páginas institucionais e área de divulgação.
Definição da arquitetura técnica do Sabiá Data Lake, estruturando as camadas de ingestão, armazenamento, processamento, segurança e disponibilização dos dados.
Ampliação da visibilidade institucional do Sabiá Data Lake por meio de ações de divulgação, apresentação do projeto a parceiros estratégicos e articulação com instituições públicas, acadêmicas e técnicas.
Estruturação das primeiras diretrizes da Política de Segurança da Informação do Sabiá Data Lake, definindo princípios, responsabilidades, controles de acesso, proteção de dados, rastreabilidade, uso aceitável dos recursos tecnológicos e procedimentos para reduzir riscos no tratamento de informações sensíveis em saúde.
Criação de termos, políticas, fluxos de acesso, documentação institucional e diretrizes para uso responsável dos dados.
O Sabiá Data Lake está sendo estruturado para receber, organizar e analisar dados sensíveis em saúde com atenção à LGPD, rastreabilidade, controle de acesso, documentação institucional, segurança da informação e uso ético dos dados.
Definição de perfis, permissões, autorização de acesso e responsabilidades dos usuários.
Criação de termos de confidencialidade, uso aceitável, solicitação de acesso e responsabilidade.
Registro de acessos, consultas, alterações e operações realizadas no ambiente do Data Lake.
Definição da estratégia de backup, recuperação, retenção, versionamento e continuidade do serviço.
Esta dashboard apresenta apenas uma estatística inicial do Sabiá Data Lake, construída a partir das informações disponíveis nesta fase do projeto. Os números e indicadores serão atualizados progressivamente conforme avançarmos nas próximas etapas, incluindo recebimento de novas bases, revisão dos dados, validação das informações, integração ao ambiente do Data Lake e consolidação dos processos de governança.