Ir para o conteúdo principal
BlogEN

Governança de Dados para Startups e Times Pequenos: PII, Catálogo e Auditoria

·Francisco Ferreira·12 min de leitura

Governança de dados para startups é a prática de saber onde ficam seus dados sensíveis, quem tem acesso a eles, quando foram alterados pela última vez e se você conseguiria provar qualquer um desses pontos para um auditor ou para a ANPD. A maioria das startups ignora isso até que um vazamento, uma auditoria ou um dashboard com números claramente errados force o assunto. Quatro sinais cobrem as falhas mais comuns sem precisar de um time de dados dedicado: exposição de PII, schema drift, lacunas de atualidade e cobertura de auditoria.

Governança de dados é a combinação de políticas, responsabilidades e monitoramento que define quem pode fazer o quê com quais dados. Para um time pequeno, reduz-se a três perguntas operacionais: Onde estão nossos dados sensíveis? Quem os alterou e quando? Podemos confiar nos números agora?

Por que startups ignoram governança — e por que sai mais caro do que parece

O raciocínio habitual: governança parece burocracia de empresa grande, o time move rápido e não há engenheiro de dados dedicado para cuidar disso. São premissas razoáveis. O problema é que as falhas que a governança deveria prevenir continuam acontecendo. Elas apenas ficam sem detecção por mais tempo.

Três padrões de falha aparecem repetidamente em startups:

  • Schema drift silencioso. Uma coluna na tabela users muda de VARCHAR para TEXT, ou um campo é renomeado em uma API upstream. Queries downstream começam a retornar valores nulos. Nenhum erro dispara. O problema aparece três semanas depois, quando alguém percebe que o churn está em 0% no mês.
  • PII sem catálogo. Um engenheiro adiciona uma coluna raw_payload que contém e-mails. Ninguém documenta. A tabela entra em uma query de analytics conectada a uma ferramenta de BI com compartilhamento aberto. Esse é o tipo de exposição que a LGPD pune: não um ataque, mas um acesso indevido a uma coluna que ninguém rastreava.
  • Dado defasado tratado como atual. Um pipeline para de carregar por 18 horas. Os dashboards mostram os números de ontem. Uma reunião de vendas usa projeções baseadas em dados que não atualizam desde a manhã anterior. Nenhum alerta disparou.

Nenhum desses problemas exige um time de dados para ser prevenido. Exige quatro sinais de governança.

Os 4 sinais que realmente importam para times pequenos

A maioria dos frameworks de governança de dados foi desenhada para empresas com times dedicados e orçamentos de seis dígitos em ferramentas. Para uma startup rodando Postgres, Supabase ou BigQuery, a versão útil é mais simples: monitorar quatro sinais e agir quando eles dispararem.

Sinal O que detecta A falha silenciosa sem ele
Exposição de PII Dados pessoais em colunas ou tabelas inesperadas E-mails num campo raw_payload, conectado a uma ferramenta de BI com acesso aberto
Schema drift Mudança de tipo de coluna, renomeações, adições, remoções Um user_id renomeado anula silenciosamente três métricas downstream por duas semanas
Lacuna de atualidade Tabelas não atualizadas dentro do intervalo esperado Um pipeline quebrado serve dados de receita com 18h de atraso sem alerta e sem aviso no dashboard
Cobertura de auditoria Quem leu ou alterou dados sensíveis e quando Sem log de quem exportou a tabela users antes do incidente ser reportado à ANPD

Cada uma das quatro seções abaixo cobre um sinal em profundidade suficiente para implementar esta semana.

Detecção de PII: encontrar antes do regulador (e da ANPD)

Detecção de PII (Informação de Identificação Pessoal) é o processo de escanear o schema do banco e amostras de valores para identificar colunas que contêm dados capazes de identificar uma pessoa específica. O difícil não é achar a coluna email. É encontrar as colunas que nunca deveriam conter PII: payload, metadata, raw_event, observacoes.

Sob a LGPD, a ANPD não avalia se o armazenamento foi intencional. O que importa é se você sabia que os dados estavam lá e se os tratou adequadamente. Dados pessoais expostos sem ciência configuram infração mesmo sem má-fé do controlador.

Um scan de PII prático para um time pequeno:

1
Escaneie nomes de colunas. Sinalize correspondências com padrões como email, telefone, cpf, ip_address, data_nascimento, nome, endereco e variações comuns.
2
Amostre valores em colunas de texto livre. Rode uma passagem de regex em colunas TEXT e JSONB buscando padrões de e-mail, formato de CPF e endereços IP. Uma amostra a cada mil linhas é suficiente para identificar o problema.
3
Registre os resultados no catálogo. Cada coluna com PII precisa de um responsável e uma política de retenção. Isso é o mínimo para responder a uma Solicitação de Acesso do Titular (SAR) ou a uma investigação da ANPD.
4
Re-escaneie após cada mudança de schema significativa. Tabelas e colunas novas criadas num sprint podem introduzir PII sem que ninguém perceba. Governança exige scan recorrente, não auditoria pontual.

Não tem certeza de onde está a qualidade dos seus dados hoje? O diagnóstico gratuito de qualidade de dados do Tabkeel dá uma nota A–F em menos de dois minutos, sem cadastro.

O catálogo de dados mínimo viável

Um catálogo de dados é um inventário centralizado dos seus ativos de dados: quais tabelas existem, o que cada coluna significa, quem é responsável e se contém dados sensíveis. Catálogos enterprise custam seis dígitos e exigem um time para manter. Um time pequeno precisa de algo mais simples: um lugar onde um engenheiro novo consiga responder "o que é a coluna users.plano?" em menos de dois minutos.

O catálogo mínimo viável para um time pequeno cobre quatro campos por tabela:

  • Descrição: o que esta tabela contém e quem escreve nela
  • Responsável: o engenheiro ou time responsável pela acurácia dos dados
  • Flag de PII: se contém dados pessoais e quais colunas
  • SLA de atualidade: com que frequência deve atualizar e o que conta como desatualizado

Comece pelas cinco tabelas mais consultadas. Um catálogo 60% completo e mantido é mais útil do que um 100% completo e abandonado após o sprint.

O catálogo só é útil se ficar atualizado. Quando uma coluna é adicionada ou renomeada, o registro deve atualizar automaticamente — não depender do engenheiro lembrar de editar um Notion. É aqui que detecção de mudança de schema e governança se conectam: o monitoramento alimenta o catálogo em vez de exigir atualização manual. Veja como isso se encaixa numa prática de observabilidade de dados.

Schema drift como sinal de governança

Schema drift é quando a estrutura de uma tabela muda sem uma atualização correspondente nos sistemas downstream que dependem dela. É uma das causas mais comuns de falhas silenciosas de dados e uma das mais fáceis de monitorar.

Do ponto de vista de governança de dados, cada mudança de schema é um evento que precisa de um responsável notificado:

  • Uma coluna nova pode conter PII, disparando um scan automatizado
  • Uma coluna renomeada pode quebrar queries de métricas downstream, gerando alerta de atualidade ou anomalia
  • Uma coluna removida pode retirar dados que outros sistemas esperavam, causando falha de completude

O responsável pela tabela pagamentos precisa ser notificado quando pago_em muda de TIMESTAMP para DATE. A notificação é a governança em ação: não um documento de política, um sinal automatizado.

O Tabkeel detecta mudanças de schema em bancos conectados e alerta o responsável pela tabela em até duas horas, incluindo a mudança específica — nome da coluna, tipo antigo, tipo novo — e link para as métricas afetadas downstream.

Trilha de auditoria: o mínimo que vale a pena registrar

Uma trilha de auditoria responde uma pergunta depois que algo dá errado: quem fez o quê, em quais dados, e quando. É também a evidência principal apresentada à ANPD após um incidente de segurança.

A maioria das startups não tem trilha de auditoria. A razão prática: logging em nível de linha no Postgres exige triggers, uma tabela de log dedicada e manutenção contínua. Esse overhead é legítimo para um time de duas pessoas.

O mínimo que vale manter:

  • Log de acesso a tabelas com PII: quem leu dados de tabelas marcadas como sensíveis, com timestamp. É o registro apresentado numa SAR ou numa investigação da ANPD.
  • Log de mutação em dados de produção: quem rodou um DELETE ou UPDATE em massa e em quais linhas. A fonte mais comum de incidentes do tipo "para onde foram esses dados?"
  • Log de exportação: quem rodou uma query que retornou mais do que um volume-limite de linhas. O vetor mais comum de vazamento de dados não intencional.

Para Postgres ou Supabase, o pg_audit (open source) cobre os requisitos básicos de logging. Para BigQuery, o information schema e o audit log são nativos. O custo é o tempo de configuração, não o gasto com ferramenta.

Combine a trilha de auditoria com monitoramento de qualidade de dados: o log de auditoria diz quem alterou algo; o monitoramento de qualidade diz se essa mudança quebrou alguma coisa downstream.

Como montar isso em uma semana

Seg
Conecte somente-leitura. Dê ao seu sistema de monitoramento uma role somente-leitura no banco de produção. Apenas SELECT: sem escrita, sem deleção. É o único acesso que o Tabkeel precisa para scan de PII, detecção de schema drift e monitoramento de atualidade.
Ter
Rode o scan de PII. Revise os resultados. Para cada coluna sinalizada: esperado (documente), inesperado (investigue e remedie), ou incerto (amostre cinco linhas para confirmar).
Qua
Catalogue as cinco tabelas mais consultadas. Descrição, responsável, flag de PII, SLA de atualidade. Cerca de duas horas se alguém do time conhece bem as tabelas.
Qui
Ative alertas de schema drift. Um alerta por tabela crítica. Quando uma coluna mudar, o responsável recebe notificação. Sem checagem manual.
Sex
Ative logging de auditoria nas tabelas com PII. pg_audit para Postgres e Supabase; audit log nativo para BigQuery. Cerca de duas horas para configurar. É o mínimo para responder a um incidente ou a uma solicitação da ANPD.

Esforço na primeira semana: aproximadamente oito horas de engenharia. Depois disso, a maior parte roda automaticamente. O trabalho contínuo é revisar alertas e atualizar o catálogo quando tabelas mudam: uma a duas horas por mês.

Três erros de governança que startups cometem

Tratar governança como auditoria pontual. Um scan de PII feito uma vez mostra o estado de um único dia. Schema drift acontece continuamente. Novas tabelas são criadas. Engenheiros novos escrevem queries novas. Governança precisa ser contínua para ser útil.

Separar governança de monitoramento. Um catálogo de dados que não atualiza quando o schema muda é pior do que nenhum catálogo. Dá falsa segurança. Os times que funcionam conectam a camada de monitoramento diretamente ao catálogo: um alerta de schema drift atualiza o registro do catálogo e notifica o responsável ao mesmo tempo.

Esperar a contratação do time de dados. A dívida de governança acumulada enquanto você espera se compõe. Uma startup com doze meses de exposição de PII sem rastreamento e sem trilha de auditoria está em posição materialmente pior do que uma que gastou oito horas na primeira semana. Você não precisa de um time de dados para implementar o check de 4 sinais. A governança escala junto com o time quando você contratar.

A maioria das ferramentas nessa categoria começa com preço enterprise. O plano Free do Tabkeel monitora 10 tabelas com alertas de schema drift e detecção básica de PII. Sem cartão. Veja como se compara a outras opções na comparação de ferramentas de observabilidade de dados.

Perguntas frequentes

O que é governança de dados para startups?

Governança de dados para startups é um conjunto leve de práticas — detecção de PII, monitoramento de mudança de schema, alertas de atualidade e logging de acesso — que responde quatro perguntas: Onde estão nossos dados sensíveis? Quem pode acessá-los? Quando foram alterados pela última vez? Podemos confiar nos números agora? Não exige compliance officer nem ferramentas enterprise para implementar.

Startups precisam se preocupar com governança de dados?

Sim. Uma startup que manipula qualquer dado de usuário precisa saber onde fica o PII, o que mudou recentemente e se suas tabelas mais importantes estão atualizadas. Essas necessidades existem independentemente do tamanho do time. A diferença é escala: uma startup implementa o básico em horas, não em trimestres.

O que é PII em banco de dados?

PII (Informação de Identificação Pessoal) em um banco de dados é qualquer dado que possa identificar uma pessoa específica: nome, e-mail, telefone, CPF, endereço IP, ID de dispositivo, ou qualquer combinação que permita singularizar alguém. Sob a LGPD, isso é chamado de dado pessoal. O desafio é que PII frequentemente aparece em colunas inesperadas: raw_payload, event_properties, user_metadata, não só nas claramente nomeadas.

O que é schema drift e por que importa para governança?

Schema drift é quando a estrutura de uma tabela muda — uma coluna é renomeada, seu tipo muda ou ela é removida — sem que os sistemas downstream sejam atualizados. Para governança de dados, cada mudança de schema é um evento que precisa de um responsável notificado. Uma coluna renomeada pode quebrar silenciosamente queries de métricas por dias sem nenhum alerta. Monitorar schema drift é a versão automatizada do processo de revisão que a maioria dos times faz manualmente ou simplesmente não faz.

Como governança de dados se diferencia de qualidade de dados?

Governança de dados define as regras, responsabilidades e accountability pelos dados. Qualidade de dados mede o quanto os dados atendem a esses padrões. Governança sem monitoramento é um documento de política. Monitoramento sem governança são alertas sem responsável definido. A abordagem mais eficaz conecta os dois: governança define quem é dono de qual tabela; monitoramento detecta quando o dado fica abaixo desse padrão e roteia o alerta para a pessoa certa.

Artigos relacionados