How to Build a Cohort Analysis in BigQuery From GA4 Raw Event Data

Analisar coortes a partir de dados brutos do GA4 no BigQuery é um movimento estratégico para quem não quer depender apenas dos relatórios padrão. O desafio real é que a retenção, a conversão e a fidelização muitas vezes aparecem com números desalinhados entre GA4 e a exportação para BigQuery, especialmente quando há múltiplos touchpoints, cookies, consentimento e identificadores de usuário. Construir uma Cohort Analysis diretamente a partir dos eventos brutos permite mapear exatamente quando o usuário iniciou a interação, como evoluiu ao longo do tempo e qual foi o impacto da campanha em cada dia de aquisição, mantendo a visão de dados assimétrica entre canais, mídia e CRM. Este artigo entra direto na prática: como estruturar as tabelas, quais campos priorizar, quais armadilhas evitar e como chegar a métricas acionáveis sem depender de uma única fonte de verdade.

Você vai sair com um modelo replicável, capaz de exibir retenção, receita e engajamento por coorte ao longo de janelas definidas, integrando dados de GA4 com eventos de compra, conversão offline e interações via WhatsApp ou telefone. O objetivo é que, ao terminar, você tenha uma configuração pronta para diagnosticar desvios, planejar testes de growth e justificar investimentos com dados que resistem a escrutínio. A tese central é simples: coorte bem definida, identidade estável e validação cruzada entre fontes reduzem a incerteza na mensuração e aceleram decisões.

O maior desafio é reconciliar o que GA4 “mostra” por padrão com o que acontece quando você mede retenção pela primeira interação a partir do evento de aquisição.

Controles de identidade, timezone e consentimento influenciam a qualidade da coorte; sem levar isso em conta, a análise tende a distorcer a trajetória de retenção e de receita ao longo do tempo.

Por que construir uma Cohort Analysis a partir de GA4 brutos no BigQuery

Escopo prático: o que a coorte resolve que os painéis usuais não entregam

Os dashboards nativos costumam sumarizar dados com base em janelas fixas e métricas agregadas que não espelham a realidade do seu funil completo. Com GA4 exportado para BigQuery, você pode decompor a origem da primeira interação (coorte de aquisição), acompanhar a evolução de cada coorte ao longo de dias ou semanas e cruzar com eventos de venda, telefone, WhatsApp ou CRM. O resultado é uma visão de retenção diária, com a capacidade de separar canais, campanhas e evenuais offline que não aparecem no GA4 por si só.

Métricas-chave para decisão direta

Retenção por dia desde a aquisição, taxa de conversão por coorte, receita por coorte, tempo médio até a conversão, e churn rate quando aplicável. Além disso, é possível destrinchar pelo canal de aquisição, campanha, país ou dispositivo, o que ajuda a identificar gargalos que não surgem nos relatórios agregados. Em termos de governança de dados, esse approach facilita a validação cruzada com CRM e ciclos de venda, reduzindo a dependência de uma única fonte de verdade.

Entendendo o schema GA4 no BigQuery e o que extrair

Tabelas e campos-chave

O GA4 exporta dados para BigQuery em tabelas como events_YYYYMMDD, contendo campos como event_timestamp (em microssegundos), event_name, user_pseudo_id, user_id (quando disponível), event_params e user_properties. A identidade do usuário nem sempre é única entre plataformas; por isso é crucial entender onde cada informação está gravada, como os parâmetros de evento carregam dados de campanha (utm_source, utm_medium, utm_campaign) e onde ficam as propriedades de usuário (país, idioma, dispositivo). Além disso, o GA4 mantém os dados com salto de fuso horário e em milissegundos desde a epoch, o que exige alinhamento temporal cuidadoso na construção de cohorte.

Identidade do usuário e coortes

Para coortes estáveis, o ideal é definir a coorte pela data de aquisição do usuário, que pode ser inferida a partir do primeiro evento de interação (ex.: first_visit ou primeiro_event_name) ou do primeiro_value de uma propriedade de aquisição. Em BigQuery, isso geralmente envolve calcular, por usuário, a menor data de evento correspondente a uma ação de aquisição e usar esse valor como o “cohort_date”. Caso haja uso de user_id ou de identifiers cruzados com CRM, mantenha um mapeamento claro entre esses identificadores para evitar contagem duplicada de usuários dentro da mesma coorte.

Um cuidado importante é a consistência de timezone. A janela de retenção por dia deve ser calculada com base na data local da instalação/ação do usuário ou na data de evento em UTC, dependendo do seu modelo de atribuição. Se a sua estratégia envolve cruzar com dados offline (vendas por telefone, CRM), alinhe o dia de aquisição com o dia de contato correspondente para não distorcer a curva de retenção.

Guia prático: passo a passo para construir a coorte

Definição da coorte e estrutura de saída

Antes de começar, defina: (a) janela de aquisição (ex.: 7 dias, 14 dias, 30 dias) e (b) nível de granularidade de retenção (dia 0, dia 1, dia 7, etc.). A saída típica é uma tabela onde cada linha representa uma coorte de aquisição (data) e cada coluna representa o dia de acompanhamento (dia 0, dia 1, etc.), com métricas como usuários ativos e receita acumulada.

Roteiro de auditoria de dados e validação

Verifique se os dados de aquisição aparecem na ordem temporal esperada, confirme se não há saltos de timezone que criem deslocamentos indevidos entre dias, e confirme se os usuários não estão sendo contados mais de uma vez por grupo. Valide a correspondência entre eventos de aquisição e a primeira interação de cada usuário para evitar coortes infladas.

Roteiro de configuração (passos executáveis)

Determinar a janela de aquisição apropriada para o seu ciclo de compra (ex.: 7 dias para apps, 30 dias para e-commerce com alto ciclo de venda).
Identificar a métrica de aquisição mais confiável (ex.: primeiro_event ou first_visit) e extrair a data de aquisição por usuário.
Construir uma tabela base de coortes com cada user_pseudo_id associado a uma cohort_date (data da aquisição).
Unir a tabela base com os eventos GA4 (events_YYYYMMDD) para capturar a atividade de cada usuário ao longo das janelas de retenção desejadas.
Criar uma dimensão de dia de retenção (diff between event_date and cohort_date) para cada evento de usuário relevante (retenção, conversão, venda).
Calcular métricas por coorte: usuários ativos por dia de retenção, conversões por dia, receita por coorte (se houver eventos de compra), e retenção cumulativa.
Segmentar por canal, campanha ou fonte de tráfego usando data de aquisição (utm_source/utm_medium) para entender drivers de retenção por coorte.

Essa abordagem facilita a curva de retenção por coorte, permitindo comparar coortes com características distintas, por exemplo, aquisição via Meta vs. Google cuando há diferenças de experiência do usuário ou de qualidade de dados. A ideia é ter uma estrutura repetível, com etapas bem definidas para facilitar auditorias futuras e ajustes conforme o negócio muda.

Exemplo de saída e validação rápida

Imagine uma coorte iniciada em 2024-11-01 com 2.000 usuários. Ao dia 1, 1.400 ainda realizaram ações relevantes; dia 7, 900; dia 14, 700. Você terá uma matriz onde cada linha é uma coorte e cada coluna é o dia de retenção, permitindo comparar de forma direta a eficiência de diferentes canais ao longo do tempo. Em termos práticos, esse layout facilita a identificação de onde a retenção cai mais rápido e onde campanhas específicas perdem força, sinalizando onde investir em criativos ou ajustes de landing.

Erros comuns, armadilhas e decisões técnicas

Armadiadas técnicas que quebram a análise

Um problema recorrente é confundir aquisição com primeira conversão. Em muitos cenários, a primeira interação não é igual à conclusão da jornada—especialmente em ciclos longos ou quando há touchpoints offline. Outra armadilha é usar apenas user_pseudo_id sem Mapear para user_id ou CRM, o que pode dificultar a reconciliação com dados de vendas fechadas. Além disso, a posição do fuso horário pode deslocar dias de retenção, fraudando medidas como dia 0 e dia 1.

Quando a abordagem pode não servir de imediato

Se a base de dados não tem eventos suficientes por usuário ou se há grandes lacunas de dados de aquisição (por exemplo, tracking inconsistente entre plataformas), a coorte pode parecer estável mas não refletir a realidade de conversão. Em contextos com alta rotatividade de usuários (ex.: apps com churn rápido) ou com dados offline significativos, pode ser necessário incorporar métodos de imputação ou balanceamento de dados para evitar viés na curva de retenção.

Privacidade e consentimento são baristas finos: pequenos ajustes podem causar grandes variações no conjunto de dados se não forem tratados com cuidado.

Considere que a coorte é tão boa quanto a qualidade de identidade: se alguns usuários aparecem com user_pseudo_id duplicado ou com times de aquisição desalinhados, a comparação entre coortes perde valor.

Como validar e entregar insights práticos

Validação entre fontes e consistência

Compare a curva de retenção por coorte com as métricas equivalentes nos relatórios GA4 e com dados do CRM. O objetivo não é replicar exatamente o que o GA4 mostra, mas ter uma convergência de sinais: se a coorte A mostra retenção muito inferior à coorte B, verifique se houve ajustes de consent mode, bloqueio de cookies ou problemas de coleta de dados na campanha correspondente.

Governança e entrega de resultados

Documente as regras de identidade, janelas de retenção e a lógica de aquisição. Salve consultas-chave, mantenha uma cópia da definição de cada coorte por trimestre e garanta que dashboards de BI (Looker Studio, por exemplo) façam join com a mesma dimensão de aquisição. Quando possível, valide com dados de vendas ou CRM para confirmar que o valor de receita por coorte faz sentido à luz do ciclo de venda.

O pipeline típico envolve exportar eventos do GA4 para BigQuery, construir a coorte com base na data de aquisição, agregar atividade ao longo de dias de retenção e, por fim, exportar para um dashboard que permita cruzar com canais, campanhas e CRM. Embora os passos pareçam lineares, cada decisão—como a escolha entre data de aquisição baseada em first_visit ou em uma ação de aquisição específica—pode impactar fortemente a interpretação das curvas.

Consolidação prática e considerações finais

Construir uma Cohort Analysis a partir de GA4 raw event data no BigQuery exige visão clara de identidade, coerência temporal e um modelo de dados que suporte a comparação entre coortes ao longo do tempo. A partir de um conjunto de regras simples de aquisição, você obtém retenção, conversão e receita por coorte, com a flexibilidade de segmentar por canal e campanha. O valor está em manter o controle de qualidade dos dados, validar com fontes diversas e manter a auditoria como parte do fluxo de entrega.

Se você quiser discutir como adaptar essa abordagem ao seu stack—GA4, GTM Server-Side, CAPI, BigQuery e Looker Studio—ou precisa de um diagnóstico técnico para o seu ambiente, fale comigo pela Funnelsheet. Vamos alinhar a infraestrutura para que seus dados sejam úteis na prática, não apenas no papel.