Tutorial

Análise de Dados com Claude: Como Estruturar o Projeto Para Não Depender de Achismo

POR

Fernando Itano

A maioria das pessoas que começa a usar IA para análise de dados comete o mesmo erro: sobe a planilha, escreve "analise esses dados" e espera. O resultado é uma análise sem contexto de negócio, tomada de decisão pela IA em pontos críticos que você nem notou, e um output que parece convincente mas é impossível de auditar.

O problema não é a ferramenta. É a ausência de método.

A regra que muda tudo: toda informação que você não fornecer, a IA vai preencher

O Claude fala com convicção. Se você não especificar qual técnica usar, ele escolhe uma. Se você não descrever o que significa cada variável, ele interpreta. Se você não definir o objetivo do projeto, ele define por conta própria.

Isso não é um defeito. É o comportamento esperado de um modelo de linguagem. O problema é aceitar essas decisões sem validar.

A saída é simples: estruture o contexto antes de fazer qualquer pergunta. Quanto mais detalhes você fornecer, menos margem a IA tem para alucinações, e menos tokens você desperdiça corrigindo coisas que poderiam ter sido especificadas de início.

A planilha com quatro abas que organiza um projeto do começo ao fim

Em vez de subir os dados direto, a estrutura que funciona é organizar a planilha em quatro guias antes de acionar o Claude.

Método. O passo a passo analítico que a IA vai seguir. Quais etapas, qual técnica em cada fase, o que é esperado como resultado. Aqui usamos o CRISP-DM como base. Se você quiser que ela crie uma tabela de frequência para variáveis categóricas e um histograma para variáveis numéricas, precisa escrever isso explicitamente. Se não escrever, ela decide.

Contexto. O problema de negócio: o que a empresa quer responder, quais informações já estão disponíveis, quais hipóteses a área de negócio levanta. Esse contexto restringe o escopo de interpretação e ajuda a IA a gerar hipóteses e planos de ação coerentes com a realidade da empresa.

Metadados. A descrição de cada variável da base. "Data da compra", por exemplo: é a data de aprovação ou do pedido? O formato é DD/MM/AAAA ou MM/DD/AAAA? A variável "interesse" tem valores nenhum, baixo, médio, alto ou existe alguma outra convenção? Sem isso, a IA preenche com suposições.

Base de dados. Só aqui entram os dados. E uma regra: nenhuma informação que identifique individualmente uma pessoa. Sem nome, e-mail, CPF ou telefone. Para a maioria das análises, esses campos nem fazem falta, e a ausência deles elimina o risco de vazamento.

Essa estrutura não é burocracia. É o que diferencia um projeto auditável de um conjunto de outputs que ninguém sabe validar.

O projeto na prática: leads de uma operadora de telefonia

Na live, o problema era real: uma operadora recebe diariamente um volume de leads interessados em fazer upgrade do plano. O time comercial tem capacidade para atender 1.000 pessoas por dia. Como priorizar quem atender primeiro para maximizar conversões sem aumentar a equipe?

A base tinha três variáveis: ID do cliente, nível de interesse declarado no upgrade (nenhum, baixo, médio, alto), e idade. A variável resposta era se a pessoa fez a migração para o plano pós-pago.

Etapa 1. Entendimento do negócio

Com o contexto e os metadados preenchidos, o Claude leu as abas e levantou as perguntas de negócio por conta própria:

Quais características do lead estão associadas à maior probabilidade de compra?
O interesse declarado em upgrade é um bom preditor de conversão?
A faixa etária influencia a decisão de compra?
Se o time priorizar os 1.000 leads com maior propensão, quantas vendas a mais isso gera?

Essas perguntas não estavam escritas assim na planilha. Vieram da leitura do contexto. É o tipo de contribuição que justifica usar a IA para mais do que execução mecânica.

Etapa 2. Qualidade dos dados

O Claude identificou problemas que não estavam documentados. A variável "interesse de upgrade" tinha erros de digitação: "alto", "Alto" e "alto " (com espaço) sendo tratados como categorias diferentes, além de registros numéricos como "0", "1", "2", "3" que não correspondiam ao dicionário de dados. Havia também 291 registros sem o campo preenchido e seis idades negativas.

A instrução no método pedia que os cálculos usassem fórmulas e tabelas dinâmicas, não Python. O motivo é auditoria. Se o Claude calcula em Python e trava um número numa célula, você não tem como verificar. Com fórmula, você vê o CONT.SE, confere se está buscando da aba certa, e valida o resultado.

Ele não seguiu isso na primeira tentativa. Foi necessário corrigir. Depois, com fórmulas criadas, ficou possível ver exatamente o que estava sendo contado, incluindo quando ele somou duplicatas por insensibilidade a maiúsculas no Excel.

Etapa 3. Análise das variáveis

A técnica usada foi o IV (Information Value), adequada para quando se tem uma variável resposta binária (comprou ou não comprou) e se quer ranquear o poder preditivo de outras variáveis.

Resultado:

Interesse em upgrade: IV = 0,30 (poder preditivo forte)
Idade: IV = 0,01 (poder preditivo fraco)

Quando olhamos a taxa de compra por categoria de interesse, a variável faz sentido do ponto de vista de negócio:

Nível de interesseTaxa de conversãoNenhum28%Baixo38%Médio49%Alto68%

A faixa etária ficou entre 39% e 45% em todas as faixas. Variação pequena o suficiente para não justificar priorização por esse critério.

Uma nota sobre IV alto: quando passa de 0,5, é sinal de alerta. Pode indicar overfitting ou que uma variável derivada da resposta vazou para a base. Não significa que o resultado está errado, mas precisa ser verificado com cuidado antes de confiar.

Simulação de impacto: R$1,1 milhão por ano sem contratar ninguém

Com a análise concluída, o Claude montou a simulação financeira. A premissa era simples: atender 1.000 leads por dia, priorizando os de maior interesse.

Cenário aleatório (sem priorização)

1.000 leads atendidos com taxa geral de 41,7%, gerando 417 conversões por dia. Com ticket médio de R$20 por upgrade: R$8.340 por dia.

Cenário priorizado (alto + médio primeiro)

717 leads com interesse alto (68% de conversão) mais 283 com interesse médio (49%), totalizando 625 conversões por dia. Com ticket de R$20: R$12.500 por dia.

Ganho incremental: R$4.162 por dia, R$91.364 por mês, R$1,1 milhão por ano.

Sem aumentar o time. Sem mudar o produto. Apenas reordenando a fila de atendimento com base nos dados disponíveis.

Esse número ancora a decisão. Qualquer discussão sobre implementar ou não a priorização agora tem um referencial quantitativo, e o modelo pode ser atualizado conforme a empresa fornece mais variáveis ou ajusta as premissas.

O que muda no seu trabalho

O papel que a IA assume aqui é de copiloto com capacidade de execução. Você define o método, fornece o contexto, valida cada etapa. Ela executa mais rápido, identifica erros internos, e registra o histórico. Cada prompt passa a ser uma continuação da análise, não um comando isolado que não conversa com os anteriores.

A habilidade que fica valorizada não é saber apertar botão. É saber o que pedir, como estruturar o problema, e como reconhecer quando o resultado não faz sentido. Fundamento técnico e método analítico são o que permitem isso.

A ferramenta muda. O que você sabe sobre análise de dados, não.

‍

Fernando Itano

Bacharel em Estatística pelo IME-USP, Doutor em Inteligência Artificial pela POLI-USP. Possui mais de 19 anos de experiência desenvolvendo modelos para as áreas de Riscos, Jurídico, Prevenção a Fraudes, CRM e outros. Atuou também como Gerente de Ciência de Dados com foco em Inovação, MLOps e Governança de modelos.

Continue lendo...

Análise de Dados com Claude: Como Estruturar o Projeto Para Não Depender de Achismo

O que faz um Analista de BI na prática (e por que não é só dashboard)

MLOPS: a importância das operações de Machine Learning

Cientista de Dados: a profissão do presente que está definindo o futuro