Carreira

5 coisas que você PRECISA saber para iniciar em Analytics

POR
Vinícius Souza

É muito comum a maioria das pessoas se assustarem ao ouvir a palavra Matemática. Nosso ensino básico por décadas teve, como metodologia de ensino, a verdadeira decoreba de fórmulas e regras de bolso. Além disso, na grande maioria das vezes, não sabíamos a real motivação por trás daquele tópico ensinado e era comum termos a seguinte reflexão: "Nossa... Eu vou usar isso no dia de São Nunca". Relembrou a cena? Pois bem, trago agora verdades caro leitor:

O fatídico dia de "São Nunca" chegou, e veio para ficar!

Para trilhar o caminho de Analytics (Análise de Dados), muitos conceitos que você acabou ignorando, seja no ensino básico ou superior, serão necessários para uma boa atuação em projetos que envolvam dados a serem analisados (ou seja, em QUALQUER projeto atualmente).

"Matemática? Nãooooooo"....

Mas fique tranquilo. O caminho é mais fácil do que imagina. A boa notícia é que você não precisa fazer uma faculdade de Matemática ou Estatística para relembrar (ou mesmo aprender) os conceitos necessários. Até porque, como o belo infográfico abaixo nos mostra (com bom humor), muitos problemas do nosso cotidiano no trabalho são facilmente resolvidos sem conceitos avançados da Matemática.

"Pois é, no final o que importa mesmo é saber Excel"... rs

Neste artigo, vamos listar os 5 conceitos fundamentais para que qualquer um consiga se tornar um bom analista e prepare o terreno para a carreira de Ciência de Dados. Vamos lá?

1) Cálculo de Proporções, Frequências Relativas, Médias e Desvios Padrão

Não se engane. Ter boa familiaridade com esses conceitos (boa MESMO) resultará em GRANDES insights para sua análise. Interpretar seu conjunto de dados de forma a conseguir saber os valores mais frequentes, o valor médio e sua variabilidade (desvio padrão) já te coloca muito a frente de boa parte dos profissionais. Já cansei de ver gente inteligente e formada nas melhores faculdades, mas que derrapava MUITO na interpretação dos dados de uma apresentação de negócios.

Outro exemplo é a desinformação por parte da mídia ao usar erroneamente o conceito de "média" em boa parte das matérias vinculadas. Imagine um jornal de sua cidade com a seguinte manchete: "Cidade do Brasil tem renda de 8.000 reais (em média) para cada habitante". Parece uma boa ideia mudar para lá, certo? Muita calma nessa hora. O jornal só não te falou que 95% da população ganha 1.000 reais por mês e só 5% da população (que são os jogadores de futebol do time da cidade) ganham salários de centenas de milhares de reais. Como a média é uma medida muito afetada por valores discrepantes (os chamados Outliers), sua interpretação pode gerar várias conclusões incorretas como essa.

2) Interpretação de gráficos e tabelas

Gráficos e tabelas são tão importantes que parecem até um novo idioma. Assim sendo, todo profissional de Análise de Dados deveria "falar e ler" esse idioma fluentemente. Como a grande maioria dos dados estão organizados em tabelas (em geral, são os chamados dados estruturados), saber criar, ler e resumir os dados nesse formato torna-se essencial.

No entanto, por mais que saibamos analisar uma tabela, nosso cérebro ainda processa as informações mais "naturalmente" quando temos estímulos visuais. Por essa razão, plotar os dados de uma tabela em um gráfico objetivo e bem formatado é um skill super indicado para todo analista de dados. Nada como "bater o olho" em uma apresentação e já entender todo o comportamento dos dados apresentados.

3) Diferença entre Correlação e Causalidade

Muitos analistas incorrem no erro conceitual de associar uma "correlação" entre duas variáveis  como uma relação de causa e efeito. Quando uma variável aumenta quanto outra aumenta (ou diminui quando a outra diminui) temos uma relação de correlação entre elas. Veja um exemplo interessante abaixo:

Segundo o gráfico, quanto MENOS pessoas comem margarina ao longo dos anos, MENOS casais se divorciam no estado americano de Maine. Interessante, não? Acontece que mesmo assim, uma variável nitidamente NÃO É CAUSA da outra. Se fosse, os EUA poderiam proibir o consumo de margarina em prol da felicidade conjugal. Esse tipo de correlação, sem relação de causa e efeito, é chamada de correlação espúria. Para mais exemplos interessantes como este, veja aqui.

Geralmente, quando uma correlação sem relação de causa e efeito acontece, temos a influência de um terceiro fator escondido. Exemplo: Um estudo verificou a correlação entre a quantidade de sorvete consumido e a quantidade de afogamentos em piscinas. Será que a causa dos afogamentos é o consumo de sorvete? Talvez um terceiro fator que se correlaciona com os dois seja a causa. O "clima" poderia ser esse fator. Como no verão as pessoas tomam mais sorvete, elas também acabam se refrescando mais nas piscinas. O que aumenta a quantidade de afogamentos, proporcionalmente. Provar a causalidade de uma relação entre duas variáveis é difícil. As empresas farmacêuticas demoram anos para desenvolver um produto. Boa parte desse esforço é provar a relação de causa e efeito do remédio.

O jornalismo, a política, o mercado financeiro ou mesmo qualquer pessoa do nosso cotidiano, tenta explicar a relação entre dois eventos. É da natureza humana querer dar "sentido as coisas". Isso posto, sempre que ouvir alguém tentando explicar alguma relação, lembre-se: Correlação não significa causalidade!

4) Conceito de Amostra e População

A Estatística nos fornece uma ferramenta fundamental para tirar conclusões sobre uma população de interesse apenas com base em uma amostra. Essa ferramenta chama-se Inferência Estatística. Funciona da seguinte maneira: Imagine que um cientista de dados gostaria de saber quantas pessoas votarão no candidato à presidência X. Como é praticamente impossível entrevistar todos os eleitores, o cientista extrai uma amostra da população e entrevista somente os eleitores sorteados nessa amostra. Com base nisso, ele calcula a quantidade de eleitores da amostra que votarão no candidato X e, com o auxílio de técnicas estatísticas, consegue dar um grau de confiança para essa estimativa.

Mas onde mora problema? Se o cientista de dados não extrair a amostra com cuidado, pode chegar à conclusões totalmente incorretas. No exemplo acima, se na amostra só tivéssemos pessoas de um único estado do Brasil, sem dúvida alguma os resultados estimados estariam incoerentes. Este problema em Estatística é chamado Viés da Amostra e muita gente comete sem saber. Existem muitas causas para o viés de uma amostra. Conhecer essa teoria é muito importante para todo analista de dados.

5) O que esperar dos Modelos

"Todo modelo está errado. Mas alguns são úteis!". Nesta simples afirmação, porém cheia de significado, o estatístico George Box resume bem sobre a limitação dos modelos preditivos. Mas afinal, o que é um modelo? A definição mais bem aceita diz que um modelo "é uma simplificação da realidade". Ora, se é uma simplificação, é evidente que os modelos não acertam sempre. Se ele simplesmente indicar a direção correta já seria muito bom. Eis um exemplo: Será que existe um modelo preditivo que diz o quanto uma ação irá valorizar ou desvalorizar na Bolsa de Valores? Se existir, deve ser guardado a sete chaves, pois seria uma mina de ouro. E se existisse um modelo que acerta pelo menos a direção do preço de uma ação? Já não seria útil?

O que acontece no dia a dia é que muitas pessoas acabam confiando quase que cegamente em um modelo desenvolvido para resolver o seu problema. Sabendo que todo modelo está "errado", o Cientista/Analista de Dados deve então quantificar o grau de acurácia deste modelo, ou seja, a quantidade de vezes que ele acerta em média. Com essa informação em mãos, fica muito mais seguro utilizar o modelo para tomar decisões.

Mas e o Excel, SQL, Python, R etc ?

Perceba que em nenhum momento neste TOP 5 eu mencionei as ferramentas acima. A razão é muito simples: elas são apenas isso, ferramentas. Um VERDADEIRO analista não é aquele que somente usa bem as ferramentas, mas sim aquele que consegue extrair INFORMAÇÃO RELEVANTE dos dados. Para isso, é muito importante que conheça com profundidade todos os 5 tópicos conceituais acima. Uma vez entendido, parabéns, basta escolher qualquer ferramenta e aplicar!

E agora? Ficou na dúvida como compreender tudo isso? Fique tranquilo, estamos aqui para ajudar. A Preditiva Analytics é a única escola 100% dedicada ao ensino de Ciência de Dados.  Todos os temas acima são tratados com a profundidade adequada em nossa Trilha de Aprendizado em Analytics. Clique aqui e conheça nossos cursos.

Vinícius Souza
Bacharel em Matemática Aplicada pelo IME-USP, possui mais de 17 anos de experiência no mercado financeiro e no de serviços de Atendimento ao Cliente. Criou soluções em Analytics nas mais diversas áreas, entre elas: Auditoria Interna, Compliance, Risco de Crédito e Cobrança. Atuou como Head de Ciência de Dados em uma das maiores Fintechs do Brasil.
Continue lendo...
Data Lake: o que é e para que serve
LER MAIS
Web Scraping: o que é e para que serve
LER MAIS
ETL: a importância da Preparação de Dados
LER MAIS
Power BI: o que é e para que serve
LER MAIS
Newsletter Preditiva
Inscreva-se e fique por dentro de tudo que acontece no mercado de análise de dados
Obrigado! Aguarde nossas notícias no e-mail escolhido.
Ops. Alguma coisa deu errado.