header correlação e causalidade-06-06

Experimentos de design e análise de dados: o que você precisa saber sobre correlação e causalidade

tirinha sobre correlação

Referência: http://dilbert.com/strip/2011-11-28

O processo de desenvolvimento de software passa por diversas fases iterativas, entre elas é comum que existam fases de experimentação e validação de hipóteses, para garantir que o sistema construído possua o mínimo de risco de falhar.

Digamos que um cliente contrate a Bravi para desenvolver um software que prevê o risco de evasão dos alunos de uma instituição.

Nosso time de design realizará experimentos para identificar qual a interface mais adequada. Ou seja, identificar como devemos desenhar as telas e as interações para possibilitar ao usuário uma melhor experiência enquanto utiliza o software. Você já tinha parado para pensar que decisões de design podiam ser fundamentadas em ciência? Legal, né?

Ao mesmo tempo, nosso time de Data Science (Ciência de Dados) realizará experimentos para identificar quais variáveis deverão ser incluídas no modelo preditivo, que por sua vez acusará o risco de evasão do aluno.Para isso, são realizados experimentos para compreender a relação causa-efeito de um dado (variável) sobre uma predição.

Este experimento é um tipo de pesquisa científica no qual o pesquisador manipula e controla uma ou mais variáveis independentes e observa seu impacto nas variáveis dependentes.

Confuso, não é mesmo? Ok, vamos explicar por partes e você vai ver como é simples.

Imagine o seguinte cenário:

exemplo data science

Causalidade é a relação entre um evento (a causa) e um segundo evento (o efeito), em que o segundo acontecimento é entendido como uma consequência do primeiro.

Nesse caso o que constitui a falácia é o salto imediato para a conclusão de causalidade, sem que esta seja devidamente demonstrada. Ou seja, não necessariamente um aluno desistiu porque possuía notas baixas.

Existem inúmeros fatores que podem influenciar o risco de evasão de um aluno, assim, torna-se necessária a avaliação de todos eles para se obter uma previsão precisa da evasão.

Em 2014, Aguiar e Chawla (Aguiar & Chawla 2014) realizaram um estudo onde evidenciaram a importância de se utilizar dados de engajamento para aumentar a qualidade das predições do modelo com relação à evasão.

Eles apontam que em alguns casos não há uma correlação substancial entre o desempenho do aluno e sua decisão em abandonar o programa de estudo. Isso pode ser observado quando alunos com desempenho acadêmico relativamente similares, tomam decisões diferentes sobre permanecer ou abandonar o programa.

Com o intuito de diminuir o erro de predição de modelos treinados somente a partir de dados de desempenho acadêmico, foram utilizadas uma série de variáveis que descrevem dados de desempenho (9 variáveis), demográficos (6 variáveis) e de engajamento (3 variáveis) dos alunos.

 

Associação, correlação e causalidade

Correlação é uma medida da associação entre duas variáveis. Ela pode ser calculada de diversas maneiras, cada uma com suas aplicações. Mas não vamos explicar como calcular, vamos falar sobre as situações mais comuns em que altas correlações não indicam causalidade, ou seja são correlações espúrias.

A primeira é quando duas coisas são relacionadas, e embora não exista relação causal entre elas, existe uma causa para os dois efeitos e dessa causa em comum resulta a correlação.

Vamos ver um exemplo? Existe uma correlação entre consumo de sorvetes e ataques de tubarão, mas sabemos que um não causa o outro (a não ser que o sorvete deixe as pessoas mais gostosas pros tubarões…). Com o calor, mais pessoas consomem sorvete e mais pessoas vão à praia. Com mais pessoas na praia, maior a chance de acontecerem ataques de tubarão. Assim temos o tempo quente como causa comum desses dois eventos.

correlação não é causalidade

O outro tipo de correlação espúria é quando a correlação existe por puro acaso, porém não existe nem causalidade entre os dois eventos e nem um causa em comum. Tyler Vigen fez um trabalho muito interessante e coletou várias dessas correlações espúrias e as reuniu em seu site. Um exemplo de correlação que ele mostra é a receita gerada por fliperamas e a quantidade de pessoas que terminaram doutorado em Ciência da Computação nos EUA. Obviamente esses dois eventos não estão estão relacionados, a correlação é fruto apenas do acaso.

 

exemplo de correlação sem causalidade

Referência: http://www.tylervigen.com/spurious-correlations

 

Mas então, como saber quando existe causalidade?

Esse assunto por si só é bem extenso e renderia facilmente outro texto. Para resumir de uma forma bem simplista e te deixar com vontade de saber mais vamos deixar aqui três passos retirados do blog Stats With Cats.

1) Verifique as métricas: antes de se animar sobre alguma relação causal certifique-se que seja estatisticamente legítima, através de um coeficiente de correlação que seja forte e significativo e de amostras que sejam realmente representativas da população sendo analisada.

2) Explique a relação:  após estar confiante nos resultados estatísticos uma boa prática é analisar a temporalidade dos dados. Se a causa nem sempre precede o efeito, então a relação é uma relação de feedback ou não é causal.

3) Valide a explicação: após estar contente com as etapas anteriores a melhor forma é realizar um experimento e acompanhar a consistência dos resultados. Um bom experimento precisa ser consistentemente replicável, porém confirmar essa relação pode ser muitas vezes difícil.

tirinha sobre correlação e causalidade

Referência: https://imgs.xkcd.com/comics/correlation.png

 

Outras referências:

Aguiar, E. & Chawla, N., 2014. Engagement vs performance: using electronic portfolios to predict first semester engineering student retention. Proceedins of the Fourth International Conference on Learning Analytics And Knowledge – LAK ’14, pp.103–112.

KERLINGER, F. N. Metodologia da pesquisa em ciências sociais: um tratamento conceitual. São Paulo: EPU/EDUSP, 1980.

http://www.slideshare.net/Hilmapsi/pesquisa-correlacional-modo-de-compatibilidade

https://www.coursera.org/learn/design-principles/lecture/Nt33i/designing-studies-you-can-learn-from

https://statswithcats.wordpress.com/2015/01/01/how-to-tell-if-correlation-implies-causation/

 

Matheus Magrin Blog_rounded_cornersMatheus Magrin
Data Scientist
matheus.magrin@bravi.com.br

 

 

Priscila Machado_rounded_cornersPriscila Machado
UX Designer
priscila.machado@bravi.com.br