Imagine que você acabou de se tornar prefeito de sua cidade. Você decide que quer aumentar a longevidade das pessoas que nela residem. Um modelo estatístico feito por sua equipe chega à conclusão de que pessoas que vivem mais, ingerem álcool com maior frequência. Você resolve então diminuir os impostos sobre as bebidas e permitir todos os tipos de comerciais que antes eram vetados. Zero restrição. Muitos incentivos ao consumo. O resultado? Redução na longevidade dos habitantes de sua pequena cidade.

Esquecido o fracasso do primeiro estudo, você segue a vida. Agora, está decidido a melhorar a educação da cidade. Você descobre então, por meio de outro estudo feito por sua equipe, que quanto mais livros os pais possuem em casa, melhores são as notas do aluno. Sendo assim, você enviou pessoas da sua equipe para distribuir livros por toda a cidade. O resultado? Nenhuma melhora. Isso mesmo. Nada. Zero. Mesmo tendo coletado as informações do número de livros de milhares de famílias, sabendo que as informações são sim verídicas, algo falhou. O que está acontecendo?

Para explicar direitinho, vou utilizar o próximo trecho do texto para explicar o que é um modelo estatístico. Sugiro que você fique comigo, mas se não aguentar, pode pular para a conclusão. Já vai te dar um norte do que ocorreu. Mas fica aí, vai. Sério. O tema é legal.

MODELOS ESTATÍSTICOS

Vamos partir de um modelo tranquilo. Quando fazemos um modelo estatístico, estamos criando uma equação para prever algo. Simples assim. Lembra de equação da reta no ensino médio? É isso. Veja, suponha que você queira saber o quanto os anos de estudos influenciam no salário. Para isso, você coleta dados de milhares de pessoas, faz algumas contas e chega na seguinte equação:

Salário = 700 + 100 x anos de estudo + u

Isso é um modelo estatístico. Olha que simples, é só uma equação. Ao substituir ‘anos de estudo’ por um número, você chegará no salário da pessoa. Em suma, o que ele diz é que cada indivíduo vai receber 700 reais, mais 100 reais por cada ano de estudo. Ou seja, alguém sem estudos vai ter um salário de 700 reais. Alguém que estudou por 1 ano, vai ter um salário de 800 reais (700 + 100*1). Alguém que estudou por 2 anos, 900 reais (700 + 100*2). E assim por diante.

Olha que legal, você não vai mais ficar perdido quando falarem de modelos perto de você. Apenas para deixar a explicação completa, grave na memória que salário é a variável resposta e anos de estudos a variável explicativa. Esses são termos que vamos usar mais a frente. Nos seus estudos como prefeito, longevidade e notas eram as variáveis respostas. Consumo de álcool e número de livros que os pais possuíam em casa eram as variáveis explicativas.

Então você me pergunta: o que é aquele “u”? Aí é que está nossa resposta! Isso é o que chamamos de erro do modelo. Pense comigo, por mais que anos de estudo influenciem bastante no salário, nossa previsão nunca vai ser exata. Pode ser por razões do acaso, como a sorte de ter encontrado um recrutador desesperado (ou despreparado) que te ofereceu mais do que você merecia. E também porque outros fatores podem ter alguma influência no salário, como habilidades interpessoais. Esses pequenos desvios, tais como erros de medições e outras coisas, fazem parte desse erro. Agora sim, você realmente sabe o que é um modelo estatístico.

AGORA SIM, O PROBLEMA

Uma das  premissas que assumimos nesses modelos é que o resíduo não pode conter variáveis relevantes ou altamente correlacionadas com nossas variáveis explicativas. Repare que, quando isso ocorre, a gente tem o resíduo explicando nossa variável resposta – no nosso exemplo, o salário seria explicado pelo resíduo. E, mais do que isso, você vai acabar atribuindo o efeito dessa variável deixada de fora à alguma variável incluída. Isso é o que chamamos de viés de variável omitida. E esse foi seu erro como prefeito. Nos dois estudos, uma variável relevante foi deixada no resíduo.

No nosso modelo usado como exemplo, salário era a variável resposta e anos de estudos a variável explicativa. Agora, troque salário por notas dos alunos e anos de estudos por quantidade de livros em casa. Temos um modelo para o exemplo do primeiro parágrafo. Veja que a educação dos pais não foi considerada no modelo. Ou seja, a educação dos pais faz parte do erro do modelo. Porém, ela é uma variável relevante, que tem forte influência na variável resposta. Além disso, ela tem forte correlação com a quantidade de livros em casa. Aí está o equívoco da sua equipe. Como vocês não consideraram essa variável, caíram no viés da variável omitida. Conclusão: não é a quantidade de livros em casa que influencia nas notas, mas sim a educação dos pais.

Do lado dos exercícios físicos, temos o mesmo problema. O autor considerou a variável “quantidade de álcool consumido”, mas se esqueceu de considerar que ela tem forte correlação positiva com sociabilidade. Pessoas mais sociáveis normalmente consomem mais álcool. E pessoas mais sociáveis tendem a viver mais. Ou seja, a variável que estava no erro, a sociabilidade das pessoas, era uma variável relevante e que se correlacionava com a quantidade de álcool ingerida. Seu time acabou se equivocando e o que era para ser o efeito da sociabilidade na longevidade, acabou sendo atribuído ao consumo de álcool. Conclusão: não era o álcool que fazia as pessoas viverem mais, e sim as relações interpessoais que elas possuíam.

Dados são facilmente coletados hoje em dia. No entanto, podem ser interpretados de várias formas. Modelos estatísticos, não importa em qual ferramenta você tenha feito, qual técnica utilizada, também podem conter erros. E esses erros nem sempre são de contas, derivadas e outras maluquices que a gente costuma encarar na faculdade. As pessoas assumem que estatísticos, matemáticos, ou outras formações, que trabalham com modelagem só pensam em números. Como pudemos ver nos exemplos acima, isso é verdade somente para os maus. Aos bons, resta saber interpretar, questionar e desafiar resultados.

Naruhodo 134 – Bebida Alcoólica Aumenta a Longevidade mais que Exercício Físico

Omitted Variable Bias – Econometric Review

Signo no modelo, vale?

Fonte das imagens:

https://www.queensjournal.ca/story/2015-10-15/arts/bringing-together-books-and-beers/

https://gph.is/1GhDD0S

https://techlecticism.com/making-jokes/

https://gph.is/2cpbE6Y