Parte importante do método científico consiste em testar hipóteses, realizando experimentos e coletando dados, mas como chegar à conclusão que os resultados do seu experimento são válidos? Como decidir se o efeito estudado é expressivo e dizer com confiança que a variação observada nos dados coletados não são causados por mera imprecisão das medições? Como afirmar que o fenômeno observado numa amostra pode ser generalizado para toda uma população?

Para tentar responder essas perguntas, os cientistas utilizam modelos estatísticos e testes de hipóteses para analisar os dados e testar a validade de resultados. Por meio da inferência estatística, os testes de hipótese são utilizados para tomar a decisão de aceitar ou rejeitar a hipótese nula.

“Mas o que é uma hipótese nula?”

Que bom que você perguntou. Antes de se realizar um experimento, formula-se uma hipótese nula (H0), normalmente afirmando que não existe relação entre os grupos de dados ou entre os fenômenos observados. A forma com que H0 é definida é muito importante, pois pode determinar a sua validade no final da análise.

Com H0 definida e os dados coletados, é realizado o teste de hipótese, adequado ao tipo de dado que está sendo analisado, esse teste vai gerar uma probabilidade de significância, chamado de valor-p. Quando esse valor está abaixo do nível de significância, geralmente 0.05 (5%), rejeita-se H0.

O valor-p está abaixo do nível de significância, portanto, a hipótese nula é rejeitada.

  • O valor-p NÃO representa a probabilidade de H0 ser verdadeira

“O p calculado é de 0.04, por tanto, tenho 96% de certeza que os dados são correlacionados.”

Quanto menor o valor de p, maior a incompatibilidade estatística entre o conjunto de dados e H0, se as suposições utilizadas para calcular p forem verdadeiras, essa incompatibilidade pode ser interpretada como evidência contra H0.

  • O valor-p NÃO representa a chance dos dados coletados serem coincidência

“Mas olha esse p, deu 0.035, então a probabilidade de obter esse resultado apenas por sorte é de 3.5%.”

O p afirma sobre uma possível relação entre os dados e uma explicação hipotética, não afirma nada sobre a explicação hipotética.

  • O valor-p NÃO representa a magnitude do efeito observado

“Esse tratamento foi testado e teve um efeito comprovado com p de 0.02, então ele é mais efetivo que esse outro tratamento, com p de 0.04.”

Um valor de p pequeno não implica necessariamente na presença de efeitos maiores ou mais importantes. Qualquer efeito, mesmo que pequeno, pode produzir um p pequeno, desde que as medidas sejam precisas o suficiente. Efeitos grandes podem produzir p grande se as medidas forem imprecisas ou a amostra for pequena.

  • O nível de significância 0.05 é uma convenção

O nível de significância de 5% é geralmente utilizado para dividir os resultados estatisticamente significantes dos resultados não-significantes, entretanto um p sem contexto é uma informação limitada. Valores de p próximos à 0.05 são evidências fracas contra ou à favor de H0. Infelizmente, costuma-se focar no valor de p e ignorar todos os outros fatores.

Agora que você já sabe como funciona o valor-p, vamos aplicar essa metodologia:

Suponha que você quer verificar se um dois dados não estão viciados. A hipótese nula é que eles são uniformes e a probabilidade de cair para cima é a mesma para os seis lados.

Você rola os dois dados e percebe que ambos caem com o 6 para cima.

A probabilidade da soma dos lados dos dois dados ser igual a 12 é de 1/36 = 0.028.

A distribuição de probabilidade da soma dos lados de dois dados segue uma distribuição gaussiana. Como o teste é unicaudal, o valor-p do resultado é 0.028.

Se você considerar o nível de significância como 0.05, o p de 0.028 mostra que a hipótese nula pode ser rejeitada, ou seja, conclui-se que os dados estão viciados.

Observe que nesse caso a conclusão pode estar incorreta. O resultado de apenas um rolamento de dados não é suficiente para se chegar a conclusões válidas sobre os dados. Ao interpretar um valor-p, outros parâmetros, como o tamanho amostral, devem ser levados em consideração.

Fonte: https://xkcd.com/1132/

Agora, suponha que você quer testar uma moeda. A hipótese nula é que a moeda é justa, ou seja, a probabilidade de cair cara é igual a probabilidade de cair coroa (50%).

Você, lembrando que o tamanho amostral é importante, joga a moeda 10 vezes e observa que ela cai sempre alternada: Cara, Coroa, Cara, Coroa, Cara, Coroa, Cara, Coroa, Cara, Coroa.

O valor-p é a probabilidade de obter Cara, ou Coroa, cinco vezes em dez lançamentos, multiplicado por 2, pois é um teste bicaudal.

O p calculado é 0.492, bem acima do nível de significância 0.05 e você logo conclui que a moeda é justa.

Mas considere que a hipótese nula formulada inicialmente avaliasse a quantidade de resultados alternados.

O valor-p é a probabilidade de obter resultados alternados em dez lançamentos, multiplicado por 2.

Nesse caso, o p de 0.0039 é muito significante, indicando que o padrão observado nos resultados é muito improvável. A moeda pode estar sendo jogada por alguém que está forçando resultados alternados.
Isso mostra que o p depende completamente do tipo de teste que está sendo utilizado e da forma com que se define H0. O valor de p indica se a hipótese nula deve ser rejeitada ou não, mas não leva em consideração outras hipóteses.

Deliberadamente, eu não mencionei alguns detalhes mais técnicos, como a diferença entre teste unicaudal e bicaudal, distribuição normal, amostragem representativa, desvio padrão e hipótese alternativa, para não deixar o texto imenso e entediante e focar mais na forma correta de como interpretar o valor-p.

Com o uso dessa ferramenta estatística os ciêntistas podem encontrar os resultados que melhor explicam a nossa realidade e tornam a ciência uma fonte confiável de conhecimento… Ou será que não?

DAN DAN DAAAAN

Referências

Ronald L. Wasserstein, Nicole A. Lazar. (2016) The ASA’s Statement on p-Values: Context, Process, and Purpose. The American Statistician 70:2, pages 129-133. Link.

http://www.exercisebiology.com/index.php/site/articles/what_is_a_p_value/

https://www.youtube.com/watch?v=i8wi0QnYN6s

https://en.wikipedia.org/wiki/P-value

https://en.wikipedia.org/wiki/Misunderstandings_of_p-values