Precisamos do valor p?

Psyquiatry online Brazil

polbr

Volume 22 - Novembro de 2017
Editor: Walmor J. Piccinini - Fundador: Giovanni Torello

Julho de 2017 - Vol.22 - Nº 7

COLUNA PSIQUIATRIA CONTEMPORÂNEA

PRECISAMOS DO VALOR P?

Fernando Portela Câmara

A recente controvérsia sobre a validade do valor-p nos testes estatísticos culminou com os editores da revista Basic and Applied Social Psychology (BASP) anunciando que a revista não mais publicaria papers contendo resultados baseados em valor p (p value). Eles alegaram que esse tipo de estatística era frequentemente usado para apoiar pesquisas de baixa qualidade (Trafimow D, Marks M. Basic Appl. Soc. Psych. 2015; 37: 1–2). A controvérsia continua e cada vez mais a pressão para abandonar esse tipo de estatística inferencial aumenta.

A questão surgiu com a crise da irreprodutibilidade de resultados que afetou a credibilidade das revistas cientificas, a academia e outros setores que dependem da produção cientifica. Um grupo de 72 proeminentes estatísticos mostrou que a raiz do problema encontra-se nos teste de inferência estatística baseados no valor p e na fixação do seu limite em p < 0,05. Alem da baixa reprodutibilidade do valor p em experimentos repetidos, o valor p < 0,05 é uma fonte importante de resultados falsos positivos na literatura científica, notadamente médica. Alguns pesquisadores já haviam proposto que resultados com p entre 0,05 e 0,005 fossem considerados apenas como “evidência sugestiva” e jamais como um resultado significativo. O valor p é movediço, e algumas vezes um resultado significativo desaparece quando se repete um experimento e se refaz sua análise estatística (Sellke T, et al. Am. Stat. 2001; 55: 62–71).

O valor p integra os chamados testes de significância da hipótese nula (TSHN), ainda muito utilizados em biologia e psicologia. Pensa-se que quanto mais próximo de zero é o valor p maior a chance de a hipótese nula ser falsa, e por isso muitos pesquisadores costumam fixar o valor p limite em 0,05. Ora, o valor p não reflete isso, mas a probabilidade de obter um resultado tão extremo como o observado se a hipótese nula fosse verdadeira. Daí porque os menores valores p são convencionalmente interpretados como evidência forte de que a hipótese nula é falsa, uma falácia.

Os editores do BASP deixaram claro que um valor p < 0,05 é “muito fácil de obter e algumas vezes serve como uma desculpa para pesquisa de baixa qualidade”. Assim o valor p acaba se tornando uma muleta para cientistas que lidam com dados fracos. Tendo trabalhado com dados de muitos pesquisadores nas áreas da pesquisa biológica e psicológica, concordo plenamente com os editores. Acrescento ainda que é comum entre os pesquisadores, até por desconhecimento, fazer seus experimentos e depois buscar um teste para analisá-los, quando deveriam planejar seus experimentos levando em conta a estatística a empregar. Não é raro o pesquisador apelar para os TSHN como tentativa de “salvar” amostras fracas e dados de má qualidade. Seria melhor evitar analisar dados – geralmente muito fracos em nossas revistas – e buscar estudos descritivos ou exploratórios procurando juntar volumes razoáveis e confiáveis de dados. O valor p não reflete a qualidade das evidências, não garante a precisão dos resultados e costuma levar a falsos positivos. É possível fazer boa ciência sem precisar de TSHN, e tudo está na qualidade e tratamento que se dá aos dados.

As opiniões atualmente se dividem em face ao problema dos TSHN. Para alguns cientistas, qualquer resultado deveria ser publicado independentemente do valor p, assim trabalhos rejeitados por seus resultados negativos poderiam ser publicados e com isso poderiam trazer contribuições, especialmente na área médica. Outros defendem que nas ciências sociais e psicológicas o valor p deveria ser fixado em p < 0,005. Físicos de partículas usam p < 0,0000003 e geneticistas que trabalham com sequenciamento genômico em doenças recomendam fixar p < 0,00000005. Por fim, outros cientistas abandonaram os TSHN e passaram a usar ferramentas mais sofisticadas como os testes de inferência bayesiana, que requer definir e testar duas hipóteses alternativas.

Os TSHN, contudo, não precisam ser banidos, e deveriam serem usados somente em experimentos bem delineados e com dados suficientemente precisos, sempre que a hipótese a ser testada estiver bem amparada pelas evidências. Nesses casos, convém antes indagar se um teste estatístico será realmente necessário.

TOP