![]() ![]() Volume 22 - Novembro de 2017 Editor: Walmor J. Piccinini - Fundador: Giovanni Torello |
Julho de 2017 - Vol.22 - Nº 7 COLUNA PSIQUIATRIA CONTEMPORÂNEA PRECISAMOS DO VALOR P? Fernando Portela Câmara A recente controvérsia sobre a validade do valor-p
nos testes estatísticos culminou com os editores da revista Basic and Applied Social
Psychology (BASP) anunciando que a revista não
mais publicaria papers
contendo resultados baseados em valor p (p
value). Eles alegaram que esse tipo de
estatística era frequentemente usado para apoiar pesquisas de baixa qualidade (Trafimow D, Marks M. Basic Appl. Soc. Psych. 2015; 37: 1–2). A controvérsia continua e cada vez
mais a pressão para abandonar esse tipo de estatística inferencial aumenta. A questão surgiu com a crise da irreprodutibilidade
de resultados que afetou a credibilidade das revistas cientificas, a academia e
outros setores que dependem da produção cientifica. Um grupo de 72 proeminentes
estatísticos mostrou que a raiz do problema encontra-se nos teste de inferência
estatística baseados no valor p e na fixação do seu limite em p < 0,05. Alem
da baixa reprodutibilidade do valor p em experimentos repetidos, o valor p <
0,05 é uma fonte importante de resultados falsos positivos na literatura
científica, notadamente médica. Alguns pesquisadores já haviam proposto que
resultados com p entre 0,05 e 0,005 fossem
considerados apenas como “evidência sugestiva” e jamais como um resultado
significativo. O valor p é movediço, e algumas vezes um resultado significativo
desaparece quando se repete um experimento e se refaz sua análise estatística (Sellke T, et
al. Am. Stat. 2001; 55:
62–71). O valor p integra os chamados testes de significância da hipótese nula (TSHN), ainda muito
utilizados em biologia e psicologia. Pensa-se que quanto mais próximo de zero
é o valor p maior a chance de a hipótese nula ser falsa, e
por isso muitos
pesquisadores costumam fixar o valor p limite em 0,05. Ora, o valor p
não reflete isso, mas a probabilidade de obter um resultado tão extremo como o
observado se a hipótese nula fosse verdadeira. Daí porque os menores valores p
são convencionalmente interpretados como evidência forte de que a hipótese nula
é falsa, uma falácia. Os editores do BASP deixaram claro que um valor p
< 0,05 é “muito fácil de obter e algumas vezes serve
como uma desculpa para pesquisa de baixa qualidade”. Assim o valor p acaba se
tornando uma muleta para cientistas que lidam com dados fracos. Tendo
trabalhado com dados de muitos pesquisadores nas áreas da pesquisa biológica e
psicológica, concordo plenamente com os editores. Acrescento ainda que é comum entre os pesquisadores, até por desconhecimento,
fazer seus experimentos e depois buscar um teste para analisá-los, quando
deveriam planejar seus experimentos levando em conta a estatística a empregar. Não
é raro o pesquisador apelar para os TSHN como tentativa de
“salvar” amostras fracas e dados de má qualidade. Seria melhor evitar
analisar dados – geralmente muito fracos em nossas revistas – e buscar estudos
descritivos ou exploratórios procurando juntar volumes razoáveis e confiáveis
de dados. O valor p não reflete a qualidade das evidências, não garante a
precisão dos resultados e costuma levar a falsos positivos. É possível fazer
boa ciência sem precisar de TSHN, e tudo está na qualidade e tratamento que se
dá aos dados. As opiniões atualmente se dividem em face ao
problema dos TSHN. Para alguns cientistas, qualquer resultado deveria ser
publicado independentemente do valor p, assim trabalhos rejeitados por seus
resultados negativos poderiam ser publicados e com isso poderiam trazer contribuições,
especialmente na área médica. Outros defendem que nas ciências sociais e
psicológicas o valor p deveria ser fixado em p < 0,005.
Físicos de partículas usam p < 0,0000003 e
geneticistas que trabalham com sequenciamento genômico em doenças recomendam
fixar p < 0,00000005. Por fim, outros cientistas abandonaram os TSHN e
passaram a usar ferramentas mais sofisticadas como os testes de inferência
bayesiana, que requer definir e testar duas hipóteses alternativas. Os TSHN, contudo, não precisam ser banidos, e
deveriam serem usados somente em experimentos bem delineados e com dados
suficientemente precisos, sempre que a hipótese a ser testada estiver bem
amparada pelas evidências. Nesses casos, convém antes indagar se um teste
estatístico será realmente necessário. ![]()
|