Além da falta de incentivo para publicar estudos cujos resultados não são novos, há também o muito conhecido viés de resultados positivos — não raro, também um viés de resultados “dramáticos”. Como coloca o excelente site de difusão de discussões sobre ética científica Retraction Watch, estudos que mostram que algo tem um efeito positivo sobre alguma outra coisa têm uma probabilidade muito maior de serem publicados do que estudos que mostram a ausência de efeitos.
Chegamos então ao texto para discussão que acaba de ser disponibilizado no NBER. Os autores Luigi Butera e John A. List trazem uma proposta inovadora para alterar um pouco o sistema de incentivos em favor de estudos que foram replicados pelo menos uma vez. A razão para tanto é que um único estudo de replicação que confirme o resultado positivo aumenta drasticamente a probabilidade daquele achado ser verdadeiro. Ainda está longe de ser o suficiente para ter certeza (certeza é algo muito difícil em ciência), mas é uma ajuda muito forte que eliminaria boa parte dos falsos positivos que são criados todos os anos por pesquisas sem replicação.
Para entender como um estudo afeta a probabilidade de um efeito ser verdadeiro, recomendo o texto muito didático de Altman, N. e Krzywinski, M. (2017)
Bom, qual a ideia de Butera e List, afinal? Traduzo aqui o resumo do texto deles:
Por sua própria natureza, novos achados empíricos tendem a ser não-antecipados e em algumas casos contradizem o atual estado de conhecimento em um tópico. A mecânica da inferência estatística sugere que tais achados iniciais, mesmo quando robustos e estatisticamente significativos dentro do estudo, não deveriam mudar de forma apreciável os priors* do fenômeno sob investigação. Ainda assim, poucas replicações bem concebidas e independentes dramaticamente melhoram a confiabilidade de novos achados. Ainda assim, os incentivos para replicar dificilmente são encontrados nas ciências, especialmente nas ciências sociais. Propomos um mecanismo de incentivos compatível com a promoção da replicação e usamos a economia experimental para iluminar nossa abordagem. Começamos reportando resultados de um experimento no qual investigamos como a cooperação em jogos alocativos é afetada pela presença da incerteza Knightiana, uma característica muito presente nos bens públicos, porém pouco explorada. Contrariando as expectativas, encontramos que adicionar incerteza aumenta a cooperação. Esse resultado surpreendente serve como um teste de caso para nosso mecanismo: ao invés de mandar este artigo para um periódico com revisão por pares, nós o tornamos disponível online como um texto para discussão, mas nos comprometemos a nunca submetê-lo a um periódico para publicação. Ao invés disso, nós ofereceremos co-autoria em outro artigo com outros autores, ainda a ser escrito, que estejam dispostos a replicar nosso estudo. Esse segundo artigo fará referência a este texto para discussão, incluirá todas as replicações e será submetido para um periódico com revisão por pares para que seja publicado. Nosso mecanismo permite ganhos mutuamente benéficos para o intercâmbio entre os investigadores originais e outros acadêmicos, alivia o problema de viés de publicação que comumente circunda novos resultados experimentais e acelera o avanço da ciência econômica ao alavancar os mecanismos de inferência estatística. (Butera e List, 2017).
*Prior é a probabilidade de uma hipótese ser verdadeira antes de uma observação empírica que a comprove seja realizada. Por exemplo, o prior de uma hipótese como “beber água aumenta o risco de câncer” é infinitamente baixo, isto é, a hipótese é extremamente implausível. Um estudo que a confirme aumenta a plausibilidade da hipótese ser verdadeira, mas como originalmente ela era muito implausível ela continuará implausível após o estudo a confirmar. Seriam necessários muitos estudos para que pudéssemos ter confiança numa hipótese dessas. Já o prior de uma hipótese como “o aumento da renda de uma pessoa aumenta seu consumo” é extremamente alto, isto é, a hipótese é muito plausível. Um estudo que a comprove aumenta ainda mais a chance dela ser verdadeira. Mas esses são dois extremos banais que podemos dizer que os priors são extremamente baixos ou altos com segurança. Na maioria dos casos é difícil dizer qual é o prior de uma hipótese, daí a importância de ter um ou mais estudos testando e falseando hipóteses. Recomendo novamente este artigo da Nature para quem tiver dúvida. Para quem prefere em português, esse texto da Universo Racionalista é muito didático para explicar estatística bayesiana.
Por que considero essa proposta dos autores uma boa proposta? Ela traz uma solução engenhosa para mais de um problema nas ciências. Não é apenas que a confiança nos estudos publicados poderá aumentar significativamente, pois terão passado por pelo menos uma replicação bem-sucedida. Isso claramente é por si só fantástico o bastante para merecer um teste. Além disso, há um outro problema cada vez maior nas ciências como um todo — mas nas ciências sociais de forma mais marcante — quanto ao tempo que leva para uma pesquisa chegar no ponto de ser publicada em um periódico.
Com o sistema proposto pelos autores, cria-se não apenas um incentivo para publicar artigos melhores, com maior confiança, com maior cooperação entre especialistas e maior ênfase na adequação dos achados empíricos, como também estimula-se aumentar a qualidade dos textos disponíveis rápida e gratuitamente na forma de textos em desenvolvimento. A publicação em duas etapas vinculada dessa forma pode aumentar a qualidade tanto do acesso aberto quanto do acesso pago, sem comprometer nenhum dos dois. Os autores do primeiro texto são recompensados com um estudo de maior peso e maior impacto e os autores do segundo texto podem contar com um esforço cooperativo de peso por estarem em diálogo direto com os autores originais.
Pessoalmente, achei a estrutura básica de incentivos bem pensada, sendo algo que valeria a pena trabalhar em cima e fazer os ajustes finos necessários para pelo menos testá-la. E vocês, o que acham da ideia?
Referências:
Butera, L., & List, J. (2017). An Economic Approach to Alleviate the Crisis of Confidence in Science: With an Application to the Public Goods Game (No. 00608). The Field Experiments Website.
Altman, N., & Krzywinski, M. (2017). Points of significance: P values and the search for significance. Nature Methods, 14(1), 3-4.
Nuzzo, R. (2014). Statistical errors. Nature, 506(7487), 150.
Complexo, sobremaneiramente útil no âmbito acadêmico e desafiador a todos que trabalham na área da pesquisa 🔎 científica.
Complicado avaliar as replicações de forma correta. Leram este comentário?
Comment on “Estimating the reproducibility of psychological science”
Daniel T. Gilbert1,*,†, Gary King1, Stephen Pettigrew1, Timothy D. Wilson2
Science 04 Mar 2016:
Vol. 351, Issue 6277, pp. 1037
DOI: 10.1126/science.aad7243
Abstrat
A paper from the Open Science Collaboration (Research Articles, 28 August 2015, aac4716) attempting to replicate 100 published studies suggests that the reproducibility of psychological science is surprisingly low. We show that this article contains three statistical errors and provides no support for such a conclusion. Indeed, the data are consistent with the opposite conclusion, namely, that the reproducibility of psychological science is quite high.
Olá Mariangela, editei o texto inserindo essa réplica de Gilbert et al. Obrigado pela indicação e correção! Abraços.