¡Ups! Después de todo, no hay "crisis de replicabilidad" en la ciencia psicológica

Cuando tiene un proyecto de investigación, Open Science Collaboration (OSC), que incluye a 270 científicos que trabajan en ciencia innovadora, esperaría que entendieran correctamente algunos de los conceptos básicos. Como diseñar un estudio aleatorio que fuera metodológicamente sólido y pudiera resistir el escrutinio de sus compañeros.

Pero el artículo pionero publicado en agosto de 2015 por 44 investigadores, "Estimación de la reproducibilidad de la ciencia psicológica" (Nosek et al., 2015) parece haber tenido algunos defectos importantes. Un nuevo artículo sugiere que, después de todo, no existe una "crisis de replicabilidad" en psicología.

Cuatro investigadores de la Universidad de Harvard y la Universidad de Virginia (Gilbert et al., 2016) publicaron sus hallazgos en Ciencias (su sitio web de réplicas de psicología aloja todos los datos y el material). Creen que encontraron tres errores estadísticos importantes en el estudio original que cuestionan seriamente sus hallazgos. Los nuevos investigadores afirman: "De hecho, la evidencia es consistente con la conclusión opuesta: que la reproducibilidad de la ciencia psicológica es bastante alta y, de hecho, estadísticamente indistinguible del 100%".

¡Ups!

El estudio original (Nosek et al., 2015) intentó reproducir los hallazgos de 100 experimentos informados en artículos publicados en 2008 en tres revistas de psicología de alto rango. La primera crítica del estudio es que esta no fue una selección aleatoria de estudios de psicología. En cambio, el grupo de Nosek limitó su selección de estudios a solo tres revistas que representan dos insignificantes disciplinas de la psicología, dejando de lado áreas importantes como la psicología clínica y del desarrollo. Luego, Nosek et al. empleó un conjunto complejo de reglas y criterios arbitrarios que en realidad descalificaron a más del 77 por ciento de los estudios de las tres revistas que examinaron.

La investigación que comienza con una muestra sesgada seguramente tendrá problemas. Al no comenzar con una muestra aleatoria, los investigadores ya ayudaron a preparar el escenario para sus decepcionantes hallazgos.

Cambiemos (significativamente) los estudios que replicamos

Incluso peor que comenzar con una muestra sesgada y no aleatorizada fue la forma en que los investigadores llevaron a cabo las réplicas. Primero, los investigadores invitaron a "equipos particulares a replicar estudios particulares o permitieron que los equipos seleccionaran los estudios que deseaban replicar". En lugar de asignar aleatoriamente a los investigadores a los estudios que se replicarán, dejaron que los investigadores eligieran, incorporando los sesgos de cada investigador, para quizás elegir los estudios que pensaban que tenían menos probabilidades de ser replicados.

Los nuevos estudios a veces diferían significativamente de los estudios antiguos que intentaban replicar. Aquí hay solo uno (de al menos una docena) ejemplos de cómo el estudio replicado introdujo complicaciones significativas:

En otro estudio, los estudiantes blancos de la Universidad de Stanford vieron un video de otros cuatro estudiantes de Stanford discutiendo las políticas de admisión en su universidad (Crosby, Monin y Richardson, 2008). Tres de los comentaristas eran blancos y uno era negro. Durante la discusión, uno de los estudiantes blancos hizo comentarios ofensivos sobre la acción afirmativa, y los investigadores encontraron que los observadores miraban mucho más tiempo al estudiante negro cuando creían que podía escuchar los comentarios de los demás que cuando no podía. Aunque los participantes en el estudio de replicación eran estudiantes de la Universidad de Amsterdam, vieron el mismo video de estudiantes de Stanford hablando (¡en inglés!) Sobre las políticas de admisión de Stanford.

¿Podrían los estudiantes de una universidad de Ámsterdam comprender realmente qué era la acción afirmativa en Estados Unidos, dadas las importantes diferencias culturales entre la sociedad estadounidense y la de Ámsterdam? Sorprendentemente, los investigadores que realizaron la réplica dijeron que los estudios eran "prácticamente idénticos" (y, naturalmente, están predispuestos a decirlo, ya que es su estudiar). Sin embargo, los investigadores originales, reconociendo las diferencias culturales significativas en las dos poblaciones, no respaldaron el nuevo estudio de replicación.

Gilbert y sus colegas encontraron este tipo de problema no solo en uno, sino en muchos de los estudios de replicación. Parece extraño que Nosek et al. Sentí que este tipo de inconsistencias no afectarían la calidad del estudio (o la "fidelidad", como lo llaman los investigadores). Sin embargo, es evidente que se trata de diferencias cualitativas importantes que seguramente afectarían la replicabilidad del estudio.

¡Necesitamos más energía!

Un estudio puede sostenerse o caer sobre su diseño. Y una parte clave del diseño de un estudio de investigación es su poder. El estudio de replicación utilizó un diseño que probablemente estaba condenado al fracaso desde el principio. Los diseños de baja potencia no pueden captar tamaños de efecto que los estudios de mayor potencia sí pueden. Al optar por un diseño de baja potencia, Nosek y sus colegas se aseguraron virtualmente de sus hallazgos negativos antes de recopilar un solo punto de datos.

Nosek y sus colegas presentaron algunos argumentos de hombre de paja para la elección del diseño, que Gilbert et al. derribados uno por uno en su respuesta. ¿La conclusión de Gilbert y sus colegas?

En resumen, ninguno de los argumentos presentados [por los investigadores de la replicación] discute el hecho de que los autores del [nuevo estudio] utilizaron un diseño de baja potencia y que (como demuestran nuestros análisis de los datos de ML2014) esto probablemente condujo a una subestimación de la tasa de replicación real en sus datos.

Otros investigadores de psicología realizaron un experimento de replicación similar en 2014 (Klein et al., 2014). Usando un diseño de alta potencia, encontraron que la mayoría de los estudios de psicología que examinaron se replicaron: 11 de 13 experimentos se repitieron. Para probar el impacto del diseño de menor potencia de Nosek et al., Gilbert et al. estimó que la tasa de replicación del estudio de 2014 se habría reducido del 85 por ciento al 34 por ciento. Una diferencia significativa y reveladora.

Entonces, ¿qué sabemos realmente sobre la reproducibilidad de la ciencia psicológica?

Más de lo que pensamos. Dada la crítica de Gilbert et al. Y la respuesta sensiblera de los investigadores originales, parece más probable que Nosek et al. estudio fue críticamente defectuoso.

Parece que la ciencia psicológica es más reproducible de lo que pensábamos, una buena noticia tanto para la ciencia como para la psicología.

Referencias

Gilbert, D., King, G., Pettigrew, S. y Wilson, T. (2016). Comente sobre "Estimación de la reproducibilidad de la ciencia psicológica". Ciencia, 351, 1037a-1037b.

Gilbert y col. (2016). Una respuesta a la respuesta de nuestro comentario técnico sobre "Estimación de la reproducibilidad de la ciencia psicológica".

Klein, RA, Ratliff, M Vianello, RB Adams Jr, Š Bahník, MJ Bernstein, et al. (2014). Investigación de la variación en la replicabilidad: un proyecto de replicación de “muchos laboratorios”. Psicología Social, 45, 142-152

Nosek y col. & Colaboración de ciencia abierta. (2015). Estimación de la reproducibilidad de la ciencia psicológica. Ciencia, 349. DOI: 10.1126 / science.aac4716

Nosek y col. (2016). Respuesta al comentario sobre "Estimación de la reproducibilidad de la ciencia psicológica". Ciencia, 351, 1037. DOI: 10.1126 / science.aad9163

!-- GDPR -->