¿Contagio emocional en Facebook? Más como malos métodos de investigación

Recientemente se publicó un estudio (Kramer et al., 2014) que mostró algo asombroso - las personas alteraron sus emociones y estados de ánimo en función de la presencia o ausencia de estados de ánimo positivos (y negativos) de otras personas, como se expresa en las actualizaciones de estado de Facebook. Los investigadores llamaron a este efecto un "contagio emocional", porque pretendían mostrar que las palabras de nuestros amigos en nuestro servicio de noticias de Facebook afectaron directamente nuestro propio estado de ánimo.

No importa que los investigadores nunca midieron el estado de ánimo de nadie.

Y no importa que el estudio tenga un defecto fatal. Uno que otras investigaciones también han pasado por alto, lo que hace que todos los hallazgos de estos investigadores sean un poco sospechosos.

Dejando a un lado el lenguaje ridículo que se usa en este tipo de estudios (¿en realidad, las emociones se propagan como un “contagio”?), Este tipo de estudios a menudo llegan a sus hallazgos al realizar análisis del lenguaje en pequeños fragmentos de texto. En Twitter, son realmente pequeños: menos de 140 caracteres. Las actualizaciones de estado de Facebook rara vez son más que unas pocas frases. Los investigadores en realidad no miden el estado de ánimo de nadie.

Entonces, ¿cómo se lleva a cabo dicho análisis de lenguaje, especialmente en 689,003 actualizaciones de estado? Muchos investigadores recurren a una herramienta automatizada para esto, algo llamado Aplicación de Consulta Lingüística y Conteo de Palabras (LIWC 2007). Esta aplicación de software es descrita por sus autores como:

La primera aplicación de LIWC se desarrolló como parte de un estudio exploratorio del lenguaje y la divulgación (Francis, 1993; Pennebaker, 1993). Como se describe a continuación, la segunda versión, LIWC2007, es una revisión actualizada de la aplicación original.

Tenga en cuenta esas fechas. Mucho antes de que se fundasen las redes sociales, la LIWC se creó para analizar grandes volúmenes de texto, como un libro, artículo, artículo científico, un ensayo escrito en una condición experimental, entradas de blog o una transcripción de una sesión de terapia. Tenga en cuenta una cosa que todos estos tienen en común: son de buena extensión, al menos 400 palabras.

¿Por qué los investigadores usarían una herramienta no diseñada para fragmentos cortos de texto para, bueno… analizar fragmentos cortos de texto? Lamentablemente, se debe a que esta es una de las pocas herramientas disponibles que puede procesar grandes cantidades de texto con bastante rapidez.

¿A quién le importa cuánto tiempo debe medir el texto?

Es posible que esté sentado rascándose la cabeza, preguntándose por qué importa la longitud del texto que está tratando de analizar con esta herramienta. Una frase, 140 caracteres, 140 páginas… ¿Por qué importa la longitud?

La longitud importa porque la herramienta en realidad no es muy buena para analizar texto de la manera en que los investigadores de Twitter y Facebook se lo han encargado. Cuando le pide que analice el sentimiento positivo o negativo de un texto, simplemente cuenta las palabras negativas y positivas dentro del texto en estudio. Para un artículo, ensayo o entrada de blog, esto está bien; le dará un análisis de resumen general bastante preciso del artículo, ya que la mayoría de los artículos tienen más de 400 o 500 palabras.

Sin embargo, para un tweet o una actualización de estado, esta es una herramienta de análisis horrible. Eso se debe a que no se diseñó para diferenciar y, de hecho, hipocresía diferenciar - una palabra de negación en una oración.

Veamos dos ejemplos hipotéticos de por qué esto es importante. Aquí hay dos tweets de muestra (o actualizaciones de estado) que no son infrecuentes:

    "No estoy feliz."

    "No estoy teniendo un gran día".

Un evaluador o juez independiente calificaría estos dos tweets como negativos: claramente expresan una emoción negativa. Eso sería +2 en la escala negativa y 0 en la escala positiva.

Pero la herramienta LIWC 2007 no lo ve de esa manera. En cambio, calificaría estos dos tweets con una puntuación de +2 para positivo (debido a las palabras "genial" y "feliz") y +2 para negativo (debido a la palabra "no" en ambos textos).

Esa es una gran diferencia si está interesado en la recopilación y el análisis de datos imparciales y precisos.

Y dado que gran parte de la comunicación humana incluye sutilezas como esta, sin siquiera ahondar en el sarcasmo, abreviaturas abreviadas que actúan como palabras de negación, frases que niegan la oración anterior, emojis, etc., ni siquiera se puede decir cuán exactos o inexactos el análisis resultante de estos investigadores es. Dado que la LIWC 2007 ignora estas sutiles realidades de la comunicación humana informal, también lo hacen los investigadores.2

Quizás sea porque los investigadores no tienen idea de la gravedad del problema. Porque simplemente están enviando todos estos "macrodatos" al motor de análisis del lenguaje, sin comprender realmente por qué el motor de análisis tiene fallas. ¿Es el 10 por ciento de todos los tweets que incluyen una palabra de negación? ¿O el 50 por ciento? Los investigadores no pudieron decírtelo.3

Incluso si es cierto, la investigación muestra pequeños efectos en el mundo real

Por eso tengo que decir que incluso si usted cree en esta investigación al pie de la letra a pesar de este enorme problema metodológico, todavía le queda una investigación que muestra correlaciones ridículamente pequeñas que tienen poco o ningún significado para los usuarios comunes.

Por ejemplo, Kramer et al. (2014) encontraron un 0.07% - ¡eso no es un 7 por ciento, eso es una quinceava parte del uno por ciento! - Disminución de las palabras negativas en las actualizaciones de estado de las personas cuando disminuyó el número de publicaciones negativas en sus noticias de Facebook. ¿Sabe cuántas palabras tendría que leer o escribir antes de haber escrito una palabra menos negativa debido a este efecto? Probablemente miles.

No se trata tanto de un "efecto" como de un error estadístico que no tiene ningún significado en el mundo real. Los propios investigadores lo reconocen, señalando que los tamaños de sus efectos eran "pequeños (tan pequeños como re = 0,001) ". Continúan sugiriendo que todavía es importante porque "los pequeños efectos pueden tener grandes consecuencias agregadas", citando un estudio de Facebook sobre la motivación del voto político realizado por uno de los mismos investigadores, y un argumento de 22 años de una revista psicológica.4

Pero se contradicen en la oración anterior, lo que sugiere que la emoción "es difícil de influir dada la variedad de experiencias diarias que influyen en el estado de ánimo". Cual es ¿Las actualizaciones de estado de Facebook tienen un impacto significativo en las emociones de los individuos, o las emociones no se ven tan fácilmente influenciadas simplemente leyendo las actualizaciones de estado de otras personas?

A pesar de todos estos problemas y limitaciones, nada de eso impide que los investigadores al final proclamen: “Estos resultados indican que las emociones expresadas por otros en Facebook influyen en nuestras propias emociones, constituyendo evidencia experimental de contagio masivo a través de las redes sociales” 5. Nuevamente, no importa que en realidad no midieron las emociones o los estados de ánimo de una sola persona, sino que se basaron en una medida de evaluación defectuosa para hacerlo.

Lo que los investigadores de Facebook muestran claramente, en mi opinión, es que ponen demasiada fe en las herramientas que están usando sin comprender, y discutir, las importantes limitaciones de las herramientas.6

Referencia

Kramer, ADI, Guillory, JE, Hancock, JT. (2014). Evidencia experimental de contagio emocional masivo a través de las redes sociales. PNAS. www.pnas.org/cgi/doi/10.1073/pnas.1320040111

Notas al pie:

  1. Esto de acuerdo con una consulta a los desarrolladores de LIWC que respondieron: “LIWC actualmente no analiza si hay un término de negación cerca de una palabra de término de emoción positiva o negativa en su puntuación y sería difícil encontrar un algoritmo efectivo para esto de todos modos ". [↩]
  2. No pude encontrar ninguna mención de las limitaciones del uso de la LIWC como una herramienta de análisis del lenguaje para propósitos para los que nunca fue diseñada o prevista en el presente estudio, u otros estudios que he examinado. [↩]
  3. Bueno, podrían decirle si realmente dedicaron el tiempo a validar su método con un estudio piloto para compararlo con la medición del estado de ánimo real de las personas. Pero estos investigadores no lograron hacer esto. [↩]
  4. Hay algunos problemas serios con el estudio de votación de Facebook, el menor de los cuales es atribuir cambios en el comportamiento de votación a una variable correlacional, con una larga lista de suposiciones que hicieron los investigadores (y con las que tendría que estar de acuerdo). [↩]
  5. No se devolvió una solicitud de aclaración y comentarios de los autores. [↩]
  6. Esto no es una excavación en LIWC 2007, que puede ser una excelente herramienta de investigación, cuando se usa para los propósitos correctos y en las manos adecuadas. [↩]