En desarrollo: teléfonos inteligentes que pueden evaluar el estado de ánimo

Investigadores de la Universidad de Rochester están desarrollando un nuevo programa informático que mide los sentimientos humanos a través del habla, con una aplicación prototipo para teléfonos inteligentes ya creada.

El programa no analiza lo que dice una persona, sino cómo.

"De hecho, usamos grabaciones de actores leyendo la fecha del mes; realmente no importa lo que digan, es cómo lo dicen lo que nos interesa", dijo Wendi Heinzelman, Ph.D., profesora de ingeniería eléctrica e informática.

El programa analiza 12 características del habla, como el tono y el volumen, para identificar una de las seis emociones de una grabación de sonido. Los investigadores dicen que alcanza un 81 por ciento de precisión, una mejora significativa en estudios anteriores que lograron solo alrededor del 55 por ciento de precisión.

La investigación ya se ha utilizado para desarrollar un prototipo de una aplicación que muestra una cara feliz o triste después de registrar y analizar la voz del usuario. Fue construido por uno de los estudiantes graduados de Heinzelman, Na Yang, durante una pasantía de verano en Microsoft Research.

“La investigación aún se encuentra en sus inicios”, reconoció Heinzelman, “pero es fácil imaginar una aplicación más compleja que podría usar esta tecnología para todo, desde ajustar los colores que se muestran en su teléfono móvil hasta reproducir música que se ajuste a su que sientes después de grabar tu voz ".

Heinzelman y su equipo están colaborando con los psicólogos de Rochester, los Dres. Melissa Sturge-Apple y Patrick Davies, quienes actualmente están estudiando las interacciones entre los adolescentes y sus padres. “Una forma confiable de categorizar las emociones podría ser muy útil en nuestra investigación”, dijo Sturge-Apple. "Significaría que un investigador no tiene que escuchar las conversaciones e ingresar manualmente las emociones de diferentes personas en diferentes etapas".

Enseñar a una computadora a comprender las emociones comienza reconociendo cómo lo hacen los humanos, según los investigadores.

"Es posible que escuches a alguien hablar y pienses 'oh, parece enojado'. Pero, ¿qué es lo que te hace pensar eso?" dijo Sturge-Apple.

Explicó que la emoción afecta la forma en que las personas hablan al alterar el volumen, el tono e incluso los armónicos de su habla. "No prestamos atención a estas funciones de forma individual, solo hemos llegado a aprender cómo suena el enojo, especialmente para las personas que conocemos", agregó.

Pero para que una computadora pueda categorizar las emociones, necesita trabajar con cantidades mensurables. Entonces, los investigadores establecieron 12 características específicas en el habla que se midieron en cada grabación a intervalos cortos. Luego, los investigadores categorizaron cada una de las grabaciones y las usaron para enseñarle al programa de computadora cómo suena “triste”, “feliz”, “temeroso”, “disgustado” o “neutral”.

Luego, el sistema analizó nuevas grabaciones e intentó determinar si la voz en la grabación mostraba alguna de las emociones conocidas. Si el programa de computadora no pudo decidir entre dos o más emociones, simplemente dejó esa grabación sin clasificar.

“Queremos estar seguros de que cuando la computadora piensa que el discurso grabado refleja una emoción particular, es muy probable que de hecho esté reflejando esta emoción”, dijo Heinzelman.

Investigaciones anteriores han demostrado que los sistemas de clasificación de emociones dependen en gran medida del hablante, lo que significa que funcionan mucho mejor si el sistema está entrenado por la misma voz que analizará. “Esto no es ideal para una situación en la que desea poder realizar un experimento con un grupo de personas que hablan e interactúan, como los padres y adolescentes con los que trabajamos”, dijo Sturge-Apple.

Los nuevos resultados confirman este hallazgo. Si la clasificación de emociones basada en el habla se usa en una voz diferente a la que entrenó el sistema, la precisión se redujo del 81 por ciento a aproximadamente el 30 por ciento. Los investigadores ahora están buscando formas de minimizar este efecto entrenando el sistema con una voz en el mismo grupo de edad y del mismo género.

“Aún quedan desafíos por resolver si queremos usar este sistema en un entorno que se asemeja a una situación de la vida real, pero sabemos que el algoritmo que desarrollamos es más efectivo que los intentos anteriores”, dijo Heinzelman.

Fuente: Universidad de Rochester

!-- GDPR -->