Desarrollan un sistema basado en IA para identificar las emociones en Twitter

Un equipo de investigación de la Universidad de Jaén (UJA) ha desarrollado un sistema basado en inteligencia artificial para reconocer las emociones de los usuarios en Twitter. Esta tecnología, aplicada por primera vez al idioma castellano, percibe el estado anímico de las personas que escriben mensajes en la red social, los analiza y clasifica.

Según se ha informado desde la Fundación Descubre, los investigadores orientan la información obtenida a áreas como la detección de la depresión, de anorexia y bulimia o el lenguaje abusivo y violento, entre otros ámbitos.

Las tecnologías del lenguaje humano son una rama de la inteligencia artificial que se centra en el estudio de sistemas computacionales que son capaces de comprender y generar lenguaje. Este ámbito está relacionado con el aprendizaje automático (machine learning), que es la capacidad de un software o una máquina para identificar y aprender patrones complejos en forma de algoritmos matemáticos de manera autónoma.

Los expertos aplican esta tecnología a un conjunto de datos compuestos por tuits previamente recopilados y analizados por humanos con el fin de detectar emociones en el texto. Además, enseñan a la máquina cómo interpretar nuevos términos en castellano incorporando diccionarios y lexicones al sistema.

"Esta tecnología puede aplicarse a ámbitos diversos con la finalidad de detectar problemas de salud mental o violencia verbal", ha explicado Flor Miriam Plaza, co-autora de este estudio e investigadora de la Universidad de Jaén.

En el estudio titulado 'Improved emotion recognition in Spanish social media through incorporation of lexical knowledge' y publicado en la revista Future Generation Computer Systems, los expertos entrenan el sistema de un ordenador con una serie de tuits ya recopilados e interpretados con anterioridad en el idioma español.

De este modo, genera un modelo de lenguaje que le permite reconocer emociones tales como el enfado, el miedo, la alegría y la tristeza. "Es un trabajo complejo porque no se trata de una clasificación binaria de emociones negativas y positivas. Hay muchos matices para detectar la alegría, la tristeza o la sorpresa, por ejemplo", ha comentado la investigadora de la UJA María Teresa Martín.

DETECCIÓN DE LAS EMOCIONES

Una vez integrada esta información básica en el sistema, los investigadores incluyeron palabras nuevas de diccionarios y palabras nuevas para ampliar la cantidad de matices que ésta pudiera percibir e incrementar su precisión. Esta enseñanza paulatina de lenguaje, independiente de la base de datos previamente desarrollada, tenía la finalidad de mejorar la efectividad del sistema.

Tras detectar el tuit, el sistema lo analiza y le asigna una emoción en base al modelo de lenguaje generado, en este caso, el castellano. Los expertos observaron en este estudio que la emoción más representada en los tuits era la alegría porque era más fácil de detectar para el sistema que el enfado, el miedo o la tristeza, que poseen mayores matices.

El investigador de la Universidad de Jaén Luis Alfonso Ureña ha apuntado que "no es un proceso perfecto porque esta tecnología no percibe con claridad figuras del lenguaje como la ironía, el sarcasmo o las frases hechas y, además, se generan nuevas expresiones continuamente". Por ello, "para perfeccionar este sistema, hay que 'enseñar' a la máquina continuamente en un idioma concreto, como el castellano de España o el inglés británico".

En estudios previos, el grupo Sistemas de Acceso Inteligente a la Información puso el foco en la detección de la anorexia y la bulimia y el lenguaje misógino y xenófobo en redes sociales. Ureña ha explicado que equipo de investigación se centra en las tecnologías del lenguaje humano aplicado, entre otras áreas, al análisis de sentimientos en español. En el futuro, la idea es "mejorar la tecnología basada en inteligencia artificial y aprendizaje automático que utilizamos para aplicarla a una mayor variedad de ámbitos".

Esta investigación ha sido financiada por los fondos propios del grupo de investigación Sistemas de Acceso Inteligente a la Información, por el Fondo Europeo de Desarrollo Regional (Feder), el proyecto Living-LANG y el proyecto Redes del Gobierno español.