El nuevo software de Salesforce ofrece una gran mejora frente a los sistemas anteriores gracias a la combinación de varias técnicas. Aunque todavía no es perfecto, podría tener un gran impacto en muchos campos, como la medicina, el derecho y la investigación
¿Quién tiene tiempo de leer cada artículo que le llega por Twitter o Facebook, o cada documento relevante para su trabajo? A medida que la sobrecarga de información aumenta, los ordenadores podrían acabar siendo la única esperanza para lidiar con este creciente diluvio de documentos. Así que depender de las máquinas para analizar y parafrasear artículos, trabajos de investigación y otros textos podría acabar siendo algo habitual.
Un algoritmo desarrollado por investigadores de Salesforce demuestra que, algún día, los ordenadores podrían llegar a asumir el trabajo de resumir los documentos. El programa emplea varios trucos de aprendizaje automático para producir extractos sorprendentemente coherentes de textos más largos. Y aunque aún no lo hace tan bien como una persona, sugiere que la condensación del texto podría automatizarse algún día.
El algoritmo ha resumido, por ejemplo, un reciente artículo de The New York Times sobre los esfuerzos de Facebook para luchar contra las noticias falsas de cara a las próximas elecciones de Reino Unido:
La red social publicó una serie de anuncios en periódicos en Reino Unido el lunes.
Ha eliminado decenas de miles de cuentas falsas en Reino Unido.
También ha anunciado que contratará a 3.000 moderadores más, lo que aumenta en casi el doble el número de personas en todo el mundo que rastrean en busca de contenidos inapropiados u ofensivos.
El algoritmo de Salesforce rinde drásticamente mejor que cualquier otro sistema anterior, según una herramienta de software común para medir la precisión de los resúmenes de texto.
El científico jefe de Salesforce, Richard Socher, un nombre destacado del aprendizaje automático y procesamiento del lenguaje natural cuya start-up, MetaMind, fue adquirida por Salesforce en 2016, afirma: “No creo haber visto jamás una mejora tan grande en ninguna tarea [de procesamiento del lenguaje natural]”.
Al software aún le queda mucho para igualar la capacidad humana de captar la esencia de un documento de texto, y otros resúmenes que genera son más enrevesados y menos coherentes. De hecho, resumir el texto a la perfección requeriría una inteligencia real, con sentido común y dominio del lenguaje.
Analizar el lenguaje sigue siendo uno de los mayores desafíos de la inteligencia artificial, y lograr hacerlo de forma eficaz ofrecería un gran potencial comercial. Incluso una limitada inteligencia lingüística, conocida como la capacidad de analizar preguntas habladas o escritas y responder de maneras más sofisticadas y coherentes, podría transformar la computación personal. En muchos campos especializados, como la medicina, las investigaciones científicas y el derecho, condensar la información y extraer conocimientos podría conllevar increíbles beneficios comerciales.
El investigador científico Caiming Xiong, que participó en el trabajo, asegura que, aunque el algoritmo de su equipo no es perfecto, podría resumir noticias y generar sinopsis de los correos electrónicos de clientes. Esto último podría resultar especialmente útil para la propia plataforma de Salesforce.
Las mejoras del algoritmo de Salesforce se deben a una combinación de distintos enfoques. El sistema aprende de ejemplos de buenos resúmenes, un enfoque llamado aprendizaje supervisado, pero también emplea un tipo de atención artificial al texto que está ingiriendo y resumiendo. Esto ayuda a garantizar que el resumen no resulta repetitivo, un problema común de los algoritmos de resumen.
El sistema experimenta para generar resúmenes propios mediante un proceso llamado aprendizaje reforzado. Inspirado por el proceso de aprendizaje animal, para ello hay que proporcionar refuerzos positivos para realizar las acciones requeridas. Este enfoque ya se ha utilizado para tareas como jugar a juegos y controlar robots (ver TR10: Aprendizaje reforzado). Quienes trabajan actualmente en interfaces de conversación están estudiando cada vez más el aprendizaje reforzado para mejorar sus sistemas.
El profesor de la Universidad Northwestern (EEUU) y fundador de Narrative Science, Kristian Hammond, cuya empresa genera informes de prensa a partir de datos brutos, afirma que la investigación de Salesforce es un buen avance, pero que también señala los límites de depender únicamente del aprendizaje automático estadístico. El experto detalla: “En algún momento, deberíamos reconocer que necesitamos que estos sistemas integren un poco de semántica y un poco de conocimientos sintácticos para que tengan un buen dominio [del lenguaje] y se expresen de manera fluida. Dice que el uso de un mecanismo de atención imita, a un nivel muy básico, la manera en la que una persona presta atención a lo que acaba de decir. Hammond continúa: “Cuando dices algo, los detalles de cómo lo dices dependen del contexto de lo que has dicho antes. Este trabajo representa un paso en esa dirección”.
Mejorar las habilidades lingüísticas de los ordenadores también podría resultar crítico para mejorar la inteligencia artificial (IA). Una start-up llamada Maluuba, que ha sido adquirida este año por Microsoft, ha desarrollado un sistema capaz de generar preguntas relevantes a partir de un texto. El equipo de Maluuba también empleó una combinación de aprendizaje supervisado y reforzado.
El investigador de Maluuba Adam Trischler dice que plantear preguntas relevantes es una parte importante del aprendizaje, por lo que también es importante desarrollar máquinas inquisitivas. “El objetivo final es emplear preguntas y respuestas dentro de un diálogo. ¿Y si una máquina pudiese salir a recopilar información y después hacer sus propias preguntas?”, concluye Trischler.
Fuente: MIT