Observatorio Tecnológico de Hidalgo

Nuevo algoritmo de aprendizaje profundo rompe el sistema generalizado de protección de páginas web

27 October, 2017

by OtechUAEH

Representando un avance crítico en la investigación de la inteligencia artificial, los científicos han creado un modelo informático eficiente en datos que puede “resolver” CAPTCHA, el extendido sistema basado en texto utilizado por los sitios web para verificar si un usuario es humano.

Sus hallazgos sugieren la necesidad de emplear técnicas más sólidas para contrarrestar el spam y técnicas de verificación de humano que vayan más allá de lo codificado en el sistema CAPTCHA actual.

Los CAPTCHA están diseñados para que no puedan ser descifrados por los algoritmos informáticos, al agrupar numerosas combinaciones de letras diferentes en un millón de estilos diferentes. Si bien los humanos pueden reconocer un objeto de forma natural incluso en capas de superposición o estilos, los ordenadores tienen dificultades para clasificar cada letra en ese revoltijo.

Los algoritmos anteriores para resolver CAPTCHA son intensivos en datos y requieren una memoria de millones de ejemplos de imágenes CAPTCHA etiquetadas o reglas codificadas sobre cómo descodificar cada tipo de imagen. En esta ocasión, Dileep George y sus colegas han construido un modelo más eficiente, denominado Red Cortical Recursiva (RCR), que incorpora conocimientos procedentes de la neurociencia para “entrenar” al ordenador para generalizar más allá de lo que se le enseña en un primer momento.

La clave del éxito de la RCR, afirman los autores, es que está codificada con fuertes suposiciones que posteriormente utiliza para formar predicciones a partir de entradas con las que nunca se encontró en el entrenamiento.

Con esto, la RCR podría resolver textos CAPTCHA, identificar dígitos escritos a mano, delinear objetos complejos en capas y reconocer texto en fotografías de escenarios del mundo real. En comparación con los enfoques de aprendizaje profundo de última generación para la lectura de textos, la RCR superó a su principal adversario, PhotoOCR, en un 1,9 %, utilizando considerablemente menos imágenes de entrenamiento (1406 frente a los 7,9 millones utilizados por PhotoOCR). La RCR también logró mayor precisión y fue 300 veces más eficiente en datos.

Fuente: AAAS

Observatorio Tecnológico de Hidalgo

Nuevo algoritmo de aprendizaje profundo rompe el sistema generalizado de protección de páginas web

Categorías