No creas que todo lo que ves en Internet” es un consejo bastante estándar, pero cada vez es más difícil distinguir lo real de lo falso. Un nuevo algoritmo de Nvidia podría enturbiar las aguas al generar rostros humanos completamente inventados que son casi indistinguibles de los reales.
La capacidad de AI para sintetizar, intercambiar y transformar imágenes, videos e incluso discursos se ha desarrollado a pasos agigantados en los últimos años. Eso está impulsando un software de edición de imágenes más potente , asistentes de voz más realistas e incluso abriendo la puerta para generar automáticamente mundos digitales completos . Pero también existe una creciente preocupación de que a medida que este tipo de herramientas se vuelven cada vez más sofisticadas y accesibles, se está erosionando nuestra capacidad de confiar en estos medios.
El problema se introdujo en la conciencia pública por el escándalo Deepfakeque se desató esta vez el año pasado, cuando AI se utilizó para superponer las caras de las celebridades en los videos porno. Desde entonces, se han usado técnicas similares para poner las palabras en la boca de los políticos , y ha habido muchas críticas sobre el impacto potencial de la tecnología en una era de noticias falsas y manipulación digital.
GANs
La clase de algoritmos en el corazón de la más avanzada de estas soluciones se denominan redes de confrontación generativa, o GAN, y también forman el núcleo del nuevo software Nvidia. Esencialmente, los GANs enfrentan dos redes neuronales entre sí, una diseñada para detectar imágenes sintetizadas y la otra diseñada para crear falsificaciones lo suficientemente realistas como para pasar desapercibidas. Este juego del gato y el ratón se repite una y otra vez, y las imágenes sintetizadas se vuelven cada vez más realistas.
El enfoque solo se inventó en 2014, pero ha habido un rápido progreso desde entonces, desde fotos de pasaporte granulosas en blanco y negro hasta fotos en la cabeza en alta resolución a todo color (aunque a veces un poco torcidas). Pero el último avance de Nvidia ha alcanzado un nivel de realismo sin precedentes: le resultaría difícil diferenciar la salida de las imágenes extraídas de un catálogo de fotografías.
La principal innovación de los investigadores fue combinar su GAN con métodos del campo de la transferencia de estilos, algo con lo que puede estar familiarizado con las aplicaciones que transforman sus fotos en el estilo de Vincent van Gogh o algún otro artista. Estos enfoques permiten a las redes neuronales aprender a separar el contenido y el estilo de una imagen y luego combinarlos de manera interesante.
Subir de nivel
La mayoría de las redes neuronales diseñadas para trabajar con imágenes las “entienden” en términos de una jerarquía de características, comenzando con trazos amplios como su pose, luego cosas como la distancia entre sus ojos y nariz, y en el nivel más bajo detalles como el tono de su piel. Al agregar los métodos de transferencia de estilo, el nuevo algoritmo es esencialmente capaz de aprender estilos para cada uno de estos niveles de funciones.
Los investigadores pueden luego remezclar estos diferentes estilos en diferentes niveles para crear caras completamente nuevas, o simplemente cambiar el color del cabello de alguien al modificar el estilo de bajo nivel. Los investigadores también probaron el enfoque en otros conjuntos de datos de imágenes, creando falsificaciones convincentes de autos y habitaciones también.
Pero tan genial como evocar nuevas caras del aire, esa no es la verdadera motivación para la investigación. A pesar de las mejoras en la tecnología, las redes GAN y las redes neuronales en general aún funcionan como cajas negras en la medida en que no entendemos realmente en qué se enfocan en una imagen.
Como señala Tiernan Ray en ZDNet , al forzar a su red a separar lo que se está enfocando en características de alto y bajo nivel y luego hacer posible intercambiarlas, podemos entender mucho mejor el algoritmo está mirando a cada nivel de abstracción.
Pero si bien eso podría ser de gran interés para los científicos informáticos, lo que probablemente sea una preocupación más apremiante para el resto de nosotros es cuáles son los efectos secundarios prácticos de este enfoque, algo que los autores evitan claramente discutir en su artículo.
Es cierto que las caras falsas todavía no son perfectas, una publicación del blog del artista-programador Kyle McDonald señala sutiles aberraciones, como aretes fantasmáticos y dientes extraños que se aclaran con una inspección más cercana, pero son lo suficientemente buenos como para engañar a la mayoría de las personas hora.
Por que importa
Una posible aplicación de ese tipo de trucos señalado por The Register podría ser crear fotos de perfil altamente realistas para cuentas de redes sociales falsas utilizadas para manipular el discurso en línea. Y como los autores planean liberar el código fuente, esa capacidad pronto podría estar disponible de forma gratuita.
Sin embargo, a diferencia del código de Deepfakes, que permitió que cualquier persona con una tarjeta gráfica relativamente poderosa comenzara a crear sus propios videos, entrenar a este nuevo modelo tomó casi una semana en ocho de los chips de vanguardia Tesla GPU de Nvidia. Eso significa que los costos probablemente superarán los beneficios para la mayoría de las aplicaciones concebibles.
Pero la promesa y el peligro de este enfoque probablemente no sea tanto en su aplicación directa, pero el descubrimiento de que la incorporación de métodos de transferencia de estilo puede llevar a GANs capaces de una salida de fidelidad mucho mayor. Es probable que esto inspire el desarrollo de una nueva generación de algoritmos de imagen y suplantación de video cuyas salidas son aún más difíciles de detectar.
Para volver a trabajar un famoso dicho, una imagen falsa vale más que mil palabras falsas, y con la creciente democratización de este tipo de tecnología será cada vez más difícil confiar en lo que vemos en la web. Como señala Joshua Rothman en The New Yorker , que presenta una espada de doble filo: la gente no solo podrá crear falsificaciones para torcer el discurso público, sino que las figuras públicas también tendrán una negación plausible de todo lo que se les sorprenda haciendo con la cámara.
“No creas que todo lo que ves en Internet” pronto podría cambiar a “No creas todo lo que ves en Internet”.
Crédito de la imagen: ESB Professional / Shutterstock.com
Fuente: SingularityHub