Los investigadores de ByteDance han desarrollado un sistema de inteligencia artificial que transforma fotografías individuales en vídeos realistas de personas hablando, cantando y moviéndose de forma natural: un avance que podría transformar el entretenimiento y las comunicaciones digitales.
El nuevo sistema, llamado OmniHuman , genera videos de cuerpo completo que muestran a las personas gesticulando y moviéndose de maneras que coinciden con su habla, superando los modelos de IA anteriores que solo podían animar caras o partes superiores del cuerpo.
Cómo OmniHuman utiliza 18.700 horas de datos de entrenamiento para crear movimientos realistas
“La animación humana de extremo a extremo ha experimentado avances notables en los últimos años”, escribieron los investigadores de ByteDance en un artículo publicado en arXiv . “Sin embargo, los métodos existentes aún tienen dificultades para escalarse como modelos generales de generación de videos a gran escala, lo que limita su potencial en aplicaciones reales”.
El equipo entrenó a OmniHuman con más de 18.700 horas de datos de video humanos utilizando un enfoque novedoso que combina múltiples tipos de entradas: texto, audio y movimientos corporales. Esta estrategia de entrenamiento de “omnicondiciones” permite que la IA aprenda de conjuntos de datos mucho más grandes y diversos que los métodos anteriores.
Un avance en la generación de videos con inteligencia artificial muestra movimientos de cuerpo completo y gestos naturales
“Nuestro descubrimiento clave es que incorporar múltiples señales de condicionamiento, como texto, audio y pose, durante el entrenamiento puede reducir significativamente el desperdicio de datos”, explicó el equipo de investigación.
La tecnología marca un avance significativo en los medios generados por IA , y demuestra capacidades que van desde la creación de videos de personas pronunciando discursos hasta la representación de sujetos tocando instrumentos musicales. En las pruebas, OmniHuman superó a los sistemas existentes en múltiples parámetros de calidad.
Gigantes tecnológicos compiten por desarrollar sistemas de IA de video de próxima generación
El desarrollo surge en medio de una competencia cada vez más intensa en la generación de videos con inteligencia artificial, con empresas como Google , Meta y Microsoft que buscan tecnologías similares. El avance de ByteDance podría darle a su empresa matriz TikTok una ventaja en este campo en rápida evolución.
Los expertos del sector afirman que esta tecnología podría transformar la producción de entretenimiento, la creación de contenidos educativos y las comunicaciones digitales. Sin embargo, también plantea inquietudes sobre su posible uso indebido en la creación de medios sintéticos con fines engañosos .
Los investigadores presentarán sus hallazgos en una próxima conferencia sobre visión por computadora, aunque todavía no han especificado cuándo ni en cuál.
Fuente.
VentureBeat (2025, 04 de febrero). OmniHuman: la nueva IA de ByteDance crea vídeos realistas a partir de una sola foto. Recuperado el 06 de febrero de 2025, de: https://venturebeat.com/ai/omnihuman-bytedances-new-ai-creates-realistic-videos-from-a-single-photo/