Cosmos-Transfer1 de Nvidia hace que el entrenamiento de robots sea increíblemente realista, y eso lo cambia todo

admin Avatar

by OtechUAEH

Nvidia ha lanzado Cosmos-Transfer1 , un innovador modelo de IA que permite a los desarrolladores crear simulaciones altamente realistas para el entrenamiento de robots y vehículos autónomos. Disponible ya en Hugging Face, el modelo aborda un desafío persistente en el desarrollo de IA física: reducir la brecha entre los entornos de entrenamiento simulados y las aplicaciones reales.

“Presentamos Cosmos-Transfer1, un modelo de generación de mundos condicional que puede generar simulaciones de mundos basadas en múltiples entradas de control espacial de diversas modalidades, como segmentación, profundidad y borde”, afirman los investigadores de Nvidia en un artículo publicado junto con el lanzamiento. “Esto permite una generación de mundos altamente controlable y se utiliza en diversos casos de transferencia de mundo a mundo, incluyendo Sim2Real”.

A diferencia de los modelos de simulación anteriores, Cosmos-Transfer1 introduce un sistema de control multimodal adaptativo que permite a los desarrolladores ponderar de forma diferente las distintas entradas visuales, como la información de profundidad o los límites de los objetos, en las distintas partes de la escena. Este avance permite un control más preciso de los entornos generados, mejorando significativamente su realismo y utilidad.

Cómo el control multimodal adaptativo transforma la tecnología de simulación de IA

Los enfoques tradicionales para entrenar sistemas de IA físicos implican la recopilación de cantidades masivas de datos del mundo real (un proceso costoso y que consume mucho tiempo) o el uso de entornos simulados que a menudo carecen de la complejidad y variabilidad del mundo real.

Cosmos-Transfer1 aborda este dilema al permitir a los desarrolladores utilizar entradas multimodales (como imágenes borrosas, detección de bordes, mapas de profundidad y segmentación) para generar simulaciones fotorrealistas que preservan aspectos cruciales de la escena original y al mismo tiempo agregan variaciones naturales.

“En el diseño, el esquema condicional espacial es adaptativo y personalizable”, explican los investigadores. “Permite ponderar las diferentes entradas condicionales de forma distinta en distintas ubicaciones espaciales”.

Esta capacidad resulta especialmente valiosa en robótica, donde un desarrollador podría querer mantener un control preciso sobre la apariencia y el movimiento de un brazo robótico, a la vez que permite mayor libertad creativa para generar diversos entornos. En el caso de los vehículos autónomos, permite preservar el trazado de las carreteras y los patrones de tráfico al variar las condiciones climáticas, la iluminación o el entorno urbano.

Aplicaciones de IA física que podrían transformar la robótica y la conducción autónoma

Ming-Yu Liu , uno de los principales contribuyentes al proyecto, explicó por qué esta tecnología es importante para las aplicaciones industriales.

“Un modelo de políticas guía el comportamiento de un sistema físico de IA, garantizando que el sistema funcione con seguridad y de acuerdo con sus objetivos”, señalan Liu y sus colegas en el artículo. “Cosmos-Transfer1 puede entrenarse posteriormente en modelos de políticas para generar acciones, ahorrando el costo, el tiempo y la necesidad de datos del entrenamiento manual de políticas”.

La tecnología ya ha demostrado su valor en pruebas de simulación robótica. Al utilizar Cosmos-Transfer1 para mejorar los datos robóticos simulados, los investigadores de Nvidia descubrieron que el modelo mejora significativamente el fotorrealismo al añadir más detalles a la escena, sombreado complejo e iluminación natural, a la vez que preserva la dinámica física del movimiento del robot.

Para el desarrollo de vehículos autónomos, el modelo permite a los desarrolladores “maximizar la utilidad de los casos extremos del mundo real”, ayudando a los vehículos a aprender a manejar situaciones raras pero críticas sin necesidad de encontrarlas en carreteras reales.

Dentro del ecosistema de IA estratégico de Nvidia para aplicaciones del mundo físico

Cosmos-Transfer1 representa solo un componente de la plataforma Cosmos de Nvidia , un conjunto de modelos de base mundial (WFM) diseñados específicamente para el desarrollo de IA física. La plataforma incluye Cosmos-Predict1 para la generación de mundos de propósito general y Cosmos-Reason1 para el razonamiento físico de sentido común.

“Nvidia Cosmos es una plataforma de modelos de base global, centrada en los desarrolladores, diseñada para ayudar a los desarrolladores de IA física a construir sus sistemas de IA física de forma más eficiente y rápida”, afirma la compañía en su repositorio de GitHub. La plataforma incluye modelos preentrenados bajo la Licencia de Modelo Abierto de Nvidia y scripts de entrenamiento bajo la Licencia Apache 2.

Esto posiciona a Nvidia para capitalizar el creciente mercado de herramientas de IA que pueden acelerar el desarrollo de sistemas autónomos, particularmente a medida que industrias desde la manufactura hasta el transporte invierten fuertemente en robótica y tecnología autónoma.

Generación en tiempo real: cómo el hardware de Nvidia potencia la simulación de IA de próxima generación

Nvidia también demostró la ejecución de Cosmos-Transfer1 en tiempo real en su hardware más reciente. «Además, demostramos una estrategia de escalado de inferencia para lograr la generación del mundo en tiempo real con un rack Nvidia GB200 NVL72», señalan los investigadores.

El equipo logró una aceleración de aproximadamente 40x al escalar de una a 64 GPU, lo que permitió la generación de 5 segundos de video de alta calidad en solo 4,2 segundos: un rendimiento en tiempo real.

Este rendimiento a escala aborda otro desafío crítico de la industria: la velocidad de simulación. Una simulación rápida y realista permite ciclos de prueba e iteración más rápidos, acelerando así el desarrollo de sistemas autónomos.

Innovación de código abierto: democratización de la IA avanzada para desarrolladores de todo el mundo

La decisión de Nvidia de publicar tanto el modelo Cosmos-Transfer1 como su código subyacente en GitHub elimina las barreras para los desarrolladores de todo el mundo. Esta publicación ofrece a equipos más pequeños e investigadores independientes acceso a tecnología de simulación que antes requería recursos considerables.

Esta medida se enmarca en la estrategia general de Nvidia de construir sólidas comunidades de desarrolladores en torno a sus ofertas de hardware y software. Al poner estas herramientas a disposición de más personas, la compañía amplía su influencia y, potencialmente, acelera el progreso en el desarrollo de IA física.

Para los ingenieros de robótica y vehículos autónomos, estas nuevas herramientas podrían acortar los ciclos de desarrollo mediante entornos de formación más eficientes. El impacto práctico podría notarse primero en las fases de prueba, donde los desarrolladores pueden exponer los sistemas a una gama más amplia de escenarios antes de su implementación en el mundo real.

Si bien el código abierto hace que la tecnología esté disponible, ponerla en uso efectivo aún requiere experiencia y recursos computacionales: un recordatorio de que en el desarrollo de IA, el código en sí es solo el comienzo de la historia.

Fuente.

Venture Beat (2025, 19 de marzo). Cosmos-Transfer1 de Nvidia hace que el entrenamiento de robots sea increíblemente realista, y eso lo cambia todo. Recuperado el 09 de abril de 2025, de: https://venturebeat.com/ai/nvidias-cosmos-transfer1-makes-robot-training-freakishly-realistic-and-that-changes-everything/