Hubo un tiempo en que convertir una fotografía antigua en una imagen digital impresionaba a la gente. En estos días podemos hacer un poco más, como dar vida a fotos antiguas al estilo de Harry Potter. Y esta semana, el fabricante de chips NVIDIA realizó otro truco de magia.
Sobre la base de trabajos anteriores, los investigadores de NVIDIA demostraron cómo una pequeña red neuronal entrenada en unas pocas docenas de imágenes puede representar la escena representada en 3D completo. Como demostración, el equipo transformó las imágenes de un modelo sosteniendo una cámara Polaroid, una oda a Andy Warhol, en una escena 3D.
El trabajo se destaca por algunas razones.
Primero, es muy rápido. Los modelos de IA anteriores requerían horas para entrenar y minutos para renderizar escenas 3D. La red neuronal de NVIDIA no tarda más de unos minutos en entrenarse y renderiza la escena en decenas de milisegundos. En segundo lugar, la propia IA es diminuta en comparación con los enormes modelos de lenguaje actuales. Los modelos grandes como GPT-3 funcionan con cientos o miles de unidades de procesamiento de gráficos (GPU). La IA de representación de imágenes de NVIDIA se ejecuta en una sola GPU.
El trabajo se basa en campos de radiación neuronal (NeRF), una técnica desarrollada por investigadores de UC Berkeley, UC San Diego y Google Research, hace un par de años. En resumen, un NeRF toma un conjunto de datos limitado, digamos, 36 fotografías de un sujeto capturado desde una variedad de ángulos, y luego predice el color, la intensidad y la dirección de la luz que irradia desde cualquier punto de la escena. Es decir, la red neuronal llena los espacios entre las imágenes con las mejores conjeturas basadas en los datos de entrenamiento. El resultado es un espacio 3D continuo unido a partir de las imágenes originales.
La contribución reciente de NVIDIA, descrita en un artículo , coloca a los NeRF en fármacos que mejoran el rendimiento. Según el documento, el nuevo método, denominado Instant NeRF, explota un enfoque conocido como codificación de cuadrícula hash de resolución múltiple para simplificar la arquitectura del algoritmo y ejecutarlo en paralelo en una GPU. Esto mejoró el rendimiento en algunos órdenes de magnitud: su algoritmo se ejecuta hasta 1000 veces más rápido, según una publicación de blog de NVIDIA, sin sacrificar la calidad.
NVIDIA imagina que la tecnología podría llegar a los robots y automóviles autónomos, ayudándolos a visualizar y comprender mejor el mundo que los rodea. También podría usarse para hacer avatares de alta fidelidad que las personas pueden importar a mundos virtuales o para replicar escenas del mundo real en el mundo digital donde los diseñadores pueden modificarlas y desarrollarlas.
La velocidad y el tamaño de las redes neuronales importan en tales casos, ya que la mayoría de las personas no pueden usar algoritmos enormes que requieren cantidades prodigiosas de potencia informática, ni son prácticos para robots y automóviles sin conexiones confiables y rápidas a la nube.
La demostración fue parte de la conferencia de desarrolladores de NVIDIA esta semana. Otros aspectos destacados incluyeron un sistema para automóviles autónomos que tiene como objetivo mapear 300,000 millas de carreteras en centímetros para 2024 y una supercomputadora de inteligencia artificial que la compañía dice que será la más rápida del mundo una vez que se lance (una afirmación también hecha por Meta recientemente ).
Todo esto encaja perfectamente en una narrativa más amplia . El mundo digital se está desangrando en el mundo real, y viceversa. Y no solo libros, música, fotos, documentos y pagos, sino también personas, lugares e infraestructura. Dado que los chips de NVIDIA se destacan en IA y gráficos, la empresa está bien posicionada para participar en todo. De hecho, no contenta con crear réplicas digitales de escenas individuales, la compañía ha dicho que también está construyendo un gemelo digital de la Tierra .
Por supuesto, cada vez es más difícil trazar la línea entre los argumentos de venta y marketing y los desarrollos serios. No es raro ver combinaciones de todas las principales palabras de moda de la tecnología (NFT, el metaverso, IA , blockchain) en un solo titular. Pero si bien la visión parece estar superando la capacidad, hay muchos indicios de que llegaremos tarde o temprano.
Una mini IA que puede convertir una pila de polaroids en una escena 3D es solo una de ellas.
Crédito de la imagen: NVIDIA
Fuente:
Dorrier, J. (2022e, marzo 27). NVIDIA’s Tiny New AI Transforms Photos Into Full 3D Scenes in Mere Seconds. Singularity Hub. Recuperado 28 de marzo de 2022, de https://singularityhub.com/2022/03/27/nvidias-tiny-new-ai-transforms-photos-into-full-3d-scenes-in-mere-seconds/