Seleccionar objetos separados en una escena visual nos parece intuitivo, pero las máquinas luchan con esta tarea. Ahora, un nuevo modelo de IA de Meta ha desarrollado una idea amplia de lo que es un objeto, lo que le permite separar objetos incluso si nunca antes los había visto.
Puede parecer una tarea de visión por computadora bastante prosaica, pero ser capaz de analizar una imagen y determinar dónde termina un objeto y comienza otro es una habilidad bastante fundamental, sin la cual una gran cantidad de tareas más complicadas serían irresolubles.
La “segmentación de objetos” no es nada nuevo; Los investigadores de IA han trabajado en ello durante años. Pero, por lo general, la construcción de estos modelos ha sido un proceso lento que requiere mucha anotación humana de imágenes y recursos informáticos considerables. Y, por lo general, los modelos resultantes estaban altamente especializados para casos de uso particulares.
Ahora, sin embargo, los investigadores de Meta han presentado el Segment Anything Model (SAM), que puede cortar cualquier objeto en cualquier escena, independientemente de si se ha visto algo así antes. El modelo también puede hacer esto en respuesta a una variedad de indicaciones diferentes, desde la descripción del texto hasta los clics del mouse o incluso los datos de seguimiento ocular.
“SAM ha aprendido una noción general de qué son los objetos y puede generar máscaras para cualquier objeto en cualquier imagen o video”, escribieron los investigadores en una publicación de blog . “Creemos que las posibilidades son amplias y estamos entusiasmados con los muchos casos de uso potenciales que ni siquiera hemos imaginado todavía”.
La clave para el desarrollo del modelo fue un nuevo conjunto de datos masivo de 1100 millones de máscaras de segmentación, que se refiere a regiones de una imagen que han sido aisladas y anotadas para indicar que contienen un objeto en particular. Fue creado a través de una combinación de anotación humana manual de imágenes y procesos automatizados, y es, con mucho, la colección más grande de este tipo reunida hasta la fecha.
Al entrenar en un conjunto de datos tan masivo, los investigadores de Meta dicen que ha desarrollado un concepto general de lo que es un objeto, lo que le permite segmentar cosas que ni siquiera ha visto antes. Esta capacidad de generalización llevó a los investigadores a denominar a SAM como un “modelo básico”, un término controvertido utilizado para describir otros modelos masivos preentrenados, como la serie GPT de OpenAI , cuyas capacidades son supuestamente tan generales que pueden usarse como base para un host. de aplicaciones
La segmentación de imágenes es definitivamente un ingrediente clave en una amplia gama de tareas de visión artificial. Si no puede separar los diferentes componentes de una escena, es difícil hacer algo más complicado con ella. En su blog, los investigadores dicen que podría resultar invaluable en la edición de videos e imágenes, o ayudar con el análisis de imágenes científicas.
Quizás más pertinente para las ambiciones de metaverso de la compañía, brindan una demostración de cómo podría usarse junto con un casco de realidad virtual para seleccionar objetos específicos en función de la mirada del usuario. También dicen que potencialmente podría combinarse con un modelo de lenguaje grande para crear un sistema multimodal capaz de comprender tanto el contenido visual como el textual de una página web.
La capacidad de manejar una amplia gama de avisos hace que el sistema sea particularmente flexible. En una página web que muestra el nuevo modelo, la compañía muestra que después de analizar una imagen, se le puede pedir que separe objetos específicos simplemente haciendo clic en ellos con el cursor del mouse, escribiendo qué es lo que desea segmentar o simplemente dividiendo. toda la imagen en objetos separados.
Y lo que es más importante, la empresa está abriendo tanto el modelo como el conjunto de datos con fines de investigación para que otros puedan desarrollar su trabajo. Este es el mismo enfoque que tomó la compañía con su modelo de lenguaje grande LLaMA, lo que llevó a que se filtrara rápidamente en línea y provocara una ola de experimentación por parte de aficionados y piratas informáticos.
Queda por ver si sucederá lo mismo con SAM, pero de cualquier manera es un regalo para la comunidad de investigación de IA que podría acelerar el progreso en una serie de problemas importantes de visión por computadora.
Crédito de la imagen: Meta IA
Bastero, M. (2023c, abril 11). Top unicornios: las startups más valiosas del mundo (2023). Marketing 4 Ecommerce – Tu revista de marketing online para e-commerce. https://marketing4ecommerce.mx/top-startups-mas-valiosas-mundo-ranking/