A medida que el uso de IA generativa ha crecido drásticamente en los últimos años, las bases de datos vectoriales han evolucionado desde una tecnología de vanguardia a una infraestructura empresarial esencial.
Las bases de datos vectoriales se vuelven cada vez más importantes y las empresas están prestando cada vez más atención al rendimiento y los costos. Zilliz , la empresa detrás de la base de datos vectorial de código abierto Milvus , anuncia nuevas funciones destinadas a reducir drásticamente los costos y la complejidad de las implementaciones de producción, abordando así las crecientes demandas de los usuarios empresariales que han pasado de los experimentos iniciales a las implementaciones de IA a gran escala.
El momento es particularmente relevante dado el crecimiento explosivo en la adopción de bases de datos vectoriales desde fines de 2022, cuando ChatGPT de OpenAI catalizó un interés generalizado en las aplicaciones de IA. Las nuevas características están dirigidas específicamente a las empresas que luchan con el aumento de los tamaños de implementación y la complejidad de administrar bases de datos vectoriales en entornos de producción. En solo dos años, las escalas de implementación han crecido de millones a miles de millones de vectores. La implementación más grande de Zilliz ahora administra 100 mil millones de vectores. La tecnología ahora se implementa en diversos casos de uso que incluyen aplicaciones multimodales, sistemas de recomendación, conducción autónoma, descubrimiento de fármacos, detección de fraudes y ciberseguridad.
“En los últimos dos años, definitivamente vimos que las bases de datos vectoriales están pasando de ser una tecnología de vanguardia a convertirse en una tecnología más común”, dijo Charles Xie, fundador y director ejecutivo de Zilliz, a VentureBeat.
Diferenciación de bases de datos vectoriales de inteligencia artificial empresarial en un mercado abarrotado
En 2024, la tecnología de bases de datos vectoriales se ha convertido en una apuesta segura para la implementación de la IA empresarial. Casi todos los proveedores de bases de datos tienen algún tipo de implementación vectorial, incluidos Oracle , Microsoft, Google , DataStax y MongoDB, entre otros.
Sin embargo, Milvus es un poco diferente, ya que es una base de datos vectorial diseñada específicamente para este fin. En esa categoría, la competencia incluye proveedores como Pinecone . Si bien es cierto que existen otras tecnologías de bases de datos vectoriales de código abierto, Milvus tiene la distinción un tanto única de ser la única que forma parte del esfuerzo LF AI & DATA de la Linux Foundation .
El hecho de que Milvus esté alojado en la AI & Data Foundation de Linux Foundation le ha permitido recibir contribuciones de un amplio ecosistema de instituciones y organizaciones participantes. Xie señaló que entre las organizaciones que han contribuido con código al proyecto de código abierto Milvus se encuentran IBM, Nvidia, Apple, Salesforce e Intel.
Según Xie, la combinación de contar con una base de código abierto, un enfoque en bases de datos vectoriales nativas y, lo más importante, tener características especializadas, ayuda a diferenciar la tecnología de su empresa en un mercado abarrotado. Xie argumentó que estar exclusivamente centrado en la tecnología de bases de datos vectoriales le permite ofrecer soluciones más integrales y optimizadas que los proveedores que incluyen los vectores como un tipo de datos más.
Esta especialización ha permitido a Zilliz desarrollar funciones específicamente adaptadas a las necesidades de búsqueda de vectores empresariales, incluidas las capacidades de cumplimiento, seguridad y alta disponibilidad que exigen los entornos de producción.
Cómo Zilliz está mejorando su base de datos de vectores para las necesidades de producción de IA empresarial
La oferta de Zillliz Cloud se basa en la base de datos de código abierto Milvus. La oferta proporciona un servicio de administración de la base de datos que facilita su uso y consumo por parte de las organizaciones.
Como parte de la última actualización de Zilliz Cloud, la empresa ha añadido un sistema de indexación automatizado que elimina la necesidad de ajustar manualmente los parámetros. La nueva función selecciona automáticamente los algoritmos de indexación óptimos para proporcionar el mejor rendimiento, sin que el usuario tenga que configurar manualmente los índices.
“El resultado es el mejor desde el primer momento”, afirmó Xie.
La función de indexación automática es parte del esfuerzo de Zilix Cloud por proporcionar un “modo de conducción autónoma” para bases de datos vectoriales, utilizando algoritmos de aprendizaje automático para optimizar el rendimiento en segundo plano. Esto ayuda a reducir el costo total de propiedad para los clientes, ya que no necesitan dedicar tiempo y recursos al ajuste manual del índice.
La optimización de algoritmos ayuda a mejorar casos de uso específicos de IA empresarial
Yendo un paso más allá, Zilliz ahora también integra un optimizador de algoritmos.
La optimización funciona con IVF (archivo invertido) y con algoritmos de recuperación de vectores basados en gráficos. La asignación de memoria y el rendimiento computacional también están optimizados para una ejecución rápida que, según la empresa, proporciona una aceleración hasta tres veces superior a las implementaciones no optimizadas.
El optimizador de algoritmos funciona en diferentes casos de uso, ya sea que la organización esté ejecutando un sistema de búsqueda de documentos, un motor de recomendaciones, detección de fraude o cualquier otra aplicación basada en vectores.
La innovación en búsqueda y almacenamiento híbridos ayuda a reducir los costos de la inteligencia artificial empresarial
La nueva versión también introduce una funcionalidad de búsqueda híbrida, que combina la búsqueda por similitud vectorial con la búsqueda tradicional basada en palabras clave en un solo sistema.
La integración permite a las empresas consolidar su infraestructura de búsqueda y reducir la complejidad operativa. Xie explicó que el componente de búsqueda basado en palabras clave utiliza el algoritmo BM25, estándar de la industria, así como un índice disperso.
Para hacer frente a los crecientes costes de almacenamiento, Zilliz ha implementado un sistema de almacenamiento jerárquico que hace que su servicio sea más rentable que las bases de datos vectoriales en memoria tradicionales. La jerarquía de almacenamiento de múltiples capas permite que la mayoría de los datos se almacenen en discos locales y en almacenamiento de objetos, lo que lo hace más económico que una solución pura en memoria, según Xie.
Xie afirma que gracias al nuevo conjunto de innovaciones en rendimiento y almacenamiento, Zilliz podrá reducir los costos de consumo de bases de datos vectoriales para sus usuarios.
De cara al futuro, Zilliz tiene planes ambiciosos para una mayor optimización de costes.
“Voy a hacer una predicción muy audaz: en los próximos cinco años, el costo, el costo total de la solución de base de datos vectorial, debería reducirse otras 100 veces”, afirmó Xie.
Fuente:
Kerner, S. M. (2024, 18 noviembre). Open source vector database vendor targets enterprise AI costs with cloud update. VentureBeat. https://venturebeat.com/data-infrastructure/open-source-vector-database-vendor-targets-enterprise-ai-costs-with-cloud-update/