Toda la vida en la Tierra está escrita con cuatro “letras” de ADN. Una IA utilizó esas letras para idear un genoma completamente nuevo desde cero.
La IA, llamada Evo , se inspiró en los grandes modelos de lenguaje (LLM, por sus siglas en inglés) que sustentan chatbots populares como ChatGPT de OpenAI y Claude de Anthropic. Estos modelos han conquistado al mundo por su habilidad para generar respuestas similares a las humanas. Desde tareas simples, como definir una palabra confusa, hasta resumir artículos científicos o soltar versos aptos para una batalla de rap, los LLM han entrado en nuestra vida cotidiana.
Si los LLM pueden dominar los lenguajes escritos, ¿podrían hacer lo mismo con el lenguaje de la vida?
Este mes, un equipo de la Universidad de Stanford y el Instituto Arc puso a prueba la teoría. En lugar de entrenar a Evo con contenido extraído de Internet, entrenaron a la IA con casi tres millones de genomas (que equivalen a miles de millones de líneas de código genético) de varios microbios y virus que infectan bacterias.
Evo fue mejor que los modelos de IA anteriores a la hora de predecir cómo las mutaciones del material genético (ADN y ARN) podrían alterar la función. La IA también se puso creativa, ideando varios componentes nuevos para la herramienta de edición genética, CRISPR. Aún más impresionante fue que la IA generó un genoma de más de una megabase de longitud, aproximadamente el tamaño de algunos genomas bacterianos.
“En general, Evo representa un modelo de base genómica”, escribió Christina Theodoris del Instituto Gladstone en San Francisco, que no participó en el trabajo.
Una vez aprendido el vocabulario genómico, algoritmos como Evo podrían ayudar a los científicos a investigar la evolución, descifrar el funcionamiento interno de nuestras células, abordar misterios biológicos y acelerar la biología sintética mediante el diseño de nuevas biomoléculas complejas.
El multiverso del ADN
En comparación con las 26 letras del alfabeto inglés, el ADN solo tiene A, T, C y G. Estas “letras” son la abreviatura de las cuatro moléculas (adenina (A), timina (T), citosina (C) y guanina (G)) que, combinadas, forman nuestros genes. Si las LLM pueden conquistar los idiomas y generar nueva prosa, reescribir el manual genético con solo cuatro letras debería ser pan comido.
No exactamente. El lenguaje humano está organizado en palabras, frases y oraciones para transmitir información. El ADN, en cambio, es más continuo y los componentes genéticos son complejos. Las mismas letras del ADN llevan “hilos paralelos de información”, escribió Theodoris.
La más conocida es la función del ADN como portador genético. Una combinación específica de tres letras de ADN, llamada codón, codifica un bloque de construcción de proteínas. Estas se unen para formar las proteínas que forman nuestros tejidos y órganos, y dirigen el funcionamiento interno de nuestras células.
Pero la misma secuencia genética, dependiendo de su estructura, también puede reclutar las moléculas necesarias para convertir los codones en proteínas. Y, a veces, las mismas letras de ADN pueden convertir un gen en proteínas diferentes, dependiendo de la salud y el entorno de la célula, o incluso desactivar el gen.
En otras palabras, las letras del ADN contienen una gran cantidad de información sobre la complejidad del genoma, y cualquier cambio puede poner en peligro la función de una proteína, lo que deriva en enfermedades genéticas y otros problemas de salud. Esto hace que sea fundamental que la IA trabaje en la resolución de letras individuales del ADN.
Pero es difícil para la IA capturar múltiples hilos de información a gran escala analizando únicamente las letras genéticas, en parte debido a los altos costos computacionales. Al igual que las escrituras romanas antiguas, el ADN es un continuo de letras sin puntuación clara. Por lo tanto, podría ser necesario “leer” cadenas completas para obtener una imagen general de su estructura y función, es decir, para descifrar el significado.
En intentos anteriores se han “agrupado” letras de ADN en bloques, algo así como crear palabras artificiales. Si bien son más fáciles de procesar, estos métodos alteran la continuidad del ADN, lo que da como resultado la retención de “algunos hilos de información a expensas de otros”, escribió Theodoris.
Fundamentos de construcción
Evo abordó estos problemas de frente. Sus diseñadores se propusieron preservar todos los hilos de información, al tiempo que operaban con una resolución de una sola letra de ADN y con menores costos computacionales.
El truco consistía en dar a Evo un contexto más amplio para cualquier fragmento dado del genoma aprovechando un tipo específico de configuración de IA utilizada en una familia de algoritmos llamada StripedHyena. En comparación con GPT-4 y otros modelos de IA, StripedHyena está diseñado para ser más rápido y más capaz de procesar entradas de gran tamaño, por ejemplo, grandes longitudes de ADN. Esto amplió la llamada “ventana de búsqueda” de Evo, lo que le permitió encontrar mejor patrones en un paisaje genético más amplio.
Los investigadores entrenaron a la IA con una base de datos de casi tres millones de genomas de bacterias y virus que infectan a las bacterias, conocidos como fagos. También aprendió de plásmidos, fragmentos circulares de ADN que suelen encontrarse en las bacterias y que transmiten información genética entre microbios, lo que estimula la evolución y perpetúa la resistencia a los antibióticos.
Una vez entrenado, el equipo enfrentó a Evo con otros modelos de IA para predecir cómo las mutaciones en una secuencia genética dada podrían afectar la función de la secuencia, como la codificación de proteínas. Aunque nunca se le dijo qué letras genéticas forman codones, Evo superó a un modelo de IA entrenado explícitamente para reconocer letras de ADN que codifican proteínas en la tarea.
Sorprendentemente, Evo también predijo el efecto de las mutaciones en una amplia variedad de moléculas de ARN: por ejemplo, las que regulan la expresión genética, las que transportan los componentes básicos de las proteínas a la fábrica de producción de proteínas de la célula y las que actúan como enzimas para ajustar la función de las proteínas.
Evo parecía haber adquirido una “comprensión fundamental de la gramática del ADN”, escribió Theodoris, lo que lo convierte en una herramienta perfecta para crear un nuevo código genético “significativo”.
Para probar esto, el equipo utilizó la IA para diseñar nuevas versiones de la herramienta de edición genética CRISPR. La tarea es especialmente difícil porque el sistema contiene dos elementos que trabajan juntos: una molécula de ARN guía y un par de “tijeras” proteínicas llamadas Cas. Evo generó millones de posibles proteínas Cas y su ARN guía acompañante. El equipo eligió 11 de las combinaciones más prometedoras, las sintetizó en el laboratorio y probó su actividad en tubos de ensayo.
Una de ellas se destacó: una variante de Cas9, la proteína diseñada por IA escindió su ADN objetivo cuando se emparejó con su ARN guía asociado. Estas biomoléculas de diseño representan los “primeros ejemplos” de codiseño entre proteínas y ADN o ARN con un modelo de lenguaje, escribió el equipo.
El equipo también pidió a Evo que generara una secuencia de ADN de longitud similar a la de algunos genomas bacterianos y comparó los resultados con genomas naturales. El genoma de diseño contenía algunos genes esenciales para la supervivencia celular, pero con una miríada de características no naturales que le impedían ser funcional. Esto sugiere que la IA solo puede crear una “imagen borrosa” de un genoma, que contiene elementos clave, pero carece de detalles más precisos, escribió el equipo.
Al igual que otros LLM, Evo a veces “alucina”, arrojando sistemas CRISPR sin posibilidad de funcionar. A pesar de los problemas, la IA sugiere que los LLM futuros podrían predecir y generar genomas a una escala más amplia. La herramienta también podría ayudar a los científicos a examinar interacciones genéticas de largo alcance en microbios y fagos, lo que podría generar ideas sobre cómo podríamos reprogramar sus genomas para producir biocombustibles, insectos que se alimentan de plástico o medicamentos.
Todavía no está claro si Evo podría descifrar o generar genomas mucho más largos , como los de plantas, animales o humanos. Sin embargo, si el modelo puede escalarse, “tendría enormes implicaciones diagnósticas y terapéuticas para las enfermedades”, escribió Theodoris.
Fuente:
Fan, S. (2024, 18 noviembre). A ChatGPT-Like AI can now design whole new genomes from scratch. Singularity Hub. https://singularityhub.com/2024/11/18/a-chatgpt-like-ai-can-now-design-entirely-new-genomes-from-scratch/