¿Recuerdas cuando predecir formas de proteínas usando IA fue el gran avance del año?
Esas son noticias viejas. Habiendo resuelto casi todas las estructuras de proteínas conocidas en biología, la IA ahora se enfrenta a un nuevo desafío: diseñar proteínas desde cero.
Lejos de ser una actividad académica, el esfuerzo es un potencial cambio de juego para el descubrimiento de fármacos. Tener la capacidad de elaborar medicamentos proteicos para cualquier objetivo dentro del cuerpo, como los que desencadenan el crecimiento y la propagación del cáncer, podría lanzar un nuevo universo de medicamentos para hacer frente a nuestros peores enemigos médicos.
No es de extrañar que múltiples potencias de IA estén respondiendo al desafío. Lo sorprendente es que convergieron en un enfoque similar. Este año, DeepMind, Meta y el equipo del Dr. David Baker en la Universidad de Washington se inspiraron en una fuente poco probable: DALL-E y GPT-3.
Estos algoritmos generativos han conquistado el mundo. Cuando se les dan algunas indicaciones simples en inglés cotidiano, los programas pueden producir imágenes alucinantes, párrafos de escritura creativa o escenas de películas, e incluso remezclar los últimos diseños de moda. La misma tecnología subyacente recientemente intentó escribir código de computadora, superando a casi la mitad de los competidores humanos en una tarea de programación altamente desafiante.
¿Qué tiene que ver todo eso con las proteínas?
Aquí está la cuestión: las proteínas son esencialmente cadenas de “letras” moldeadas en estructuras secundarias (piense en oraciones) y luego en “párrafos” en 3D. Si la IA puede generar imágenes magníficas y una escritura limpia, ¿por qué no cooptar la tecnología para reescribir el código de la vida?
Aquí vienen los campeones
La proteína es la clave para la vida. Construye nuestros cuerpos. Dirige nuestro metabolismo. Es la base de funciones cerebrales intrincadas. También es la base de una gran cantidad de nuevos medicamentos que podrían tratar algunos de nuestros problemas de salud más insuperables hasta la fecha y crear nuevas fuentes de biocombustibles, carnes cultivadas en laboratorio o incluso formas de vida completamente nuevas a través de la biología sintética.
Mientras que “proteína” a menudo evoca imágenes de pechugas de pollo, estas moléculas son más similares a un intrincado rompecabezas de Lego. La construcción de una proteína comienza con una cadena de aminoácidos (piense en una miríada de luces navideñas en una cadena) que luego se pliegan en estructuras 3D (como arrugarlas para almacenarlas).
DeepMind y Baker causaron sensación cuando desarrollaron algoritmos para predecir la estructura de cualquier proteína en función de su secuencia de aminoácidos. No fue un esfuerzo sencillo; las predicciones fueron mapeadas a nivel atómico.
El diseño de nuevas proteínas eleva la complejidad a otro nivel. Este año, el laboratorio de Baker lo intentó, con un esfuerzo que utilizó buenas técnicas de detección antiguas y otro que se basó en alucinaciones de aprendizaje profundo . Ambos algoritmos son extremadamente poderosos para desmitificar las proteínas naturales y generar otras nuevas, pero fueron difíciles de ampliar.
Pero espera. Diseñar una proteína es un poco como escribir un ensayo. Si GPT-3 y ChatGPT pueden escribir diálogos sofisticados utilizando un lenguaje natural, la misma tecnología podría, en teoría, también reajustar el lenguaje de las proteínas (aminoácidos) para formar proteínas funcionales completamente desconocidas para la naturaleza.
La creatividad de la IA se encuentra con la biología
Una de las primeras señales de que el truco podría funcionar provino de Meta.
En un artículo de preimpresión reciente , aprovecharon la arquitectura de IA subyacente a DALL-E y ChatGPT, un tipo de aprendizaje automático llamado modelos de lenguaje grande (LLM), para predecir la estructura de la proteína. En lugar de alimentar a los modelos con cantidades exuberantes de texto o imágenes, el equipo los entrenó en secuencias de aminoácidos de proteínas conocidas. Usando el modelo, la IA de Meta predijo más de 600 millones de estructuras de proteínas leyendo solo sus “letras” de aminoácidos, incluidas las esotéricas de microorganismos en el suelo, el agua del océano y nuestros cuerpos de los que sabemos poco.
Más impresionante aún, la IA, llamada ESMFold, finalmente aprendió a “autocompletar” secuencias de proteínas incluso cuando algunas letras de aminoácidos estaban ocultas. Aunque no es tan preciso como AlphaFold de DeepMind, funciona aproximadamente 60 veces más rápido, lo que facilita la ampliación a bases de datos más grandes.
El laboratorio de Baker llevó la función de “autocompletar” de proteínas a un nuevo nivel en una preimpresión publicada a principios de este mes. Si la IA ya puede llenar los espacios en blanco cuando se trata de predecir estructuras de proteínas, un principio similar también podría generar proteínas a partir de un aviso, en este caso, su función biológica potencial.
La clave se redujo a los modelos de difusión , un tipo de algoritmo de aprendizaje automático que impulsa DALL-E. En pocas palabras, estas redes neuronales son especialmente buenas para agregar y luego eliminar el ruido de cualquier dato, ya sean imágenes, textos o secuencias de proteínas. Durante el entrenamiento, primero destruyen los datos de entrenamiento agregando ruido. Luego, el modelo aprende a recuperar los datos originales invirtiendo el proceso a través de un paso llamado eliminación de ruido. Es un poco como desmantelar una computadora portátil u otro dispositivo electrónico y volver a armarlo para ver cómo funcionan los diferentes componentes.
Debido a que los modelos de difusión generalmente comienzan con datos codificados (por ejemplo, todos los píxeles de una imagen se reorganizan en ruido) y eventualmente aprenden a reconstruir la imagen original, es especialmente efectivo para generar nuevas imágenes, o proteínas, a partir de muestras aparentemente aleatorias.
El laboratorio de Baker aprovechó el enfoque con un poco de ajuste de su red de predicción de estructura RoseTTAFold característica. Anteriormente, una versión del software generaba andamios de proteínas, la columna vertebral de una proteína, en un solo paso. Pero las proteínas no son manchas uniformes: cada una tiene múltiples puntos de acceso que les permiten etiquetarse físicamente entre sí, lo que desencadena varios procesos biológicos. Cuando RoseTTAFold enfrentó problemas difíciles, como el diseño de puntos críticos de proteínas con un conocimiento mínimo, tuvo problemas.
La solución del equipo fue integrar RoseTTAFold con un modelo de difusión, y el primero ayudó con el paso de eliminación de ruido. El algoritmo resultante, RoseTTAFold Diffusion (RF Diffusion), es un hijo de amor entre la predicción de la estructura de proteínas y la generación creativa. La IA diseñó una amplia gama de proteínas elaboradas con poca semejanza con cualquier estructura de proteína conocida, restringida por límites predefinidos pero biológicamente relevantes.
Diseñar proteínas es solo el primer paso. El siguiente es traducir estos diseños digitales en proteínas reales y ver cómo funcionan en las células. En una prueba, el equipo tomó 44 candidatos con potencial antibacteriano y antiviral e hizo las proteínas dentro de la confiable bacteria E. Coli . Más del 80 por ciento de las proteínas de diseño de IA se doblaron en su forma final prevista. Esta es toda una hazaña, ya que varias subunidades tuvieron que unirse en números y orientaciones específicas.
Las proteínas también se aferraron a sus objetivos previstos. Un ejemplo tenía una estructura de proteína que se unía al SARS-CoV-2, el virus que causa el covid-19. El diseño de IA se centró específicamente en la proteína de punta del virus, el objetivo de las vacunas contra el covid-19.
En otro ejemplo, la IA diseñó una proteína que se une a una hormona para regular los niveles de calcio en la sangre. El candidato resultante se aferró fácilmente al objetivo, tanto que solo necesitó una pequeña cantidad. En declaraciones a MIT Technology Review , Baker dijo que la IA parecía sacar soluciones de fármacos proteicos “ de la nada”. ”
“Estos trabajos revelan cuán poderosos pueden ser los modelos de difusión para el diseño de proteínas”, dijo el autor del estudio, el Dr. Joseph Watson.
¿Sueñan las IA con ovejas moleculares?
El laboratorio de Baker no es el único que busca medicamentos proteicos basados en IA.
Generate Biomedicines , una startup con sede en Massachusetts, también tiene sus ojos puestos en los modelos de difusión para generar proteínas. Apodado Chroma, su software funciona de manera similar a RF Diffusion, incluidas las proteínas generadas que se adhieren a las restricciones biofísicas. Según la compañía, Chroma puede generar proteínas grandes (más de 4000 residuos de aminoácidos) en solo unos minutos en una GPU (unidad de procesamiento de gráficos).
Si bien se está acelerando, está claro que la carrera por el diseño de fármacos proteicos bajo demanda está en marcha. “Es extremadamente emocionante”, dijo David Juergens, autor del estudio RF Diffusion, “y en realidad es solo el comienzo”.
Fuente:
Fan, S. (2023, 2 enero). Thanks to DALL-E, the Race to Make Artificial Protein Drugs Is On. Singularity Hub. https://singularityhub.com/2023/01/03/thanks-to-dall-e-the-race-to-make-artificial-protein-drugs-is-on/