El aprendizaje profundo consiste en resolver los secretos más profundos de la biología a una velocidad asombrosa.
Hace apenas un mes, DeepMind resolvió un gran desafío de 50 años: el plegamiento de proteínas . Una semana después, produjeron una base de datos totalmente transformadora de más de 350.000 estructuras de proteínas, incluyendo más del 98 por ciento de las proteínas humanas conocidas. La estructura está en el corazón de las funciones biológicas. El volcado de datos, programado para explotar a 130 millones de estructuras para fin de año, permite a los científicos incursionar en la “materia oscura” anterior —proteínas invisibles y no probadas— de la composición del cuerpo humano.
El resultado final es nada menos que revolucionario. Desde la investigación en ciencias biológicas básicas hasta el desarrollo de nuevos medicamentos contra nuestras enfermedades más duras como el cáncer, el aprendizaje profundo nos brindó una llave de oro para desbloquear nuevos mecanismos biológicos, ya sean naturales o sintéticos, que antes eran inalcanzables.
Ahora, el querido de la IA está listo para hacer lo mismo con el ARN.
Como hijo del medio del dogma central “ADN a ARN a proteína”, el ARN no recibió mucha prensa hasta su contribución a la vacuna Covid-19 . Pero la molécula es un doble héroe: tanto lleva información genética como, dependiendo de su estructura, puede catalizar funciones biológicas, regular qué genes están activados, modificar su sistema inmunológico y, aún más loco, potencialmente transmitir “recuerdos” de generación en generación. .
También es frustrantemente difícil de entender.
Al igual que las proteínas, el ARN también se pliega en complicadas estructuras tridimensionales. La diferencia, explican los Dres. Rhiju Das y Ron Dror de la Universidad de Stanford, es que comparativamente sabemos tan poco sobre estas moléculas. Hay 30 veces más tipos de ARN que proteínas, pero la cantidad de estructuras de ARN descifradas es menos del uno por ciento en comparación con las proteínas.
El equipo de Stanford decidió cerrar esa brecha. En un artículo publicado la semana pasada en Science , describieron un algoritmo de aprendizaje profundo llamado ARES (Atomic Rotationally Equivalent Scorer) que resuelve de manera eficiente la estructura 3D del ARN, eliminando los intentos anteriores del agua.
Los autores “han logrado un progreso notable en un campo que ha demostrado ser recalcitrante a los avances transformadores”, dijo el Dr. Kevin Weeks de la Universidad de Carolina del Norte, que no participó en el estudio.
Aún más impresionante, ARES se entrenó en solo 18 estructuras de ARN, pero pudo extraer reglas sustanciales de “bloques de construcción” para el plegamiento de ARN que se probarán más en laboratorios experimentales. ARES también es independiente de las entradas, ya que no está diseñado específicamente para el ARN. “Este enfoque es aplicable a diversos problemas en biología estructural, química, ciencia de materiales y más allá”, dijeron los autores.
Conoce al ARN
La importancia de esta biomolécula para nuestra vida cotidiana probablemente se resuma como “Vacuna Covid, gota de micrófono”.
Pero es mucho más. Al igual que las proteínas, el ARN se transcribe a partir del ADN. También tiene cuatro letras, A, U, C y G, con A agarrando U y C atadas a G. El ARN es una familia completa, siendo el tipo más conocido el ARNm, que lleva instrucciones genéticas para construir proteínas. Pero también hay ARNt (me gusta pensar en ellos como drones de transporte) que se adhieren a los aminoácidos y los transportan a la fábrica de proteínas, microARN que controlan la expresión genética e incluso primos más extraños de los que entendemos poco.
En pocas palabras: el ARN es un objetivo poderoso y una inspiración para la medicina genética o las vacunas. Una forma de apagar un gen sin tocarlo, por ejemplo, es matar a su mensajero de ARN. En comparación con la terapia génica, dirigirse al ARN podría tener menos efectos no deseados y, al mismo tiempo, mantener intacto nuestro modelo genético.
En mi cabeza, el ARN a menudo se parece a unos auriculares enredados. Comienza como una cuerda, pero luego se enreda en un bucle de bucle, como si se retuerce una banda de goma. Esa estructura retorcida luego se retuerce nuevamente con bucles circundantes, formando una estructura terciaria.
A diferencia de los auriculares frustrantemente molestos, el ARN se retuerce de formas semidedecibles. Tiende a asentarse en una de varias estructuras. Estos son como la forma en la que tu cuerpo se contorsiona durante un montón de movimientos de baile. Luego, las estructuras de ARN terciario unen estos movimientos de baile en un “motivo”.
“Es probable que cada ARN tenga una personalidad estructural distinta”, dijo Weeks.
Esta aparente simplicidad es lo que hace que los investigadores se arranquen los pelos. Los componentes básicos del ARN son simples: solo cuatro letras. También se pliegan en estructuras semirrígidas antes de convertirse en moldes terciarios más complicados. Sin embargo, “a pesar de estas características simplificadoras, el modelado de estructuras complejas de ARN ha demostrado ser difícil”, dijo Weeks.
El dilema de la predicción
Las soluciones actuales de aprendizaje profundo generalmente comienzan con un requisito: un montón de ejemplos de entrenamiento, de modo que cada capa de la red neuronal pueda comenzar a aprender cómo extraer características de manera eficiente: información que permite a la IA realizar predicciones sólidas.
Eso es un no-go para el ARN. A diferencia de las estructuras de proteínas, el ARN simplemente no tiene suficientes ejemplos verdaderos y probados experimentalmente.
Con ARES, los autores adoptaron un enfoque sorprendente. Al algoritmo no le importa el ARN. Descarta todo lo que ya sabemos sobre la molécula y sus funciones. En cambio, se centró solo en la disposición de los átomos.
ARES se entrenó por primera vez con un pequeño conjunto de motivos conocidos de estructuras de ARN anteriores. El equipo también agregó una gran cantidad de ejemplos alternativos de la misma estructura que eran incorrectos. Al digerir este ejemplo, ARES ajustó lentamente los parámetros de su red neuronal para que el programa comenzara a aprender cómo cada átomo y su ubicación contribuyen a la función general de la molécula.
Similar a un algoritmo clásico de visión por computadora que extrae características gradualmente, desde píxeles hasta líneas y formas, ARES hace lo mismo. Las capas de su red neuronal cubren escamas finas y gruesas. Cuando se le desafió con un nuevo conjunto de estructuras de ARN, muchas de las cuales son mucho más complejas que las de entrenamiento, ARES pudo destilar patrones y motivos novedosos, reconociendo cómo se unen las letras.
“Aprende completamente de la estructura atómica, sin utilizar otra información … y no hace suposiciones sobre qué características estructurales podrían ser importantes”, dijeron los autores. Ni siquiera proporcionaron información básica al algoritmo, como que el ARN está formado por cadenas de cuatro letras.
Como otro punto de referencia, el equipo desafió a ARES a RNA-Puzzles. Iniciado en 2011, RNA-Puzzles es un desafío comunitario para que los biólogos estructurales prueben sus algoritmos de predicción contra estructuras de ARN experimentales conocidas. ARES arrasó con la competencia. La resolución promedio “se ha mantenido obstinadamente estancada” alrededor de 10 veces menos que la de una proteína, dijo Weeks. ARES mejoró la precisión en aproximadamente un 30 por ciento. Es un paso aparentemente pequeño, pero un gran paso para uno de los problemas más intratables de la biología.
Un código estructural de ARN
En comparación con la predicción de la estructura de las proteínas, el ARN es mucho más difícil. Y por ahora, ARES todavía no puede alcanzar el nivel de precisión necesario para los esfuerzos de descubrimiento de fármacos, o encontrar nuevos “puntos calientes” en las moléculas de ARN que puedan modificar nuestra biología.
Pero ARES es un poderoso paso adelante en “perforar la niebla” del ARN, uno que está “preparado para transformar el descubrimiento de la estructura y función del ARN”, dijo Weeks. Una mejora del algoritmo podría ser incorporar algunos datos experimentales para modelar aún más estas intrincadas estructuras. Lo que está claro es que el ARN parece tener un “código estructural” que ayuda a regular los circuitos de los genes, algo que ARES y sus próximas generaciones pueden ayudar a analizar.
Gran parte del ARN ha sido la “materia oscura” de la biología. Sabemos que están ahí, pero son difíciles de visualizar y aún más difíciles de estudiar. ARES representa el próximo telescopio en esa niebla. “A medida que sea posible medir, aprender (profundamente) y predecir los detalles de la estructura del ARN terciario, aguardan diversos descubrimientos nuevos en los mecanismos biológicos”, dijo Weeks.
Fuente:
Fan, S. (2021, 31 agosto). Deep Learning Is Tackling Another Core Biology Mystery: RNA Structure. Recuperado 31 de agosto de 2021, de https://singularityhub.com/2021/08/31/deep-learning-is-tackling-another-core-biology-mystery-rna-structure/