Marcelo Sousa, bioquímico de la Universidad de Colorado Boulder, había pasado diez años tratando de resolver un complicado rompecabezas. Sousa y su equipo han recopilado una gran cantidad de datos experimentales sobre una única proteína bacteriana relacionada con la resistencia a los antibióticos. Desarrollar su estructura, esperaban, ayudaría a encontrar inhibidores que puedan detener la construcción de esa resistencia. Pero, año tras año, el enigma seguía sin resolverse. Luego vino AlphaFold. En 15 minutos, el sistema de aprendizaje automático de DeepMind había resuelto la estructura.
Es el tipo de resultado que pronto podría repetirse en laboratorios de todo el mundo. En un artículo publicado en la revista Nature , DeepMind ha publicado más de 350.000 estructuras proteicas previstas. Incluido en eso está casi la totalidad del proteoma humano, las proteínas que componen el cuerpo humano. Dentro de estas estructuras pronosticadas, podrían haber conocimientos clave sobre enfermedades como el cáncer y el Alzheimer, la posibilidad de nuevos medicamentos e incluso mejores formas de reciclar plástico.
Para poner ese número en contexto, la base de datos de Universal Protein, una colección de todas las proteínas que la ciencia ha descubierto hasta ahora, contiene más de 180 millones de secuencias de proteínas. Estas secuencias de proteínas nos dicen cómo se ordenan los aminoácidos en una proteína, pero eso es solo el comienzo del rompecabezas. Para comprender realmente cómo funcionan las proteínas en el cuerpo, necesitamos saber cómo esa secuencia determina la estructura 3D de la proteína, y esa es una tarea mucho más difícil que simplemente conocer el orden correcto de los aminoácidos.
De esos 180 millones de secuencias de proteínas, los científicos hasta ahora han calculado la estructura de solo 180.000 proteínas. La nueva base de datos de DeepMind proporciona predicciones para más del doble del número de estructuras proteicas conocidas hasta la fecha. Ahora los biólogos podrán trabajar para comprender cómo interactúan y funcionan las proteínas, y más allá de eso, diseñar nuevas proteínas, permitir un descubrimiento de fármacos más rápido, descifrar las variaciones de genes que causan enfermedades y más. “Hay mucho más en las proteínas que la estructura, por lo que debemos unirlo”, dice Janet Thornton, directora emérita del Instituto Europeo de Bioinformática de EMBL. “Es un componente de esa comprensión más amplia de cómo funciona la vida”.
En los próximos meses, el equipo de AlphaFold planea liberar 100 millones de estructuras de proteínas. “Pasaremos de que las estructuras de proteínas sean un recurso muy valioso a que [ellas] caigan en cada esquina”, dice John Jumper, investigador principal de AlphaFold.
AlphaFold resolvió el problema del plegamiento de proteínas en diciembre de 2020, cuando el equipo de DeepMind ganó en CASP, la Evaluación crítica de la predicción de la estructura de proteínas. En ese momento, la compañía prometió que haría que los datos y el código estuvieran disponibles abiertamente. Menos de ocho meses después, en julio de 2021, DeepMind publicó el código y la metodología completos de AlphaFold 2 en Nature , y ahora ha anunciado que todo será de uso gratuito a través de una asociación con el Laboratorio Europeo de Biología Molecular (EMBL) para compartir este recurso masivo, que se llamará AlphaFold Protein Structure Database.“Creemos que esto representa la contribución más significativa que ha hecho la IA para mejorar el estado del conocimiento científico hasta la fecha”, dijo el director ejecutivo y cofundador de DeepMind, Demis Hassabis, en una conferencia de prensa.
Todos los seres vivos en la Tierra están hechos de proteínas: simples cadenas de aminoácidos que se pliegan desde una cadena lineal en formas complejas y compactas en 3D. Una proteína puede plegarse en un número casi infinito de formas antes de alcanzar su estructura final. En 1972, durante su discurso de aceptación del premio Nobel, Christian Anfinsen propuso que la estructura de la proteína debería estar determinada por su secuencia de aminoácidos. Pero demuestre que era un juego de pelota completamente diferente, y el problema del plegamiento de proteínas ha sido un dolor de cabeza que ha atormentado y desconcertado a los científicos durante 50 años.
Tradicionalmente, la investigación se ha basado en métodos costosos y que requieren mucho tiempo para elaborar estructuras, como la cristalografía de rayos X y la microscopía electrónica. Un biólogo puede tardar desde unos meses hasta un año en resolver el rompecabezas; algunos han invertido todo su doctorado en intentar resolver uno solo. “Incluso entonces, el éxito no está garantizado: algunas proteínas son notoriamente difíciles de encontrar en estructuras”, dice Pushmeet Kohli, director de inteligencia artificial para la ciencia en DeepMind. Con esta nueva base de datos, para una gran cantidad de proteínas, cualquier investigador podrá obtener su estructura en cuestión de minutos.
En su último artículo, el equipo de DeepMind ha mostrado AlphaFold en acción, aplicándolo para predecir la estructura del 98,5 por ciento de las proteínas humanas. El equipo también ha incluido las estructuras de los proteomas de 20 organismos modelo clave importantes para la investigación biológica, como la mosca de la fruta y E. coli.
Para guiar a los investigadores que desean utilizar las predicciones de la estructura de las proteínas en su propio trabajo, el equipo ha proporcionado medidas de confianza, etiquetando qué predicciones han considerado más fiables. La poca confianza en una estructura deja a los investigadores a tientas en la oscuridad. Pero proporcionar métricas de confianza significa que los científicos sabrán en buscadores confiar y qué estructuras predichas deben verificar dos veces utilizando otros métodos. Alphafold logró predecir más de un tercio de los residuos, los aminoácidos que componen una proteína, en el proteoma humano con una confianza muy alta, y casi el 60 por ciento caen en el siguiente grupo de confianza más alto. Al juntar los dos corchetes, el sistema puede predecir la forma de la proteína con una precisión casi experimental en aproximadamente dos tercios del tiempo. Antes, a pesar de años de investigación,
Hay ciertas regiones de proteínas en las que AlphaFold solo podría proporcionar una predicción de baja confianza, pero el equipo aún cree que este es un hallazgo importante, en lugar de un fallo de la tecnología. Cuando Jumper y sus colegas empezaron a ver este resultado, entraron en pánico, dice Jumper. Pero cuando miraron más de cerca, se dieron cuenta de que estas estructuras eran de hecho proteínas que se sabía que estaban intrínsecamente desordenadas. “No tiene una estructura fija y por eso no obtienes respuesta. Y eso es valioso para los experimentadores ”, dice Jumper.
Como fue el caso de Sousa, DeepMind ha estado alquilando su base de datos a otros investigadores durante algún tiempo. John McGeehan, profesor de biología estructural en la Universidad de Portsmouth, que está buscando enzimas que puedan biodegradar plásticos de un solo uso, usó AlphaFold para probar las estructuras cristalinas de su equipo contra las estructuras predichas que devolvió AlphaFold. Descubrió que no solo eran idénticos, sino que también contenían incluso más información de la que las estructuras cristalinas podían proporcionar.
AlphaFold no reemplazará por completo el uso de métodos experimentales para determinar estructuras, sino que los dos se complementarán entre sí. Por un lado, las áreas donde la predicción no es tan segura requieren otros medios para resolver la estructura de una proteína. “No creo que estemos en el punto en el que podamos tomar las predicciones al pie de la letra y asumir que son correctas”, dice Sousa.
Es posible que el éxito de AlphaFold en este artículo no suponga un gran impacto para muchos científicos; más bien, más como una confirmación de las capacidades y sospechadas de dicha tecnología, dice Andrei Lupas, director del Instituto Max Planck de Biología del Desarrollo y evaluador de CASP. Los sistemas similares los siguen de cerca. Académicos de la Universidad de Washington ya han diseñado una herramienta de predicción de proteínas similar a AlphaFold 2, llamada RoseTTaFold. “Yo diría que para finales de este año, tendremos disponibles varios predictores de estructura de proteínas de alto rendimiento”, dice Lupas.
También puede haber cierto escepticismo entre la comunidad de biología estructural. Después de todo, las estructuras predichas son predicciones y los niveles de confianza pueden variar. “Para los biólogos estructurales, no creo que nunca se queden sin trabajo, porque querrán verificar que estas estructuras sean correctas”, dice Andrew Martin, profesor de bioinformática y biología computacional en el University College de Londres y ex Participante y evaluador del CASP. “Claramente es un gran avance con respecto a todo lo que existe en este momento, pero no obstante, no es necesariamente la respuesta final”.
Básicamente, las noticias muestran que esto es algo que la IA puede hacer mejor. “Somos una tontería al predecir las estructuras de las proteínas”, dice Jumper. Combinar el aprendizaje automático y la biología no solo significa hacer algo mejor, significa hacer algo que los humanos no pueden hacer en absoluto.
Fuente:
Browne, G. (22 de julio de 2021). La IA de DeepMind finalmente ha demostrado lo útil que puede ser. Recuperado 28 de julio de 2021, de https://www.wired.co.uk/article/deepmind-protein-folding-database