Cuando los químicos orgánicos identificar un compuesto químico útil – un nuevo fármaco, por ejemplo – que depende de los ingenieros químicos para determinar cómo producir en masa ella.
Podría haber 100 secuencias diferentes de reacciones que producen el mismo producto final. Pero algunos de ellos utilizan reactivos más baratos y temperaturas más bajas que los demás, y quizás lo más importante, algunos son mucho más fáciles de ejecutar de forma continua, con los técnicos de vez en cuando el relleno reactivos en diferentes cámaras de reacción.
Históricamente, la determinación de la forma más eficiente y rentable para producir una molécula dada ha sido tanto arte como ciencia. Pero los investigadores del MIT están tratando de poner este proceso sobre una base empírica más seguro, con un sistema informático que está capacitado en miles de ejemplos de reacciones experimentales y que aprende a predecir cuáles serán los principales productos de la reacción.
El trabajo de los investigadores aparece en la revista de la Sociedad Americana de Química Central Science . Como todos los sistemas de aprendizaje automático, la de ellos presenta sus resultados en términos de probabilidades. En las pruebas, el sistema fue capaz de predecir de una reacción importante producto 72 por ciento del tiempo; 87 por ciento de las veces, se clasificó el producto mayoritario entre sus tres resultados más probables.
“Hay claramente una gran cantidad sabe acerca de las reacciones de hoy”, dice Klavs Jensen, el profesor Warren K. Lewis de Ingeniería Química en el MIT y uno de los cuatro autores principales en el papel “, pero es una, habilidad adquirida altamente evolucionado para mirar a una molécula y decidir cómo se va a sintetizarlo a partir de materiales de partida “.
Con el nuevo trabajo, Jensen dice, “la visión es que usted será capaz de subir a un sistema y decir, ‘quiero hacer esta molécula. El software le indicará la ruta que debe hacerlo desde, y la máquina hará que sea.”
Con una probabilidad del 72 por ciento de identificar principal producto de una reacción, el sistema aún no está listo para anclar el tipo de síntesis química completamente automatizado que Jensen prevé. Sin embargo, podría ayudar a los ingenieros químicos convergen más rápidamente en la mejor secuencia de reacciones – y posiblemente sugerir secuencias que no podrían de otro modo han investigado.
Jensen se unió en el papel por el primer autor Connor Coley, un estudiante graduado en ingeniería química; William Green, el Profesor Hoyt C. Hottel de Ingeniería Química, que, con Jensen, co-asesora Coley; Regina Barzilay, el profesor Delta Electrónica de Ingeniería Eléctrica e Informática; y Tommi Jaakkola, el profesor Thomas Siebel de Ingeniería Eléctrica e Informática.
Una molécula orgánica simple puede consistir en docenas e incluso cientos de átomos. Pero una reacción entre dos de tales moléculas podría implicar sólo dos o tres átomos, que romper sus enlaces químicos existentes y formar otras nuevas. Miles de reacciones entre cientos de diferentes reactivos a menudo se reducen a una sola reacción, compartida entre el mismo par de “sitios de reacción.”
Una molécula orgánica grande, sin embargo, podría tener múltiples sitios de reacción, y cuando se encuentra con otra molécula orgánica grande, sólo una de las varias reacciones posibles entre ellos en realidad se llevará a cabo. Esto es lo que hace la reacción predicción automática tan complicado.
En el pasado, los químicos han construido modelos informáticos que caracterizan las reacciones en términos de interacciones en los sitios de reacción. Pero con frecuencia requieren la enumeración de las excepciones, las cuales tienen que ser investigado de forma independiente y codificado a mano. El modelo podría declarar, por ejemplo, que si la molécula A tiene sitio de reacción X, y la molécula B tiene sitio de reacción Y, entonces X e Y reaccionarán para formar grupo Z – a menos que la molécula A también tiene sitios de reacción P, Q, R, S , T, u, o V.
No es raro que un solo modelo para requerir más de una docena de excepciones enumeradas. Y el descubrimiento de estas excepciones en la literatura científica y agregarlos a los modelos es una tarea laboriosa, lo que ha limitado la utilidad de los modelos.
Uno de los principales objetivos del nuevo sistema los investigadores del MIT es de evitar este arduo proceso. Coley y sus co-autores comenzaron con 15.000 reacciones observadas empíricamente reportados en las solicitudes de patentes de Estados Unidos. Sin embargo, debido a que el sistema de aprendizaje de máquina tenía que aprender lo que no se producen reacciones, así como aquellos que lo haría, ejemplos de reacciones exitosas no fueron suficientes.
Ejemplos
Así, por cada par de moléculas en una de las reacciones mencionadas, Coley también generó una batería de productos adicionales posibles, basado en sitios de reacción de las moléculas. Se alimenta entonces descripciones de reacciones, junto con sus listas ampliadas artificialmente de posibles productos, a un sistema de inteligencia artificial conocida como una red neuronal , que se encarga de clasificar los posibles productos en orden de probabilidad.
De este entrenamiento, la red aprendió esencialmente una jerarquía de reacciones – la cual las interacciones a lo que los sitios de reacción tiende a prevalecer sobre la que otros – y sin la anotación humana laborioso.
Otras características de una molécula pueden afectar a su reactividad. Los átomos en un sitio de reacción dada pueden, por ejemplo, tienen diferentes distribuciones de carga, dependiendo de qué otros átomos están alrededor de ellos. Y la forma física de una molécula puede hacer que un sitio de reacción de difícil acceso. Por lo tanto el modelo de los investigadores del MIT también incluye medidas numéricas de estas dos características.
De acuerdo con Richard Robinson, investigador-tecnologías químicas a la compañía farmacéutica Novartis, el sistema de los investigadores del MIT “ofrece un enfoque diferente para el aprendizaje automático dentro del campo de la síntesis dirigida, que en el futuro podría transformar la práctica de diseño experimental a moléculas específicas “.
“En la actualidad nos basamos en gran medida de nuestra propia formación retrosintético, que está alineado con nuestras propias experiencias personales y aumentada con los motores de búsqueda reacción de base de datos”, dice Robinson. “Esto nos sirve bien pero a menudo todavía se traduce en una tasa de fracaso significativo. Incluso los químicos altamente experimentados a menudo se sorprenden. Si se va a sumar todos los fracasos acumulados de síntesis como industria, esto probablemente se relacionan con un tiempo significativo y la inversión de costes. ¿Y si pudiéramos mejorar nuestra tasa de éxito?”
Los investigadores del MIT, Robinson dice, “han demostrado hábilmente un nuevo enfoque para lograr un mayor rendimiento reacción predictivo respecto a los métodos convencionales. Al aumentar la literatura informado con ejemplos reacción negativa, el conjunto de datos tiene más valor “.
Fuente: MIT