La Inteligencia Artificial y la Predicción de Estructura de Proteínas
- juvenalyosa
- Nov 24, 2022
- 5 min read
Updated: Nov 24, 2022
Las proteínas son macromoléculas clave para determinar el fenotipo y el destino de las células vivas en el cuerpo humano y en todas las especies vivas. Son la manifestación física de la información codificada en el DNA, incluidas las variantes y mutaciones que causan enfermedades y diferencias fenotípicas en las especies. En respuesta, las terapias con fármacos de molécula pequeña están diseñadas para dirigirse estratégicamente a estados patológicos de proteínas para tratar enfermedades humanas.
Los fármacos dirigidos a proteínas utilizando compuestos químicos generados sintéticamente es un proceso complejo que comienza con la comprensión de la estructura de las proteínas objetivo. Estas estructuras se han generado tradicionalmente mediante procesos experimentales costosos y elaborados, como la cristalografía de rayos X y la criomicroscopía electrónica. Sin embargo, los tremendos esfuerzos durante las últimas dos décadas, para la generación de modelos a partir de la secuencia de aminoácidos finalmente dieron como resultado la invención de modelos basados en redes neuronales profundas como AlphaFold2 con predicciones de estructura cercanas a la precisión experimental.
A partir de AlphaFold2 [1], se han generado múltiples modelos computacionales para predecir la estructura de proteínas con tres ventajas competitivas diferentes, que incluyen i. precisión; ii. velocidad; y iii. confianza en información adicional de secuenciación de genes para inferencia (es decir, predicción de estructura). Si bien el objetivo final de cada modelo es predecir con precisión la ubicación en el espacio tridimencional de cada átomo en la proteína, los requisitos de inferencia pueden tener un impacto notable en la aplicación del modelo.
AlphaFold2 [1] y, posteriormente, RoseTTAFold [2], como los dos primeros modelos basados en aprendizaje profundo para la predicción altamente precisa de estructuras de proteínas, se basan en alineaciones de secuencias múltiples (del inglés Multiple Sequence Alignment MSA) como entradas para sus modelos. Los alinemientos de secuencias múltiples mapean la relación evolutiva entre los residuos correspondientes de secuencias relacionadas genéticamente. Se derivan de grandes bases de datos públicas de secuenciación de todo el genoma que han crecido exponencialmente desde la aparición de la secuenciación de nueva generación a fines de la década de 2000. Es ampliamente aceptado que las herramientas de predicción estructural dependientes de MSA obtienen pistas de contexto posicional en un espacio tridimencional a partir de pares de residuos que coevolucionan entre sí a lo largo del tiempo, lo que implica proximidad espacial. Dado que los modelos dependientes de MSA se basan en información evolutiva, las aplicaciones de predicción de estructuras se limitan a secuencias de proteínas de origen natural.
Las herramientas más recientes intentan centrarse en eliminar la necesidad de MSA en sus modelos predictivos utilizando modelos de lenguaje aplicados en secuencias de proteínas individuales (Figura 1). Por ejemplo, OmegaFold [3] tiene un componente de modelado de lenguaje llamado OmegaPLM que usa transformers y mecanismos de atención para aprender representaciones por residuo y par de residuos para cada secuencia de proteína. Estos modelos basados en una sola secuencia, como OmegaFold [3], HelixFold-Single [4] y ESMFold de Meta [5], tienen un mayor potencial para predecir la estructura de las proteínas huérfanas y el diseño de anticuerpos y de proteínas en general, ya que no requieren MSA como entrada. Sin embargo, tienen una precisión general más baja para proteínas con MSA en comparación con AlphaFold2 y RoseTTAFold. A diferencia de los modelos dependientes de MSA, el dominio de aplicabilidad para los enfoques basados en el modelo de lenguaje puede extenderse más allá de la secuencia de proteínas de origen natural que incluyen la predicciones de estructuras de proteínas mutadas o en proyectos de de ingeniería de proteínas.

El tiempo de ejecución de predicción de los modelos basados en una sola secuencia es menor en comparación con modelos como AlphaFold2 que requieren MSA como entrada. Por ejemplo, ESMFold es 60 veces más rápido que AlphaFold2 para secuencias de proteínas cortas, aunque esta diferencia es de menor importancia para secuencias largas. Un menor costo computacional, o una mayor velocidad, es un factor importante para predecir estructuras de proteínas de forma repetitiva. Pero si hay una base de datos disponible que elimine la necesidad de predicción sobre la marcha para aplicaciones como el descubrimiento de fármacos de moléculas pequeñas, la velocidad y el costo de la predicción serían de menor importancia (UniprotAlphaFold y ESM metagenomic Atlas de Meta). La velocidad de inferencia y su dependencia del tamaño de la proteína también pueden tener implicaciones en futuras aplicaciones de ingeniería de proteínas, en particular aquellas que utilizan enfoques de optimización de secuencias o para futuros modelos capaces de predecir grandes estructuras de proteínas de múltiples subunidades.
AlphaFold2 ingresó a las líneas de desarrollo de fármacos no solo por la alta precisión de la herramienta, sino también por la disponibilidad de estructuras proteicas predichas de múltiples organismos en una base de datos pública. Pensando en el proceso de descubrimiento de fármacos, por ejemplo, utilizando moléculas pequeñas, la estructura de la proteína es el punto de partida para un target determinado y la predicción de la estructura no necesita repetirse varias veces. Por lo tanto, las estructuras ya disponibles serían suficientes para la mayoría de los pipelines de diseño y descubrimiento de fármacos computacionales. Las bases de datos precalculadas son particularmente útiles para cualquier aplicación que haga uso de múltiples estructuras de proteínas. Las posibles aplicaciones incluyen tareas de similitud estructural a escala de proteoma o el uso de estructuras de proteínas predichas como una estrategia de incorporación de características para otras aplicaciones predictivas como la caracterización de residuos de proteínas.
A pesar de la mayor precisión de un modelo frente a otro utilizando conjuntos de datos como la Critical Assessment of Techniques for Protein Structure Prediction (CASP14), es posible que un modelo no supere a todos los demás para todas las aplicaciones y clases de proteínas y especies en las tareas de predicción de estructuras. Por ejemplo, se han realizado esfuerzos para mostrar la precisión del modelo de estructura de proteínas en la predicción del efecto de mutaciónes [6]. Por lo tanto, se debe considerar la aplicación de modelos predictivos cuando los modelos se evalúan y eligen en función del rendimiento. Dicho de otra manera, la herramienta de predicción de estructura general puede no ser la "mejor para cualquier tarea".
Las consideraciones funcionales, como los requisitos de inferencia (es decir, la dependencia de MSA), la velocidad de inferencia, la disponibilidad de la base de datos o la capacidad de ejecutar modelos predictivos en una computadora local determinarán el dominio de aplicación de un modelo.
En realidad estamos supremamente emocionados de ver los nuevos desarrollos en bases de datos disponibles y modelos de IA en los próximos años y cómo cada nueva mejora abordará las limitaciones existentes y ampliará la usabilidad y aplicabilidad general de las estructuras de proteínas predichas.
1. Jumper, John, et al. "Highly accurate protein structure prediction with AlphaFold." Nature 596.7873 (2021): 583-589. 2. Baek, Minkyung, et al. "Accurate prediction of protein structures and interactions using a three track neural network." Science 373.6557 (2021): 871-876. 3. Wu, Ruidong, et al. "High-resolution de novo structure prediction from primary sequence." BioRxiv (2022). 4. Fang, Xiaomin, et al. "Helixfold-single: Msa-free protein structure prediction by using protein language model as an alternative." arXiv preprint arXiv:2207.13921 (2022). 5. Lin, Zeming, et al. "Language models of protein sequences at the scale of evolution enable accurate structure prediction." bioRxiv (2022). 6. Mansoor, Sanaa, et al. "Accurate Mutation Effect Prediction using RoseTTAFold." bioRxiv (2022).
Comentarios