Un estudio reciente publicado en PNAS por Sahakyan et al.1 investigó la evolución de los plegamientos proteicos en la evolución temprana, antes del Último Ancestro Común Universal (LUCA, por sus siglas en inglés). El equipo desarrolló el Simulador de Evolución de Pliegues Proteicos (PFES, por sus siglas en inglés), un método computacional para simular la evolución de plegamientos proteicos globulares a partir de secuencias genéticas inicialmente aleatorias. Los pasos clave del PFES son (i) la introducción de mutaciones aleatorias, (ii) la evaluación de su efecto sobre la aptitud mediante la predicción de la estructura proteica basada en IA, y (iii) la selección posterior. Es el segundo paso —la evaluación de la aptitud— el que presenta un desafío significativo.
Existe una amplia literatura sobre el problema de comprender el panorama de aptitud en el espacio de secuencias proteicas. Este problema presenta numerosos desafíos significativos. Por ejemplo, el espacio de secuencias es astronómicamente amplio, la aptitud medida experimentalmente depende del contexto y las mediciones se agrupan principalmente en la proximidad de secuencias de tipo silvestre, y el panorama de aptitud de las secuencias proteicas puede ser irregular y estar influenciado por efectos epistáticos.
No menos desafiante
Estos problemas no son menos desafiantes para Sahakyan et al. ¿Cómo se evalúa la aptitud en un contexto de evolución temprana, pre-LUCA, con organismos rudimentarios y entornos desconocidos? ¿Cómo se evalúa la aptitud para secuencias aleatorias o casi aleatorias, o estructuras proteicas desordenadas? No obstante, Sahakyan et al. utilizan una puntuación de aptitud increíblemente simple para su simulación de la evolución de genes globulares codificantes de proteínas.
Su puntuación de aptitud incluye métricas de la calidad de la predicción de la estructura mediante IA y una métrica de número de contactos, que indica el grado de plegamiento de la estructura proteica. Esta métrica de número de contactos es una aproximación agregada de la similitud de la estructura con las proteínas globulares funcionales. En general, a medida que aumenta el número de contactos, la estructura se aproxima a una proteína realista, similar a la nativa. Es, en efecto, un indicador del progreso en la evolución de un gen codificante de proteínas.
Un componente clave
Por lo tanto, es un componente clave en la puntuación de aptitud, ya que guía el PFES hacia las estructuras proteicas nativas. Además de la métrica del número de contactos, la puntuación de aptitud también garantiza el realismo al limitar las longitudes de la estructura proteica general y de cualquier estructura secundaria de hélice alfa y cadena beta.
Por lo tanto, no sorprende que el PFES guíe secuencias aleatorias hacia secuencias que forman estructuras terciarias globulares similares a las nativas; eso es precisamente lo que indica la puntuación de aptitud.
Cabe destacar que la puntuación de aptitud se basa exclusivamente en métricas estructurales. Esta es una deficiencia importante del estudio: la puntuación de aptitud no modela realmente la aptitud. No existe evidencia científica, por ejemplo, de que una mutación que ocurre en una secuencia aleatoria que causa un poco más de contactos resulte en una mejor aptitud del organismo. Sin embargo, a dicha secuencia se le asignaría una puntuación de aptitud más alta en el PFES. Además, las métricas estructurales no se asignan a ninguna estructura en particular, sino que representan un gran número de estructuras posibles, con diferentes implicaciones de función y aptitud.
Otro problema de este estudio es el uso de herramientas de predicción de estructura de IA. Estas herramientas se basan en un conjunto de entrenamiento de estructuras proteicas conocidas y sus secuencias de aminoácidos. Estas combinaciones de estructura/secuencia son, en su mayoría, próximas a las proteínas nativas de tipo silvestre. Esto supone un sesgo de muestreo considerable y es probable que las predicciones de IA estén sesgadas hacia estructuras similares a las nativas. Esto facilitaría enormemente la simulación de la evolución de una proteína, incluso a partir de una secuencia genética inicialmente aleatoria.
¿Simulando un proceos evolutivo?
Esta combinación de (i) el uso de una puntuación de aptitud basada incorrectamente en la estructura proteica y (ii) el uso de predictores de la estructura proteica sujetos a un enorme sesgo de muestreo, significa que el PFES no simula un proceso evolutivo. Más bien, está orientando las estructuras iniciales hacia estructuras globulares plegadas, en el espacio de predicción de estructuras de IA.
Esto contrasta marcadamente con las afirmaciones del estudio. Sahakyan et al. afirman haber desarrollado una herramienta computacional para «recapitular la evolución de los pliegues proteicos en detalle». Además, afirman que, utilizando el PFES, han (i) «arrojado luz sobre el enigma de la rápida evolución de diversos pliegues proteicos en las primeras etapas de la evolución de la vida» y (ii) descubierto que en el mundo temprano, pre-LUCA, el «surgimiento de pliegues proteicos globulares simples y estables a partir de secuencias aleatorias de aminoácidos es relativamente fácil y podría ocurrir rápidamente». Estas afirmaciones carecen de fundamento. Si bien una lectura generosa siempre es deseable, sería engañoso caracterizar este estudio como algo menos que ciencia falsa. Los investigadores diseñaron una herramienta de simulación y luego afirmaron falsamente que representa el proceso evolutivo.
Notas
- H. Sahakyan, S. G. Babajanyan, Y. I. Wolf, E. V. Koonin, In silico evolution of globular protein folds from random sequences [Evolución in silico de pliegues de proteínas globulares a partir de secuencias aleatorias]. Proc. Natl. Acad. Sci. U.S.A. 122 e2509015122 (2025).
Artículo publicado originalmente en inglés por Cornelius G. Hunter Ph.D. en Evolution News & Science Today
Crédito de la imagen: Bennettscience, CC BY 2.0 https://creativecommons.org/licenses/by/2.0, vía Wikimedia Commons.