Desmitificando los errores en la predicción genética: una mirada más profunda a los primates


Un articulo de una revista titulado: "Comprender las causas de los errores en la predicción de genes codificadores de proteínas eucariotas: un estudio de caso de proteomas de primates" [1] aborda un desafío fundamental en genómica: la precisión de predecir genes codificadores de proteínas en eucariotas. Este proceso, conocido como predicción de genes, sustenta nuestra comprensión de cómo los genes se traducen en proteínas funcionales, la maquinaria esencial que lleva a cabo las funciones celulares. Los autores destacan las limitaciones de los métodos actuales de predicción de genes y profundizan en las causas específicas de los errores dentro de los genomas de los primates.

Los peligros de la predicción:

Estos errores pueden manifestarse de varias maneras, incluidas predicciones de genes totalmente faltantes , predicción de genes en ubicaciones incorrectas o introducción de errores en la secuencia de proteínas predicha. Los autores hacen referencia a investigaciones anteriores que sugieren una alta tasa de error en la predicción de genes codificadores de proteínas para eucariotas, con estimaciones que alcanzan hasta el 50% de las secuencias que contienen errores. Esto resalta la necesidad crítica de realizar esfuerzos continuos para mejorar la precisión de la predicción genética.

Primates bajo el microscopio:

La investigación de Meyer et al. Utiliza los genomas de diez especies de primates, incluidos chimpancés, gorilas y orangutanes, como estudio de caso. Al comparar estos proteomas de primates (el conjunto completo de proteínas) con el proteoma humano bien anotado, los autores intentaron identificar y categorizar los diferentes tipos de errores presentes.

Un panorama de errores:

El estudio reveló una tasa de error preocupante en la predicción de genes de proteomas de primates. Los autores estimaron que casi la mitad (hasta el 50%) de las secuencias de proteínas analizadas probablemente contenían al menos un error. Se descubrió que las eliminaciones internas, en las que falta un segmento de la secuencia codificante de proteínas en la predicción, son el tipo de error más común, seguidas de las inserciones y los segmentos no coincidentes.  

Revelando a los culpables:

El estudio identificó varios culpables clave detrás de estos errores:

  • Territorios genómicos inexplorados: las secuencias genómicas pueden contener regiones que son difíciles de ensamblar debido a elementos repetitivos ( ADN basura ) o limitaciones en la tecnología de secuenciación. Estas regiones a menudo albergan genes y la incapacidad de ensamblarlos con precisión conduce a errores en la predicción de genes. Imagínese intentar descifrar un rompecabezas complejo al que le faltan piezas: la imagen resultante será incompleta e inexacta.

  • Imperfecciones en el ensamblaje del genoma: los errores introducidos durante el proceso de secuenciación y ensamblaje del genoma también pueden contribuir a una predicción genética inexacta. Así como un solo error tipográfico en una receta puede alterar el plato final, incluso errores menores en el ensamblaje del genoma pueden tener importantes consecuencias posteriores para la predicción genética.

  • Limitaciones algorítmicas: los algoritmos actuales de predicción de genes se basan en modelos específicos para identificar estructuras genéticas (límites exón-intrón). Es posible que estos modelos no capturen perfectamente las complejidades de todos los genomas eucariotas, particularmente para las especies menos estudiadas. Imagínese intentar utilizar una llave diseñada para una cerradura en una cerradura completamente diferente: simplemente no funcionará.


La importancia de la información más allá del exón para predecir genes codificadores de proteínas

Si bien nuestro enfoque a menudo recae en los exones, los segmentos de ADN que se traducen directamente en proteínas, esta investigación demuestra que la información más allá de los exones es crucial para una predicción precisa.

Los genes eucariotas, incluidos los de los primates, tienen una estructura compleja. Están interrumpidos por regiones no codificantes llamadas intrones , que se separan durante la producción de proteínas. Para predecir con precisión las estructuras genéticas es necesario identificar no sólo los exones sino también los límites intrón-exón. Aquí es donde residen las limitaciones. Los modelos utilizados para la predicción de genes a menudo tienen dificultades para representar las complejidades de estas estructuras exón-intrón. Además, algunas regiones del genoma permanecen sin caracterizar: ADN no codificante. Estas regiones indeterminadas pueden confundir aún más los modelos, provocando errores al predecir dónde comienzan y terminan los exones.

El estudio enfatiza que centrarse únicamente en los exones es insuficiente para una predicción precisa de los genes codificadores de proteínas. Destaca la necesidad de mejores modelos que incorporen información del ADN no codificante, particularmente alrededor de los límites exón-intrón. 

Al reconocer la importancia del ADN no codificante, los investigadores pueden perfeccionar los algoritmos de predicción de genes y lograr una comprensión más completa de nuestros genomas. En última instancia, esto conducirá a predicciones más precisas de las secuencias de proteínas, lo cual es esencial para diversos estudios biológicos, incluido el descubrimiento de fármacos y la comprensión de enfermedades.

Los errores en la predicción genética arrojan dudas sobre los estudios de fenotipo de exón 

El estudio destaca importantes imprecisiones en la predicción de genes que codifican proteínas, particularmente en eucariotas con estructuras genéticas complejas. Esto tiene implicaciones importantes para investigaciones anteriores basadas en fenotipos de exones , que se basaban en la identificación precisa de exones (regiones codificantes de proteínas) dentro de los genes.

El estudio encontró que los errores de predicción genética afectaban hasta al 50% de los proteomas de los primates. Estos errores pueden afectar significativamente a estudios anteriores que investigaron la relación entre secuencias de exones específicas y rasgos fenotípicos (características observables). En tales estudios, a los exones predichos incorrectamente se les pueden asignar funciones que no poseen , lo que lleva a conclusiones engañosas.

Por lo tanto, los hallazgos de este estudio requieren una reevaluación crítica de estudios anteriores de fenotipo de exón . Los investigadores deben evaluar cómo los errores de predicción genética podrían haber influido en sus resultados. 

Al reconocer y abordar estos errores de predicción de genes, los investigadores pueden garantizar una base más sólida para futuros estudios sobre las funciones de los exones y su impacto en los fenotipos.

Los errores en la predicción de genes nublan los árboles neodarwinianos 

El artículo "Comprender las causas de los errores" destaca un desafío importante para los estudios que se basan en secuencias genéticas para construir árboles evolutivos, particularmente en el marco del neodarwinismo.

Los árboles neodarwinianos, basados ​​en la idea de descendencia con modificación, utilizan similitudes y diferencias en genes para reconstruir las relaciones evolutivas entre especies. Sin embargo, el estudio encuentra que la predicción de genes que codifican proteínas en eucariotas (organismos con estructuras celulares complejas), específicamente primates, es propensa a errores. Estos errores pueden alterar significativamente la secuencia de proteínas predicha, lo que podría conducir a relaciones evolutivas engañosas en los árboles construidos. Por ejemplo, la falta de un exón (región codificante) debido a un error de predicción podría sugerir una distancia evolutiva entre especies mayor que la realidad.

El estudio destaca que casi la mitad de las secuencias de proteínas de primates analizadas podrían verse afectadas. Esto arroja dudas sobre la precisión de los árboles construidos únicamente sobre la base de predicciones genéticas, especialmente para especies estrechamente relacionadas donde errores menores pueden tener efectos amplificados.

Reconocer y abordar estos desafíos exige una revisión, si no un reemplazo, de los árboles neodarwinianos para reflejar con mayor precisión la historia evolutiva de las especies.

Referencia:

Meyer, C., Scalzitti, N., Jeannin-Girardon, A. et al. Understanding the causes of errors in eukaryotic protein-coding gene prediction: a case study of primate proteomes. BMC Bioinformatics 21, 513 (2020). https://doi.org/10.1186/s12859-020-03855-1

Comentarios

Entradas populares de este blog

News and Science: Dinosaurios en la literatura, la historia y el arte

News and Science: Creacionismo y dinosaurios.

News and Science: 101 evidencias de una tierra joven