La
arquitectura genética para generar vida sigue un método de lectura
de datos en series ordenadas de genes, almacenados en cromosomas. La
secuencialidad y el orden de los genes ofrece un código genético
que permite la deducción de información a cerca de la
cantidad, el orden y las diversas clases de células para distintas
funciones en los organísmos. El conjunto de varios tipos de genes
de una especie se denomina genoma. Los genes funcionales, o genes
estructurales, son los que codifican las proteínas. Los pseudogenes
son genes que han sufrido procesos de mutación u otros fenómenos de
reorganización y han dejado de ser funcionales, pero persisten en
los genomas de los organismos. Los genes reguladores son aquellos
genes encargados de controlar la velocidad de síntesis de los
productos de uno o de varios genes o rutas biosintéticas. Los genes
selectores controlan el desarrollo de los compartimentos (unidades
definidas por la acción de genes maestros que ejecutan decisiones
que conducen a varios clones de células hacia una línea de
desarrollo).
La expresión de código genético es un proceso universal característico de todos los seres vivos, pero hay que distinguir entre organismos procariotas y eucariotas. El genoma bacteriano, o procariota, es muy pequeño y debe reducir la información al mínimo posible, en casi todos los casos cada cromosoma contiene una sola copia de cualquier gen particular, y, con excepción de las secuencias reguladoras y señaladoras, prácticamente se expresa todo el ADN. El genoma de organísmos superiores, o eucariotas, es es tan amplio que solo pequeños procentajes de regiones son codificantes (exones), siendo rodeados por grandes regiones no codificantes (intrones). Un concepto clave en la genómica funcional es la expresión del genoma para producir el ARN mensajero (mARN) y las consiguientes proteínas. La metodología para obtener las instrucciones genéticas se pueden generalizar en dos pasos: transcripción y traducción. La transcripción que consiste en la síntesis de ARN (Ácido RiboNucleico) a partir del ADN; mientras que la traducción es el paso de la información transportada por el ARN mensajero a proteína.
La anotación genómica incluyen caracterizaciones a nivel estructural, donde se hace la búsqueda de genes y sitios de interés biológico, y a nivel funcional, en el que se intenta asociar una función biológica a los objetos encontrados. La principal tarea en la anotación del genoma es la predicción de los genes, donde se detectan regiones codificantes que permiten deducir su estructura, las proteínas producidas y las señales que dan las indicaciones y guían la traducción. Así pues, la predicción de un gen supone un largo proceso mediante el cual se ha de conocer; su longitud y estructura, su organización, el producto o molécula generado a partir del gen, la función que desempeña el producto resultante y las consecuencias que se derivan de la modificación estructural de ese gen por cambios en su contenido [15, 24, 25]. Sin embargo, a pesar de la existencia de grandes cantidades de nucleótidos en el ADN y de los avances en la anotación de dichas secuencias, aún se desconocen muchos de los procesos de transcripción, con relación al análisis de la regulación transcripcional como de genes.
La expresión de código genético es un proceso universal característico de todos los seres vivos, pero hay que distinguir entre organismos procariotas y eucariotas. El genoma bacteriano, o procariota, es muy pequeño y debe reducir la información al mínimo posible, en casi todos los casos cada cromosoma contiene una sola copia de cualquier gen particular, y, con excepción de las secuencias reguladoras y señaladoras, prácticamente se expresa todo el ADN. El genoma de organísmos superiores, o eucariotas, es es tan amplio que solo pequeños procentajes de regiones son codificantes (exones), siendo rodeados por grandes regiones no codificantes (intrones). Un concepto clave en la genómica funcional es la expresión del genoma para producir el ARN mensajero (mARN) y las consiguientes proteínas. La metodología para obtener las instrucciones genéticas se pueden generalizar en dos pasos: transcripción y traducción. La transcripción que consiste en la síntesis de ARN (Ácido RiboNucleico) a partir del ADN; mientras que la traducción es el paso de la información transportada por el ARN mensajero a proteína.
La anotación genómica incluyen caracterizaciones a nivel estructural, donde se hace la búsqueda de genes y sitios de interés biológico, y a nivel funcional, en el que se intenta asociar una función biológica a los objetos encontrados. La principal tarea en la anotación del genoma es la predicción de los genes, donde se detectan regiones codificantes que permiten deducir su estructura, las proteínas producidas y las señales que dan las indicaciones y guían la traducción. Así pues, la predicción de un gen supone un largo proceso mediante el cual se ha de conocer; su longitud y estructura, su organización, el producto o molécula generado a partir del gen, la función que desempeña el producto resultante y las consecuencias que se derivan de la modificación estructural de ese gen por cambios en su contenido [15, 24, 25]. Sin embargo, a pesar de la existencia de grandes cantidades de nucleótidos en el ADN y de los avances en la anotación de dichas secuencias, aún se desconocen muchos de los procesos de transcripción, con relación al análisis de la regulación transcripcional como de genes.
Los genomas contienen grandes cantidades de datos que sólo se pueden analizar eficaz y eficientemente a la luz de aproximaciones computacionales. Los métodos computacionales, que ya han mostrado su utilidad en áreas como la búsqueda de genes o la predicción de la función y la estructura de las proteínas, van a ser decisivos e imprescindibles para afrontar los nuevos retos de la Biología Molecular [22]. La predicción de genes se puede realizar principalmente a través de tres métodos: los métodos ab initio que tratan de identificar dentro de la secuencia las distintas partes del gen; los métodos por homologías que intentan de encontrar secuencias parecidas del gen en distintas bases de datos; y los métodos integrados que combinan predicciones, ya sea las obtenidas con los métodos ab initio y de homologías (métodos híbridos) o las que combinan resultados de diferentes programas de predicción. Varios programas ab initio se han desarrollado desde los inicios de la predicción de genes, algunos de ellos son Genezilla [18], Genscan [4], Grail [32], Glimmer [7, 26], GlimmerM [28], HMMGenie [14], GeneID [8], Morgan [27] y UnVeil [17]. Entre las herramientas básicas para detectar homologías están las de alineamiento de secuencias, desde los algoritmos de Smith-Waterman [29] hasta los enfoques heurísticos como FASTA [21], BLAST [2], Procruster [gelfrand1996] y la identificación de ESTs[10].
Los predictores automáticos de genes generalmente ofrecen predicciones correctas de nucleótidos que pertenecen a una región codificante hasta de un 90%, pero tan sólo un rango de predicciones correctas de exones entre 70-75%. En predicciones de estructuras completas de genes, menos del 50% de los genes predichos corresponden a los reales. Muchos estudios comparativos llevan a la conclusión que algunos predictores son recomendables para predecir exones aislados; pero no para analizar secuencias completamente ensambladas, y viceversa. En general, todos estos estudios concuerdan en la necesidad de enriquecer la predicción con el apoyo de programas de predicción basados en homología o incluso combinar los resultados obtenidos de los programas y algoritmos de predicción de genes para lograr obtener una predicción más acertada que la que puedan obtener los programas predictores de forma individual [1, 20, 23]. Con la mezcla de diferentes modelos se pretende dar una predicción estructuralmente más completa. Varias técnicas se han usado en el problema de predicción de genes, la mayoría son técnicas de aprendizaje de máquina que tratan de identificar patrones correspondientes a los diferentes componentes del gen. Estas técnicas van desde el reconocimiento de patrones con matrices de pesos [35], secuencias consenso [9] y descomposición de dependencia máxima [5]; hasta técnicas más complejas como los modelos ocultos de Markov [3, 12, 13, 30], las redes neuronales [32, 33], árboles de decisión [27] y transformadas de Fourier discreta [11], entre otras. Una revisión más extensa de estas técnicas se encuentra en los trabajos de Mathé [19], Claviere [6], Stormo [31] y Zhang[34].
Referencias
[1] A LLEN , J., P ERTEA , M., AND S ALZBERG , S. Computational gene prediction using multiple sources of evidence. Genome Res. 14 (2004), 142–148.
[2] A LTSCHUL , S., G ISH , W., M ILLER , W., M YERS , E., AND L IPMAN , D. Basic local alignment search tool. J. Mol. Biol. 215 (1990), 403–410.
[3] BALDI P, C HAUVIN Y, H. T. M. M. Hidden markov models of biological primary sequence information. Proc. Natl. Acad. Sci. USA 91 (1994), 1059-1063.
[4] B URGE , C., AND K ARLIN , S. Prediction of complete gene structures inhuman genomic dna. J. Mol. Biol. 268 (1997), 78–94.
[5] B URGE , C. & K ARLIN , S. Prediction of complete gene structures in human genomic dna. J. Mol. Biol. 268 (1997), 78–94.
[6] C LAVERIE , J. Computational methods for the identification of genes in vertebrate genomic sequences. Human Mol. Genet. 6 (1997), 1735–1744.
[7] D ELCHER , A.L. D. H ARMON , D. K. S. W. O. . S. S. Improved microbial gene identification with glimmer. Nucleic Acids Research 27 (1999), 4636–4641.
[8] G UIGO R, K NUDSEN S, D. N. S. T. Prediction of gene structure. J. Mol. Biol. (1992), 141–157.
[9] I.B., R., AND M ILANESI , L. Analysis of donor splice signals in different organisms. J. Mol. Evol. 45 (1997), 50–59. [10] K AN , Z., R. E. G. W., AND S TATES , D. Gene structure prediction and alternative splicing analysis using genomically aligned ests. Genome Res. 11 (2001), 889–900.
[11] KOTLAR , D., AND L AVNER , Y. Gene prediction by spectral rotation measure: a new method for identifying protein-coding regions. Genome research 13, 8 (Aug. 2003), 1930–7.
[12] K ROGH A, B ROWN M, M. I. S. K. H. D. Hidden markov models in computational biology: applications to protein modeling. J. Mol. Biol. 235 (1994), 1501–1531.
[13] K ROGH A, L ARSSON B, V. H. G. S. E. Predicting transmembrane protein topology with a hidden markov model: application to complete genomes. J. Mol. Biol. 305 (2001), 567–580.
[14] K ULP, D., H AUSSLER , D., R EESE , M., AND E ECKMAN , F. A generalized hidden markov model for the recognition of human genes in dna. In Proceedings of the Fourth International Conference on Intelligent Systems for Molecular Biology (1996), AAAI Press, pp. 134–142.
[15] L., S. Genome annotation: from sequence to biology. Nature Rev Genetic 2 (2001), 493–503.
[16] M S G ELFAND , A. A. M., AND P EVZNER , P. A. Gene recognition via spliced sequence alignment. Proc Natl Acad Sci 93(17) (1996), 9061–9066.
[17] M AJOROS , W. Unveil: An hmm-based genefinder for eukaryotic dna. Tech. rep., The Institute for Genomic Research, 1999.
[18] M AJOROS , W., P ERTEA , M., AND S ALZBERG , S. Tigrscan and glimmerhmm: two open-source ab initio eukaryotic gene finders. Bioinformatics 20 (2004), 2878–2879.
[19] M ATH E , C., S AGOT, M., S CHIEX , T., AND ROUZ E , P. Current methods of gene prediction, their strengths and weaknesses. Nucleic Acids Research. 30 (2002), 4103–4117.
[20] PAVLOVIC , V., G ARG , A., AND K ASIF, S. A bayesian framework for combining gene predictions. Bioinformatics 18 (2002), 19–27.
[21] P EARSON , W., AND L IPMAN , D. Improved tools for biological sequence comparison. Proc. Natl Acad. Sci. 85 (1988), 2444–2448.
[22] R., F. From sequence to biology: the impact on bioinformatics. Bioinformatics 18 (2002), 505–506.
[23] ROGIC , S., O UELLETTE , B., AND M ACKWORTH , A. Improving gene recognition accuracy by combining predictions from two gene-finding programs. Bioinformatics 18 (2002), 1034–1045.
[24] ROUZE P, PAVY N, R. S. Genome annotation: which tools do we have for it? Current Opin Plant Biological 2 (1999), 90–95.
[25] RUST AG, M ONGIN E, B. E. Genome annotation techniques: new approaches and challenges. Drug Discov Today 7 (2002), S70–76.
[26] S ALZBERG , S., D. A. K. S. . W. O. Microbial gene identification using interpolated markov models. Nucleic Acids Res. 26 (1998), 544–548.
[27] S ALZBERG , S., D ELCHER , A., FASMAN , K., AND H ENDERSON , J. A decision tree system for finding genes in dna. Journal of Computational Biology 5 (1998), 667–680.
[28] S ALZBERG , S., P ERTEA , M., D ELCHER , A., G ARDNER , M., AND TETTELIN , H. Interpolated markov models for eukaryotic gene finding. Genomic 59 (1999), 24—31.
[29] S MITH , T. F., AND WATERMAN , M. S. Identification of common molecular subsequences. Journal of Molecular Biology 147 (1981), 195–197.
[30] SR., E. Hidden markov models. Curr. Opin. Struct. Biol. 6 (1996), 361–365.
[31] S TORMO , G. Gene-finding approaches for eukaryotes. Genome Res. 10 (2000), 394–397.
[32] U BERACHER , E., AND M URAL , R. Locating protein-coding regions in human dna sequences by a multiple sensor-neural network approach. Proc. Natl Acad. Sci. 88 (1991), 11261–11265.
[33] Y ING X U , M URAL RJ, E. J. S. M. U. E. Grail: a multi-agent neural network system for gene identification. IEEE 84 (1996), 10.
[34] Z HANG , M. 2002. Computational Prediction of Eukaryotic Protein-Coding Genes. Nature GeneticsComputational Prediction of Eukaryotic Protein Coding Genes. Nature Genetics 3 (2002), 698–709.
[35] Z HANG , M., AND M ARR , T. A weight array method for splicing signal analysis. Comput. Appl. Biosci. (1993), 499–509.
No hay comentarios:
Publicar un comentario
Muchas gracias por su comentario, será revisado y pronto se publicará.