Montaje de secuencias
En bioinformática, el montaje o ensamblaje de secuencias se refiere al alineamiento y mezcla de múltiples fragmentos de una secuencia de ADN mucho mayor para reconstruir la secuencia original. Normalmente los fragmentos cortos provienen de secuenciación "por perdigonada" (shotgun) de ADN genómico, o de transcripción genética (ESTs, o marcadores de secuencia expresada).
La primera generación de montadores de secuencias empezaron a aparecer en los últimos 80 y primeros 90 del siglo XX, para reconstruir las grandes cantidades de fragmentos generadas por instrumentos de secuenciación automática. Estos ensambladores de primera generación utilizaban varias estrategias para manejar las secuencias repetitivas y los errores de secuenciación, que podían confundir el ensamblado. Sin embargo, no podían manejar genomas mucho más largos que los de una bacteria (varios millones de bases de ADN), y fueron siendo reemplazados conforme el campo se movía hacia genomas mayores. Los que se relacionan a continuación fueron montadores de primera generación ampliamente usados en los 90 en universidades, instituciones gubernamentales y en la industria:
- Phrap, por Phil Green, de la University de Washington.
- TIGR Assembler, por Granger Sutton, The Institute for Genomic Research.
- CAP3, por Xiaoqiu Huang, del Michigan Technological University.
Ensambladores modernos, como DNA Baser,[1] han traído importantes mejoras sobre los de primera generación reduciendo el tiempo necesario para crear un contig desde decenas de minutos a segundos, usando algoritmos de ensamblado inteligente, ensamblado por lotes, y detección automática de calidad y zonas terminales de corte.
Montadores para genomas largos
[editar]Enfrentados al desafío de ensamblar el mucho más largo genoma de la mosca de la fruta Drosophila melanogaster en el año 2000, así como el genoma humano solo un año después, los científicos desarrollaron montadores como el Celera Assembler (el primero desarrollado por una compañía privada) y Arachne, capaces de manejar genomas de 100-300 millones de pares de bases. Con posterioridad a estos esfuerzos, otros grupos, principalmente de los mayores centros de secuenciación, construyeron ensambladores a gran escala, y un esfuerzo de código abierto conocido como AMOS se lanzó para aglutinar todas las innovaciones en la tecnología de ensamblado de genomas bajo el marco de código abierto.
En ensamblado de ESTs difiere del ensamblado de genomas en varias características. Por ejemplo, los genomas tienen, a menudo, grandes cantidades de secuencias repetitivas, principalmente en las partes intergénicas. Puesto que las ESTs representan transcripciones génicas, no contienen estas repeticiones. Por otra parte, los genes se solapan a veces en el genoma (transcripción sentido-antisentido), y podrían ser todavía ensamblados idealmente de forma separada. El montaje de ESTs también es complicado por características tales como (cis-)splicing alternativo, trans-splicing, polimorfismos de nucleótido simple, recodificación, y modificaciones post-transcripcionales. Estas diferencias hacen a las nuevas generaciones de ensambladores menos aplicables al ensamblaje de ESTs.
Algoritmo voraz para el montado de secuencias
[editar]Dado un conjunto de fragmentos de secuencia, el objetivo es encontrar la supersecuencia común (o secuencia origen de los fragmentos) más corta:
- Calcular alineamientos por pares de todos los fragmentos.
- Elegir los dos fragmentos con el mayor solapamiento.
- Mezclar los fragmentos elegidos.
- Repetir los pasos 2. y 3. hasta que solo quede un fragmento.
El resultado es una solución subóptima al problema.