Penalización por espacio
La penalización por espacio es un método para puntuar alineamientos de dos o más secuencias. Al realizar un alineamiento entre secuencias, la introducción de espacios en las secuencias puede permitir a los algoritmos encontrar coincidencias con más términos que en un alineamiento sin espacios. Sin embargo, minimizar la cantidad de espacios en un alineamiento es importante para que el alineamiento sea útil. Demasiados espacios pueden provocar que un alineamiento pierda sentido. Las penalizaciones por espacios se utilizan para ajustar los puntajes de alineamiento en función de la cantidad y la longitud de los espacios. Los cinco tipos principales de penalizaciones por espacio son: constantes, lineales, afines, convexas y basadas en perfiles.[1]
Aplicaciones
[editar]- Alineamiento de secuencias genéticas: en bioinformática, los espacios se utilizan para dar cuenta de las mutaciones genéticas que ocurren a partir de inserciones o deleciones en la secuencia, comúnmente denominadas indels. Las inserciones o deleciones pueden ocurrir debido a mutaciones individuales, cruce desequilibrado en la meiosis, apareamiento erróneo de hebras deslizadas y translocación cromosómica.[2] La noción de un espacio en un alineamiento es importante en muchas aplicaciones biológicas, ya que las inserciones o deleciones afectan una sub-secuencia entera y a menudo ocurren a partir de un único evento mutacional.[3] Además, los eventos mutacionales individuales pueden crear espacios de diferentes tamaños. Por lo tanto, al puntuar alineamientos, los espacios deben puntuar como un bloque cuando se alinea dos secuencias de ADN. Considerar múltiples espacios consecutivos en una secuencia como un sólo bloque más grande reducirá la asignación de un alto costo a las mutaciones. [PENDING FROM HERE] Por ejemplo, dos secuencias de proteínas pueden ser relativamente similares pero diferir en ciertos intervalos ya que una proteína puede tener una subunidad diferente a la otra. Representar estas subsecuencias diferentes como espacios nos permitirá tratar estos casos como “buenas coincidencias” aun cuando haya largas ejecuciones consecutivas con operaciones de indel en la secuencia. Por lo tanto, el uso de un buen modelo de penalización por brecha evitará puntuaciones bajas en las alineaciones y mejorará las posibilidades de encontrar una alineación verdadera. [3] En las alineaciones de secuencias genéticas, los espacios se representan como guiones (-) en una alineación de secuencia de proteína/ADN. [4]
- Función diff de Unix : calcula la diferencia mínima entre dos archivos de forma similar a la detección de plagio.
- Corrección ortográfica : las penalizaciones por espacios en blanco pueden ayudar a encontrar palabras escritas correctamente con la distancia de edición más corta hasta una palabra mal escrita. Los espacios pueden indicar una letra faltante en la palabra escrita incorrectamente.
- Detección de plagio : las penalizaciones por espacios permiten que los algoritmos detecten dónde se han plagiado secciones de un documento colocando espacios en las secciones originales y haciendo coincidir lo que es idéntico. La penalización por brecha para un determinado documento cuantifica cuánto de un documento dado es probablemente original o plagiado.
Referencias
[editar]- ↑ «Glossary». Rosalind. Rosalind Team. Consultado el 20 de mayo de 2021.
- ↑ Carroll, Ridge, Clement, Snell, Hyrum, Perry, Mark, Quinn (January 1, 2007). «Effects of Gap Open and Gap Extension Penalties». International Journal of Bioinformatics Research and Applications. Consultado el 9 de septiembre de 2014.
- ↑ a b «Gap Penalty». Algorithms for Molecular Biology. 1 de enero de 2006. Consultado el 13 de septiembre de 2014.
- ↑ «Glossary». Rosalind. Rosalind Team. Consultado el 20 de mayo de 2021."Glossary". Rosalind. Rosalind Team. Retrieved 2021-05-20.