Contenido Checked

Secuencia de la alineación

Temas relacionados: Biología

Sabías ...

SOS Children ha intentado que el contenido de Wikipedia más accesible por esta selección escuelas. patrocinio SOS Niño es cool!

En bioinformática , una alineación de secuencia es una forma de organización de la secuencias primarias de ADN , ARN o proteína para identificar regiones de similitud que puede ser una consecuencia de funcional, estructurales, o evolutivos relaciones entre las secuencias. Alineado secuencias de de nucleótidos o de aminoácidos son típicamente de residuos representados como filas dentro de una matriz . Las lagunas se insertan entre los residuos de manera que los residuos con caracteres idénticos o similares están alineados en columnas sucesivas.

Una alineación de secuencias, producido por ClustalW entre dos humana proteínas con dedos de zinc identificado por Número de GenBank. ( Clave )

Si dos secuencias en una alineación comparten un ancestro común, los desajustes pueden ser interpretados como mutaciones puntuales y lagunas como indeles (es decir, las mutaciones de inserción o deleción) introducidas en uno o ambos linajes en el tiempo transcurrido desde que se separaron el uno del otro. En la alineación de secuencias de proteínas, el grado de similitud entre los aminoácidos que ocupan una posición particular en la secuencia puede ser interpretado como una medida aproximada de cómo conservado una región particular o motivo de secuencia se encuentra entre linajes. La ausencia de sustituciones, o la presencia de sólo sustituciones muy conservadoras (es decir, la sustitución de aminoácidos cuyos cadenas laterales tienen propiedades bioquímicas similares) en una región particular de la secuencia, sugieren que esta región tiene importancia estructural o funcional. Aunque el ADN y el ARN bases de nucleótidos son más similares entre sí que a los aminoácidos, la conservación de emparejamiento de bases puede indicar un papel funcional o estructural similar. Secuencia de la alineación puede ser utilizado para las secuencias no biológicos, tales como los presentes en lenguaje natural o en los datos financieros.

Muy corto o muy similares secuencias pueden ser alineados con la mano; Sin embargo, los problemas más interesantes requieren la alineación de secuencias largas, muy variables o extremadamente numerosas que no pueden ser alineados exclusivamente por el esfuerzo humano. En lugar de ello, el conocimiento humano se aplica principalmente en la construcción de algoritmos para producir la secuencia de alta calidad alineaciones, y ocasionalmente en el ajuste de los resultados finales para reflejar los patrones que son difíciles de representar algorítmicamente (especialmente en el caso de secuencias de nucleótidos). Enfoques computacionales para la alineación de secuencias generalmente se dividen en dos categorías: los alineamientos globales y alineamientos locales. Cálculo de un alineamiento global es una forma de optimización global que "fuerzas" la alineación para abarcan toda la longitud de todas las secuencias de la consulta. Por el contrario, los alineamientos locales a identificar regiones de similitud en secuencias largas que a menudo son muy divergentes en general. Alineaciones locales son a menudo preferible, pero puede ser más difícil de calcular debido al reto adicional de la identificación de las regiones de similitud. Una variedad de algoritmos computacionales se han aplicado al problema de alineación de secuencias, incluyendo lento pero formalmente la optimización de métodos como programación dinámica y eficiente heurísticos o probabilísticos métodos diseñados para la búsqueda de bases de datos a gran escala.

Representaciones

Alineaciones son comúnmente representados gráficamente y en formato de texto. En casi todas las representaciones de alineamiento de secuencias, las secuencias se escriben en filas dispuestas de manera que los residuos alineados aparecen en columnas sucesivas. En los formatos de texto, columnas alineadas que contienen caracteres idénticos o similares se indican con un sistema de símbolos de conservación. Al igual que en la imagen de arriba, un símbolo de asterisco o tubo se utiliza para mostrar la identidad entre dos columnas; otros símbolos menos comunes incluyen dos puntos de sustituciones conservadoras y un período de sustituciones semiconservativo. Muchos programas de visualización de secuencia también utilizan el color para mostrar información sobre las propiedades de los elementos de secuencias individuales; en secuencias de ADN y ARN, esto equivale a la asignación de cada nucleótido su propio color. En alineaciones de proteínas, tales como el de la imagen de arriba, el color se utiliza a menudo para indicar propiedades de aminoácidos para ayudar a juzgar la conservación de una sustitución de aminoácidos dada. Para múltiples secuencias de la última fila de cada columna es a menudo el secuencia de consenso determinado por la alineación; la secuencia de consenso también se representa a menudo en formato gráfico con una secuencia logo en el que el tamaño de cada carta nucleótidos o de aminoácidos corresponde a su grado de conservación.

Secuencia de alineaciones se pueden almacenar en una amplia variedad de formatos de archivo de texto, muchos de los cuales fueron desarrollados originalmente en conjunto con un programa de alineamiento específico o aplicación. La mayoría de las herramientas basadas en la web permiten una serie de formatos de entrada y de salida, tales como Formato FASTA y Formato GenBank; Sin embargo, el uso de herramientas específicas escritos por distintos laboratorios de investigación puede ser complicado por compatibilidad de formatos de archivo limitado. Un programa de conversión general es disponible en ADN Baser o Readseq (por Readseq debes subir tus archivos en un servidor extranjero y proporcionar su dirección de correo electrónico).

Alineamientos globales y locales

Ilustración de alineamientos globales y locales que demuestren la calidad 'gappy' de alineamientos globales que pueden ocurrir si las secuencias son suficientemente similares

Alineamientos globales, que intentan alinear cada residuo en cada secuencia, son más útiles cuando las secuencias en el conjunto de consultas son similares y de aproximadamente el mismo tamaño. (Esto no significa alineamientos globales no pueden terminar en las lagunas.) Una técnica de alineamiento global en general se denomina Algoritmo de Needleman-Wunsch y se basa en la programación dinámica. Alineamientos locales son más útiles para las secuencias disímiles que se sospecha que tienen regiones de similitud o motivos de secuencias similares dentro de su contexto secuencia más grande. La Algoritmo de Smith-Waterman es un método de alineación local general también basado en programación dinámica. Con secuencias suficientemente similares, no hay ninguna diferencia entre los alineamientos locales y globales.

Métodos híbridos, conocidos como semiglobal o métodos "glocales", intento de encontrar la mejor alineación posible que incluya el inicio y el final de una u otra secuencia. Esto puede ser especialmente útil cuando la parte de aguas abajo de una secuencia se solapa con la parte aguas arriba de la otra secuencia. En este caso, ni alineamiento global ni local es totalmente apropiado: un alineamiento global intentaría forzar la alineación de extender más allá de la región de superposición, mientras que un alineamiento local podría no cubrir la totalidad de la región de solapamiento.

Alineamiento por pares

Métodos de alineación de secuencias por pares se utilizan para encontrar la mejor trozos de emparejar (local) o alineamientos globales de dos secuencias de consulta. Alineaciones por parejas sólo pueden utilizarse entre dos secuencias a la vez, sino que son eficientes para calcular y se utilizan a menudo para los métodos que no requieren una precisión extrema (tales como la búsqueda de una base de datos para secuencias con alta homología a una consulta). Los tres métodos principales de la producción de alineamientos de pares son métodos matriciales, programación dinámica, y los métodos de la palabra; Sin embargo, varias técnicas de alineamiento de secuencias también pueden alinear pares de secuencias. Aunque cada método tiene sus fortalezas y debilidades individuales, los tres métodos parejas tienen dificultades con secuencias altamente repetitivas de baja de contenido de información - especialmente cuando el número de repeticiones difieren en las dos secuencias se alineen. Una forma de cuantificar la utilidad de un alineamiento por pares dado es la "coincidencia única máxima ', o más larga que la subsecuencia que se produce tanto en secuencia de consulta. Ya secuencias MUM reflejan típicamente más cerca la relación.

Métodos de matriz de puntos

Un gráfico de puntos de ADN de un humano dedo de zinc factor de transcripción (GenBank ID NM_002383), mostrando regional auto-similitud. La diagonal principal representa la alineación de la secuencia con sí mismo; líneas de fuera de la diagonal principal representan patrones similares o repetitivas dentro de la secuencia. Este es un ejemplo típico de una parcela recurrencia.

El enfoque de matriz de puntos, que produce implícitamente una familia de alineaciones de secuencia de las regiones individuales, es cualitativa y simple, aunque requiere mucho tiempo para analizar a gran escala. Es muy fácil de identificar visualmente cierta secuencia características tales como inserciones, supresiones, repeticiones, o repeticiones invertidas de una parcela de matriz de puntos. Para construir una gráfica de matriz de puntos, las dos secuencias están escritos a lo largo de la fila superior y la columna más a la izquierda de una de dos dimensiones de la matriz y un punto se coloca en cualquier punto en el que los personajes de las columnas correspondientes coinciden-este es un típico parcela recurrencia. Algunas implementaciones variar el tamaño o la intensidad del punto dependiendo del grado de similitud de los dos personajes, para acomodar sustituciones conservadoras. Los diagramas de puntos de secuencias muy estrechamente relacionados aparecerán como una sola línea a lo largo de la matriz de diagonal principal.

Las gráficas de puntos también se pueden utilizar para evaluar la repetitividad en una sola secuencia. Una secuencia puede registrarse en sí misma y regiones que comparten similitudes significativas aparecerá como líneas de fuera de la diagonal principal. Este efecto puede ocurrir cuando una proteína se compone de múltiples similares dominios estructurales.

La programación dinámica

La técnica de programación dinámica se puede aplicar para producir alineaciones globales a través de la Algoritmo de Needleman-Wunsch, y alineaciones locales a través de la Algoritmo de Smith-Waterman. En uso normal, la proteína alineaciones utilizan un sustitución de la matriz para asignar puntuaciones a partidos de aminoácidos o desajustes, y un penalización por hueco para hacer coincidir un aminoácido en una secuencia a una brecha en la otra. ADN y ARN alineaciones pueden utilizar una matriz de puntuación, pero en la práctica a menudo simplemente asignar una puntuación positiva partido, una puntuación desajuste negativo, y una penalización por hueco negativo. (En la programación dinámica estándar, la puntuación de cada posición de aminoácido es independiente de la identidad de sus vecinos, y por lo tanto los efectos de base de apilamiento no se tienen en cuenta. Sin embargo, es posible tener en cuenta estos efectos por la modificación del algoritmo.)

La programación dinámica puede ser útil en la alineación de nucleótidos de las secuencias de proteínas, una tarea complicada por la necesidad de tener en cuenta mutaciones de cambio (generalmente inserciones o deleciones). El método framesearch produce una serie de alineamientos por pares, globales o locales entre una secuencia de nucleótidos de consulta y un conjunto de búsqueda de secuencias de proteínas, o viceversa. Aunque el método es muy lento, su capacidad para evaluar compensado por un número arbitrario de nucleótidos del marco de lectura hace que el método útil para secuencias que contienen un gran número de indeles, que puede ser muy difícil alinear con métodos heurísticos más eficientes. En la práctica, el método requiere grandes cantidades de potencia de cálculo o un sistema cuya arquitectura está especializada para la programación dinámica. La BLAST y Suites EMBOSS proporcionan herramientas básicas para crear alineaciones traducidas (aunque algunos de estos enfoques se aprovechan de los efectos secundarios de la secuencia de capacidades de búsqueda de las herramientas). Métodos más generales están disponibles de fuentes comerciales, tales como FrameSearch, distribuido como parte de la Paquete Accelrys GCG, y Open Source software como Genewise.

El método de programación dinámica está garantizado para encontrar una alineación óptima dada una función de puntuación en particular; Sin embargo, la identificación de una buena función de puntuación es a menudo una empírica en lugar de una cuestión teórica. Aunque la programación dinámica es extensible a más de dos secuencias, es prohibitivamente lento para un gran número de secuencias o extremadamente largos.

Métodos de Word

Métodos de Word, también conocidos como métodos k tupla, son métodos heurísticos que no están garantizados para encontrar una solución óptima adaptación, pero son significativamente más eficientes que la programación dinámica. Estos métodos son especialmente útiles en las búsquedas de bases de datos a gran escala en los que se entiende que una gran proporción de las secuencias candidatas tendrá esencialmente ninguna coincidencia significativa con la secuencia de consulta. Métodos de Word son mejor conocidos por su implementación en las herramientas de búsqueda de base de datos FASTA y la Familia BLAST. Métodos de Word identifican una serie de subsecuencias que no se superponen cortos ("palabras") en la secuencia de consulta que luego coincidían con las secuencias de bases de datos de candidatos. Las posiciones relativas de la palabra en las dos secuencias que se comparan se restan para obtener una compensación; esto indicará una región de la alineación si varias palabras distintas producen el mismo desplazamiento. Hacer sólo si se detecta esta región estos métodos se aplican criterios de alineación más sensibles; por lo tanto, se eliminan muchas comparaciones innecesarias con secuencias de ninguna similitud apreciable.

En el método FASTA, el usuario define un valor k para usar como la longitud de palabra con la que para buscar en la base de datos. El método es más lento pero más sensible a valores más bajos de k, que también se prefieren para las búsquedas realizadas con una secuencia de consulta muy corto. La familia BLAST de los métodos de búsqueda ofrece una serie de algoritmos optimizados para determinados tipos de consultas, como la búsqueda de secuencia alejadas partidos. BLAST fue desarrollado para proporcionar una alternativa más rápida a FASTA sin sacrificar la precisión; como FASTA, BLAST utiliza una búsqueda de la palabra de longitud k, sino que evalúa sólo las coincidencias de palabras más importantes, en lugar de todos los partidos de la palabra como lo hace FASTA. La mayoría de las implementaciones de BLAST utilizan una longitud de palabra por defecto fijo que está optimizado para el tipo de consulta y base de datos, y que se cambia sólo en circunstancias especiales, como en la búsqueda de secuencias de consulta repetitivas o muy cortos. Las implementaciones se pueden encontrar a través de una serie de portales web, como por ejemplo EMBL y FASTA BLAST del NCBI.

Alineación de secuencias múltiples

Alineación de 27 la influenza aviar secuencias de la proteína hemaglutinina coloreadas por conservación de los residuos (arriba) y propiedades de residuos (parte inferior)

Alineación de secuencias múltiples es una extensión del alineamiento por pares de incorporar más de dos secuencias a la vez. Múltiples métodos de alineación tratan de alinear todas las secuencias en un conjunto de consulta dada. Múltiples alineaciones se utilizan a menudo en la identificación de regiones de secuencias conservadas de todo un grupo de secuencias de la hipótesis de ser evolutivamente relacionado. Tales motivos de secuencia conservados pueden utilizarse en conjunción con estructural y información sobre el mecanismo para localizar el catalítica sitios activos de enzimas. Alineaciones también se utilizan para ayudar en el establecimiento de relaciones evolutivas mediante la construcción árboles filogenéticos. Múltiples alineamientos de secuencias son computacionalmente difícil de producir y la mayoría de las formulaciones de la plomo problema Para NP-completo los problemas de optimización combinatoria. Sin embargo, la utilidad de estas alineaciones en la bioinformática ha llevado al desarrollo de una variedad de métodos adecuados para alinear tres o más secuencias.

La programación dinámica

La técnica de programación dinámica es teóricamente aplicable a cualquier número de secuencias; sin embargo, debido a que es computacionalmente costosa en tiempo y memoria, que rara vez se utiliza desde hace más de tres o cuatro secuencias en su forma más básica. Este método requiere la construcción de la equivalente n-dimensional de la matriz secuencia formada a partir de dos secuencias, donde n es el número de secuencias en la consulta. Programación dinámica estándar se utiliza por primera vez en todos los pares de secuencias de consulta y luego el "espacio de alineación" es rellenado por considerar posibles coincidencias o lagunas en las posiciones intermedias, con el tiempo la construcción de una alineación esencialmente entre cada alineación de dos secuencias. Aunque esta técnica es costosa computacionalmente, su garantía de una solución óptima global es útil en los casos en que sólo unas pocas secuencias necesitan estar alineados con precisión. Un método para reducir las exigencias computacionales de programación dinámica, que se basa en la "suma de pares" función objetivo, se ha implementado en el Paquete de software MSA.

Métodos progresivos

Progresiva, o métodos de árbol jerárquico generar una alineación de secuencias múltiples alineando primero las secuencias más similares y después añadiendo sucesivamente secuencias o grupos menos relacionada con la alineación hasta que todo el conjunto de consultas se ha incorporado en la solución. El árbol inicial que describe la relación de secuencia se basa en comparaciones por pares que pueden incluir métodos de alineación por pares heurísticos similares a FASTA. Resultados de la alineación progresivos dependen de la elección de secuencias "más afines" y por lo tanto puede ser sensible a las imprecisiones en los alineamientos de pares iniciales. La mayoría de los métodos de alineación de secuencias progresivas múltiples, además, el peso de los secuencias en la consulta establecido de acuerdo con su relación, lo que reduce la probabilidad de hacer que una mala elección de secuencias iniciales y por lo tanto mejora la precisión de la alineación.

Muchas variaciones de la Aplicación progresiva Clustal se utilizan para la alineación de secuencias múltiples, la construcción del árbol filogenético, y como insumo para la predicción de estructura de proteínas. Una variante más lento pero más preciso del método progresivo es conocido como T-Café; implementaciones se pueden encontrar en ClustalW y T-Café.

Los métodos iterativos

Los métodos iterativos intentan mejorar en el punto de los métodos progresivos, la fuerte dependencia de la exactitud de los alineamientos de pares iniciales débil. Los métodos iterativos optimizar un función objetivo basada en un método de puntuación de alineación seleccionado mediante la asignación de un alineamiento global inicial y luego la realineación de subconjuntos de secuencia. Los subconjuntos reajustado son entonces sí alineados para producir múltiples secuencias de alineación de la próxima iteración. Varias maneras de seleccionar los subgrupos de secuencia y función objetivo se revisan en.

La búsqueda de motivos

Encontrar motivo, también conocido como análisis de perfil, construye múltiples alineamientos de secuencias globales que intentan alinear corto conservado motivos de secuencia entre las secuencias en el conjunto de consulta. Esto se hace generalmente por primera construcción de una alineación múltiple general global de secuencia, después de lo cual el altamente regiones conservadas se aíslan y se utilizan para construir un conjunto de matrices perfil. La matriz de perfil para cada región conservada está dispuesto como una matriz de puntuación pero sus recuentos de frecuencia para cada aminoácido o nucleótido en cada posición se derivan de distribución carácter de la región conservada en lugar de a partir de una distribución empírica más general. Las matrices de perfiles se utilizan para buscar otras secuencias para las apariciones del motivo caracterizan. En los casos en que el original conjunto de datos contenía un pequeño número de secuencias, o sólo secuencias altamente relacionadas, se añaden pseudocounts para normalizar las distribuciones de caracteres representados en el motivo.

Las técnicas inspiradas en la informática

Una variedad de general algoritmos de optimización de uso común en la informática también se han aplicado al problema de alineación de secuencias múltiples. Modelos ocultos de Markov se han utilizado para producir puntuaciones de probabilidad para una familia de posibles múltiples alineamientos de secuencias para un conjunto dado de consulta; Aunque los métodos basados en HMM primeros producen el rendimiento esperado, las aplicaciones posteriores han encontrado que especialmente eficaz en la detección de secuencias relacionadas de forma remota porque son menos susceptibles al ruido creado por sustituciones conservativas o semiconservativa. Los algoritmos genéticos y recocido simulado también se han utilizado en la optimización de múltiples puntuaciones de la alineación de secuencias como se juzga por una función de puntuación como el método de suma de pares. Más detalles completos y paquetes de software se pueden encontrar en el artículo principal alineación de secuencias múltiples .

Alineamiento estructural

Alineaciones estructurales, que suelen ser específicos de la proteína y, a veces secuencias de ARN, utilizan la información sobre el secundaria y estructura terciaria de la molécula de proteína o ARN para ayudar en la alineación de las secuencias. Estos métodos se pueden utilizar para dos o más secuencias y típicamente producen alineamientos locales; sin embargo, ya que dependen de la disponibilidad de información estructural, sólo pueden ser utilizados para las secuencias cuyas estructuras correspondientes son conocidos (por lo general a través de Cristalografía de rayos X o espectroscopia de RMN ). Debido a que tanto la estructura de proteínas y ARN es más conservado evolutivamente de secuencia, alineaciones estructurales pueden ser más confiables entre las secuencias que están muy alejadas y que se han ido distanciando tan extensivamente que la comparación de secuencias no puede detectar de forma fiable su similitud.

Alineaciones estructurales se utilizan como el "estándar de oro" en la evaluación de las alineaciones de homología basada- proteína de predicción de estructura porque alinear explícitamente regiones de la secuencia de la proteína que son estructuralmente similares en lugar de confiar exclusivamente en la información de la secuencia. Sin embargo, claramente alineaciones estructurales no se pueden utilizar en la predicción de estructura, porque al menos una secuencia en el conjunto de consulta es el objetivo de ser modelada, para los que no se conoce la estructura. Se ha demostrado que, dada la alineación estructural entre un objetivo y una secuencia de plantilla, modelos muy precisos de la secuencia de proteína diana se pueden producir; un obstáculo importante en la estructura basada en la predicción de homología es la producción de alineaciones estructuralmente precisas dadas sólo la información secuencial.

DALI

El método DALI, o alineación matriz de distancia, es un método basado en el fragmento para construir alineamientos estructurales basados en patrones de similitud de contacto entre hexapéptidos sucesivas en las secuencias de consulta. Puede generar pares o múltiples alineaciones e identificar vecinos estructurales de una secuencia de consulta en el Protein Data Bank (PDB). Se ha utilizado para construir el FSSP base de datos de alineación estructural (clasificación Fold basado en estructura-Estructura alineación de proteínas, o familias de proteínas estructuralmente similares). Un servidor web DALI se puede acceder en EBI DALI y la FSSP se encuentra en La base de datos de Dalí.

SSAP

SSAP (programa de alineación de estructura secuencial) es un método basado en programación dinámica de alineación estructural que utiliza vectores átomo-átomo en estructura a espacio como puntos de comparación. Se ha extendido desde su descripción original, para incluir múltiples, así como pairwise alineaciones, y se ha utilizado en la construcción de la CATH (Clase, Arquitectura, Topología, homología) clasificación de base de datos jerárquica de los pliegues de proteínas. La base de datos CATH se puede acceder en CATH Estructura de Proteínas Clasificación.

Extensión Combinatoria

El método de extensión combinatoria de alineación estructural genera una alineación estructural pairwise mediante el uso de geometría local para alinear fragmentos cortos de las dos proteínas que se analiza y luego ensambla estos fragmentos en una alineación más grande. Sobre la base de medidas como cuerpo rígido raíz media distancia cuadrada, distancias de residuos, la estructura secundaria local y las características ambientales de los alrededores, como vecino de residuos hidrofobicidad, alineamientos locales llamados "pares de fragmentos alineados" se generan y se utilizan para construir una matriz de similitud en representación de todas las posibles alineaciones estructurales dentro de criterios de corte predefinidos. Un camino de una proteína de estructura de un estado a otro se traza entonces a través de la matriz mediante la extensión de la creciente alineación de un fragmento a la vez. El tal ruta óptima define la alineación combinatoria-extensión. Un servidor basado en web que implementa el método y proporcionar una base de datos de alineamientos de pares de estructuras en el Protein Data Bank se encuentra en el Extensión sitio web combinatoria.

El análisis filogenético

Filogenia y alineamiento de secuencias son campos estrechamente relacionados debido a la necesidad compartida de la evaluación de relación de secuencia. El campo de la filogenética hace un amplio uso de la secuencia de alineaciones en la construcción e interpretación de árboles filogenéticos, que se utilizan para clasificar las relaciones evolutivas entre homóloga genes representados en el genomas de especies divergentes. El grado en que las secuencias en un conjunto de consulta diferir es cualitativamente relacionada con la distancia evolutiva de las secuencias de 'uno del otro. En términos generales, alta identidad de secuencia sugiere que las secuencias en cuestión tienen un relativamente joven ancestro común más reciente, mientras que la identidad bajo sugiere que la divergencia es más antigua. Esta aproximación, que refleja la " reloj molecular "hipótesis de que una tasa más o menos constante de cambio evolutivo puede utilizarse para extrapolar el tiempo transcurrido desde dos genes primera divergieron (es decir, el coalescencia de tiempo), se asume que los efectos de la mutación y la selección son constantes a través de la secuencia de linajes. Por lo tanto, no tiene en cuenta posibles diferencias entre los organismos o especies en las tasas de reparación del ADN o la posible conservación funcional de regiones específicas en una secuencia. (En el caso de las secuencias de nucleótidos, la hipótesis del reloj molecular en su forma más básica también descuenta la diferencia en las tasas de aceptación entre mutaciones silenciosas que no alteran el significado de un determinado codón y otras mutaciones que resultan en una diferente de aminoácidos se incorpora en la proteína.) Más estadísticamente métodos precisos permiten la tasa de evolución en cada rama del árbol filogenético para variar, produciendo así una mejor estimaciones de los tiempos de coalescencia para genes.

Múltiples técnicas de alineamiento progresivo producen un árbol filogenético por necesidad porque incorporan secuencias en la alineación creciente con el fin de la relación. Otras técnicas que se ensamblan múltiples secuencia de alineaciones y los árboles filogenéticos anotar y ordenar árboles primero y calcular una secuencia múltiples alineación del árbol más alta puntuación. Los métodos más utilizados de la construcción del árbol filogenético son principalmente heurística porque el problema de seleccionar el árbol óptimo, como el problema de la selección de la óptima alineación de secuencias múltiples, es NP-duro.

Evaluación de la importancia

Secuencia alineaciones son útiles en la bioinformática para identificar la similitud de secuencias, la producción de los árboles filogenéticos, y el desarrollo de modelos de homología de estructuras de proteínas. Sin embargo, la importancia biológica de la secuencia de alineaciones no siempre es clara. Alineaciones son asumidos para reflejar un grado de cambio evolutivo entre las secuencias que descienden de un ancestro común; sin embargo, es posible que formalmente evolución convergente puede ocurrir para producir aparente similitud entre las proteínas que son evolutivamente relacionado pero realizan funciones similares y tienen estructuras similares.

En búsquedas de bases de datos tales como BLAST, los métodos estadísticos pueden determinar la probabilidad de una alineación particular entre secuencias o regiones de la secuencia que surgen por casualidad, dado el tamaño y la composición de la base de datos que se busca. Estos valores pueden variar significativamente dependiendo del espacio de búsqueda. En particular, la probabilidad de encontrar una alineación dada por casualidad aumenta si la base de datos se compone sólo de secuencias del mismo organismo como la secuencia de consulta. Las secuencias repetitivas en la base de datos o consulta también pueden distorsionar tanto los resultados de búsqueda y la evaluación de la significación estadística; BLAST filtra automáticamente dichas secuencias repetitivas en la consulta para evitar golpes aparentes que son artefactos estadísticos.

Funciones de puntuación

La elección de una función de puntuación que refleja observaciones biológicas o estadísticos acerca de las secuencias conocidas es importante para la producción de buenas alineaciones. Secuencias de proteínas se alinean con frecuencia usando sustitución de las matrices que reflejan las probabilidades de dados sustituciones carácter a carácter. Una serie de matrices llamada Matrices PAM (Point Accepted Mutation matrices, originalmente definidos por Margaret Dayhoff y, a veces referidas como "Dayhoff matrices") codificar explícitamente aproximaciones evolutivas cuanto a los porcentajes y probabilidades de mutaciones de aminoácidos particulares. Otra serie común de las matrices de puntuación, conocido como BLOSUM (Bloques Cambio Matrix), codifica empíricamente derivada probabilidades de sustitución. Variantes de ambos tipos de matrices se utilizan para detectar secuencias con diferentes niveles de divergencia, de este modo permitiendo a los usuarios de BLAST o FASTA para restringir las búsquedas a partidos más estrechamente relacionados o ampliar para detectar secuencias más divergentes. Penalizaciones por hueco representan la introducción de un gap - en el modelo evolutivo, una mutación de inserción o deleción - en ambas secuencias de nucleótidos y proteínas, y por lo tanto los valores de penalización deben ser proporcionales a la tasa esperada de tales mutaciones. La calidad de los alineamientos producidos por tanto, depende de la calidad de la función de puntuación.

Puede ser muy útil e instructivo intentar la misma alineación varias veces con diferentes opciones para la matriz de puntuación y / o valores de penalización por hueco y comparar los resultados. Las regiones donde la solución es débil o no único a menudo se pueden identificar observando qué regiones de la alineación son robustos a variaciones en los parámetros de alineación.

Los usos no biológicos

Los métodos utilizados para la alineación de secuencias biológica también han encontrado aplicaciones en otros campos, especialmente en procesamiento del lenguaje natural. Las técnicas que generan el conjunto de elementos de los que se seleccionarán palabras en algoritmos de generación de lenguaje natural han prestado múltiples técnicas de alineamiento de secuencias de bioinformática para producir versiones lingüísticas de las pruebas matemáticas generadas por ordenador. En el campo de la histórica y comparada la lingüística , la alineación de secuencias se ha utilizado para automatizar parcialmente el método comparativo por el cual los lingüistas tradicionalmente reconstruyen lenguas. Negocios y la investigación de mercados también se ha aplicado varias técnicas de alineamiento de secuencias en el análisis de serie de compras en el tiempo.

Software

Herramientas de software comunes usados para tareas de alineación de secuencias en general incluyen ClustalW y T-café para la alineación, y BLAST para la búsqueda de base de datos. Una lista más completa de software disponible categorizado por el algoritmo y el tipo de alineación está disponible en software de alineación de secuencias.

Algoritmos y software de alineación se pueden comparar directamente entre sí usando un conjunto estandarizado de referencia benchmark múltiples alineamientos de secuencias conocidas como BAliBASE. El conjunto de datos consta de alineaciones estructurales, que pueden considerarse un estándar contra el cual métodos puramente de secuencia basado se comparan. El rendimiento relativo de los muchos métodos de alineación común sobre los problemas de alineación se encuentran con frecuencia ha sido tabulados y seleccionado resultados publicados en línea en BAliBASE. Una lista completa de partituras BAliBASE para muchos (actualmente 12) diferentes herramientas de alineación se pueden calcular en el banco de trabajo de proteína CORREA.

Recuperado de " http://en.wikipedia.org/w/index.php?title=Sequence_alignment&oldid=220115526 "