Secuencias conservadas
En este artículo, presentaremos el concepto de secuencias conservadas y también describiremos su significado biológico. Luego, veremos cómo podemos reducir el problema de encontrar secuencias conservadas al problema de encontrar K-mer más común en una secuencia dada y revisaremos aún más el problema para manejar desajustes, con el fin de hacer que nuestro problema sea más biológicamente plausible. Finalmente, veremos un algoritmo simple para resolver el problema de K-mer con desajustes.
En biología evolutiva y genética, las secuencias conservadas se refieren a secuencias idénticas o similares de ADN, ARN o aminoácidos (proteínas) que se producen en especies diferentes o iguales a lo largo de generaciones. Estas secuencias muestran cambios muy mínimos en su composición o, a veces, ningún cambio a lo largo de las generaciones.
El siguiente ejemplo muestra cómo se ve realmente la conservación de secuencias entre especies:
En esta imagen observamos la secuencia de aminoácidos de las proteínas de histonas de mamíferos y sus regiones conservadas. Las indicadas en gris se conservan en todas las especies, mientras que vemos los huecos en blanco que tienden a cambiar entre las diferentes especies.
Ejemplos comunes de secuencias conservadas incluyen,
- secuencias relacionadas con la traducción y la transcripción que se encuentran conservadas en el genoma en múltiples lugares
- ciertos componentes de ARN en los ribosomas se encuentran altamente conservados en varias especies
- el ARNm se encuentra conservado en múltiples especies de bacterias
- otros ejemplos como TATA (regiones repetitivas) y homeoboxes (involucradas en la regulación del desarrollo embrionario en una amplia gama de especies).
La base de datos de dominios conservados disponible en NCBI tiene amplios recursos sobre secuencias conservadas en diferentes organismos y genomas. Utiliza matrices de puntuación específicas de proteínas para identificar secuencias conservadas.
Las secuencias conservadas se pueden clasificar en dos categorías principales, ortóloga y paralógica. Una secuencia conservada se llama ortóloga cuando se encuentran secuencias idénticas entre especies y se llama paralógica cuando se encuentran secuencias idénticas dentro del mismo genoma a lo largo de generaciones.
Ejemplo de secuencias conservadas ortólogas: Una investigación sobre genomas de vertebrados, gusanos, insectos y un genoma de levadura (PubMed Central PMCID:PMC1182216) encontró elementos conservados a través de alineaciones genómicas amplias de 5 especies de vertebrados (humanos, ratas, ratones, pollos y rubripas de Fugu), 2 especies de Caenorhabditis y 7 especies de Saccharomyces. El elemento conservado que se analizó fue del 3% al 8% del genoma humano y fracciones sustancialmente más altas de los genomas más compactos Drosophila melanogaster (37-53%), Caenorhabditis elegans(18-37%) y Saccharaomyces cerevisiae (47-68%).
Ejemplo de secuencias convergentes paralógicas: Se encuentra que las secuencias de ADN en el gen de hemoglobina en humanos son idénticas en múltiples lugares del genoma y la secuencia del gen de mioglobina en los chimpancés.
A menudo vemos casos de conservación extrema de secuencias de ácidos nucleicos o aminoácidos, que se denominan secuencias ultra conservadas. Por ejemplo, se han encontrado ciertas secuencias en vertebrados en taxones muy diferentes que varían drásticamente. En otro caso, tenemos secuencias conservadas universalmente que comprenden casi todos los organismos, ejemplos de tales secuencias son el factor de elongación de unión a GTP, ARN ribosómico y ARNt, etc.
Importancia de las secuencias conservadas
Las secuencias conservadas que se encuentran en diferentes genomas pueden ser secuencias codificantes o secuencias no codificantes. Como secuencias codificantes, los aminoácidos y los ácidos nucleicos a menudo se conservan para retener la estructura y la función de una determinada proteína. Estas secuencias sufren cambios mínimos. Cuando ocurren cambios, generalmente reemplazan un aminoácido o ácido nucleico por uno que es bioquímicamente similar. Del mismo modo, otras secuencias de ácido nucleico relacionadas con el ARNm a menudo se conservan. Secuencias no codificantes, como sitios de ribosomas, factores transcripcionales, sitios de unión, etc., también son secuencias conservadas.
Significación computacional
Las secuencias conservadas nos ayudan a encontrar homología (similitud) entre diferentes organismos y especies. Se podrían desarrollar relaciones filogenéticas y árboles y se podría encontrar una ascendencia efectiva utilizando los datos de secuencias conservadas. Un ejemplo común es la secuencia conservada “ARN 16S” que se utiliza para reconstruir la relación filogenética entre varios filos bacterianos.
La secuencia conservada también se puede utilizar para marcar el origen de trastornos genéticos y mutaciones. Al comparar genomas que tienen una cierta secuencia conservada común a ellos, podemos identificar fácilmente anomalías, cualquiera que exista.
Encontrar Secuencias Conversadas con K-mers
En esta sección, veremos cómo, dada una sección de un solo ADN, podemos encontrar secuencias cortas conservadas. Las secuencias conservadas que buscamos se denominan motivos reguladores. Los motivos reguladores son segmentos cortos de ADN (por ejemplo, 15-30 ácidos nucleicos) que controlan la expresión de los genes, es decir, cuántas veces se transcribe un gen y, por lo tanto, cuánta proteína se produce.
K-mers son subcadenas de longitud k que se encuentran en la cadena de entrada. En el caso de la genómica computacional, la cadena de entrada representa una secuencia de aminoácidos o ácidos nucleicos. Por ejemplo, 5 mers se refieren a subcadenas de longitud 5, y 7 mers se refieren a subcadenas de longitud 7.
El problema más frecuente de K-mers
Enmarcamos el problema de encontrar secuencias cortas conservadas de la siguiente manera. Dada la secuencia de entrada de aminoácidos o ácidos nucleicos, encuentre el K-mer que ocurre con más frecuencia. Tomemos un ejemplo
Tenemos los siguientes datos,
ENTRADA:
Secuencia: ACGTTGCATGTCGCATGATGCATGAGAGCT
k = 4
RESULTADO ESPERADO:
El 4-mer más frecuente de la secuencia de entrada.
EJEMPLO:
Podemos usar la técnica de ventana deslizante para encontrar todos los K-mers. Anotemos todos los k-mers,
ACGT : CGTT : GTTG : TTGC : TGCA : GCAT : CATG : ATGT : TGTC : GTCG : TCGC : CGCA : GCAT : CATG : ATGA : TGAT : GATG : ATGC : GCAT : CATG : ATGA : TGAG : GAGA : AGAG : GAGC : AGCT
En este ejemplo, vemos que los 4 mers CATG y GCAT son los 4 mers más frecuentes, ya que aparecen 3 veces cada uno.
Permitiendo desajustes en K-mers
Sin embargo, a partir de experimentos en biología, hemos descubierto que es posible que las secuencias conservadas experimenten cambios menores. Como tal, necesitamos gastar el problema anterior para manejar los desajustes.
Por ejemplo, ATCCGAT y ATCGGAA tienen 2 desajustes, uno en la posición 4 y otro en la posición 7. Veamos cómo podemos definir el problema de encontrar k-mers más frecuentes con margen para desajustes.
ENTRADA:
Secuencia: ACGTTGCATGTCGCATGATGCATGAGAGCT
K = 4, d = 1
RESULTADO ESPERADO:
4 mers más frecuentes con margen para 1 desajuste por K-mer.
EJEMPLO:
Hemos tomado la misma secuencia de ejemplo que en el problema anterior. Por lo tanto, la lista de todos los posibles 4-mers no cambia. Fueron los siguientes:
ACGT : CGTT : GTTG : TTGC : TGCA : GCAT : CATG : ATGT : TGTC : GTCG : TCGC : CGCA : GCAT : CATG : ATGA : TGAT : GATG : ATGC : TGCA : GCAT : CATG : ATGA : TGAG : GAGA : AGAG : GAGC : AGCT
el resultado cambiará ya que ahora tenemos que tener en cuenta todas las posibilidades con 1 desajuste permitido.
Si tomamos GATG por ejemplo, hay 5 k-mers en la secuencia anterior que coinciden con GATG permitiendo un desajuste, es decir, GTTG, CATG, CATG, GATG y CATG. Del mismo modo, hay 5 k-mers coincidentes para ATGC y ATGT también. Por lo tanto, nuestro resultado para los k-mers más frecuentes con tolerancia para 1 desajuste son GATG, ATGC (partidos TTGC, ATGT, ATGA, ATGC, ATGA) y ATGT (partidos ACGT, ATGT, ATGA, ATGC, ATGA).
Algoritmo paso a paso para el problema K-mers
El siguiente es un procedimiento simple para resolver el problema anterior:-
- Cree una lista L de todos los K-mers en la cadena original
- Para cada K-mer X en la cadena original
- Considere cada K-mer Y en la cadena original
- Cuente el número de desajustes m entre X e Y
- Si m < = d, luego aumente la puntuación de X por 1
- Resultado = K-mer X con la puntuación más alta
Eficiencia computacional: Si la longitud original de la cadena es L, entonces el algoritmo hace cálculos de L2K. Tenga en cuenta que L a veces puede ser bastante grande, digamos 10 de millones o incluso miles de millones (el ADN humano se compone de aproximadamente 3-4 mil millones de ácidos nucleicos).
Corrección: El algoritmo anterior solo funciona si el K-mer aparece correctamente (sin ningún desajuste) al menos una vez en la secuencia de ADN. Aunque esto no es necesario, en la práctica suele ser así. Este es el caso de muchos algoritmos en bioinformática, en los que no se demuestra que un algoritmo dé resultados óptimos todo el tiempo, pero en la práctica, funciona bastante bien.