Séquences conservées
Dans cet article, nous présenterons le concept de séquences conservées et décrirons également leur signification biologique. Ensuite, nous verrons comment nous pouvons réduire le problème de la recherche de séquences conservées au problème de la recherche de K-mer les plus courantes dans une séquence donnée et réviser davantage le problème pour gérer les discordances, afin de rendre notre problème plus plausible biologiquement. Enfin, nous verrons un algorithme simple pour résoudre le problème K-mer avec des non-concordances.
En biologie évolutive et en génétique, les séquences conservées désignent des séquences identiques ou similaires d’ADN ou d’ARN ou d’acides aminés (protéines) qui se produisent chez des espèces différentes ou identiques au fil des générations. Ces séquences montrent des changements très minimes dans leur composition ou parfois aucun changement au fil des générations.
L’exemple suivant montre à quoi ressemble réellement la conservation des séquences entre espèces:
Dans cette image, nous examinons la séquence d’acides aminés des protéines histones de mammifères et leurs régions conservées. Ceux indiqués en gris sont conservés chez toutes les espèces tandis que nous voyons les lacunes en blanc qui ont tendance à changer selon les espèces.
Des exemples courants de séquences conservées incluent,
- séquences liées à la traduction et à la transcription qui se trouvent conservées dans le génome à de multiples endroits
- certains composants de l’ARN dans les ribosomes sont très conservés sur diverses espèces
- L’ARNm se trouve être conservé dans plusieurs espèces de bactéries
- d’autres exemples comme les TATA (régions répétitives) et les homéoboxes (impliquées dans la régulation du développement embryonnaire chez un large éventail d’espèces).
La base de données sur les domaines conservés disponible au NCBI contient de nombreuses ressources sur les séquences conservées dans différents organismes et génomes. Il utilise des matrices de notation spécifiques aux protéines pour identifier les séquences conservées.
Les séquences conservées peuvent être classées en deux grandes catégories, orthologue et paralogue. Une séquence conservée est appelée orthologue lorsque des séquences identiques sont trouvées d’une espèce à l’autre et elle est appelée paralogue lorsque des séquences identiques sont trouvées dans le même génome au fil des générations.
Exemple de séquences conservées orthologues: Une recherche sur les génomes de vertébrés, de vers, d’insectes et d’un génome de levure (PMCID central PubMed: PMC1182216) a trouvé des éléments conservés dans les alignements à l’échelle du génome de 5 espèces de vertébrés (rubripes humains, rats, souris, poulets et Fugus), 2 espèces de Caenorhabditis et 7 espèces de Saccharomyces. L’élément conservé qui a été analysé s’est avéré être de 3% à 8% du génome humain et des fractions sensiblement plus élevées des génomes plus compacts de Drosophila melanogaster (37% à 53%), Caenorhabditis elegans (18% à 37%) et Saccharaomyces cerevisiae (47% à 68%).
Exemple de séquences convergées paralogues: Les séquences d’ADN dans le gène de l’hémoglobine chez l’homme sont identiques à plusieurs endroits du génome et la séquence du gène de la myoglobine chez les chimpanzés.
On voit souvent des cas de conservation extrême des séquences d’acides nucléiques ou d’acides aminés, celles-ci sont appelées séquences ultra conservées. Par exemple, certaines séquences chez les vertébrés ont été trouvées dans des taxons très différents variant considérablement. Dans un autre cas, nous avons des séquences universellement conservées qui comprennent presque tous les organismes, des exemples de telles séquences sont le facteur d’élongation de liaison GTP, les ARN ribosomiques et les ARNt, etc.
Signification des séquences conservées
Les séquences conservées trouvées dans différents génomes peuvent être des séquences codantes ou des séquences non codantes. En tant que séquences codantes, les acides aminés et les acides nucléiques sont souvent conservés pour conserver la structure et la fonction d’une certaine protéine. Ces séquences subissent des changements minimes. Lorsque des changements se produisent, ils remplacent généralement un acide aminé ou un acide nucléique par un acide biochimiquement similaire. De même, d’autres séquences d’acides nucléiques liées à l’ARNm sont souvent conservées. Les séquences non codantes, comme les sites des ribosomes, les facteurs transcriptionnels, le site de liaison, etc., sont également des séquences conservées.
Signification computationnelle
Les séquences conservées nous aident à trouver une homologie (similitude) entre différents organismes et espèces. Des relations phylogénétiques et des arbres ont pu être développés et une ascendance efficace a pu être trouvée en utilisant les données sur les séquences conservées. Un exemple courant est la séquence conservée “ARN 16S” qui est utilisée pour reconstruire la relation phylogénétique entre divers phyla bactériens.
La séquence conservée peut également être utilisée pour marquer l’origine de troubles génétiques et de mutations. En comparant des génomes qui ont une certaine séquence conservée commune à eux, nous pouvons facilement identifier des anomalies, toutes existent.
Trouver des Séquences conversées avec des K-mers
Dans cette section, nous verrons comment étant donné une section d’un seul ADN, comment nous pouvons trouver de courtes séquences conservées. Les séquences conservées que nous recherchons sont appelées motifs régulateurs. Les motifs régulateurs sont de courts segments d’ADN (disons 15 à 30 acides nucléiques) qui contrôlent l’expression des gènes, c’est-à-dire le nombre de fois qu’un gène est transcrit, et donc la quantité de protéine correspondante produite.
K-mers sont des sous-chaînes de longueur k qui se trouvent dans la chaîne d’entrée. Dans le cas de la génomique computationnelle, la chaîne d’entrée représente une séquence d’acides aminés ou d’acides nucléiques. Par exemple, les 5-mers désignent des sous-chaînes de longueur 5 et les 7-mers désignent des sous-chaînes de longueur 7.
Problème K-mers le plus fréquent
Nous encadrons le problème de la recherche de séquences courtes conservées comme suit. Compte tenu de la séquence d’entrée des acides aminés ou des acides nucléiques, trouvez le K-mer qui se produit le plus fréquemment. Prenons un exemple
Nous avons les données suivantes,
ENTRÉE:
Séquence: ACGTTGCATGTCGCATGATGCATGAGAGCT
k = 4
RÉSULTAT ATTENDU:
4-mer le plus fréquent de la séquence d’entrée.
EXEMPLE:
Nous pouvons utiliser la technique de la fenêtre coulissante pour trouver tous les K-mers. Notez tous les k-mers,
ACGT:CGTT:GTTG:TTGC:TGCA:GCAT:CATG:ATGT:TGTC:GTCG:TCGC:CGCA:GCAT:CATG:ATGA:TGAT:GATG:ATGC:GCAT:ATGA:TGAG:GAGA:AGAG:GAGC:AGCT
Dans ce par exemple, nous voyons que 4-mers CATG et GCAT sont les 4-mers les plus fréquentes, car elles apparaissent 3 fois chacune.
Permettant des discordances dans K-mers
Cependant, des expériences en biologie, nous avons découvert qu’il est possible que des séquences conservées subissent des modifications mineures. En tant que tel, nous devons utiliser le problème ci-dessus pour gérer les discordances.
Par exemple, ATCCGAT et ATCGGAA ont 2 incompatibilités, l’une aux positions 4 et l’autre à la position 7. Voyons comment nous pouvons définir le problème de la recherche des k-mers les plus fréquents avec une prise en compte des discordances.
ENTRÉE:
Séquence: ACGTTGCATGTCGCATGATGCATGAGAGCT
K = 4, d = 1
RÉSULTAT ATTENDU:
Les 4 mers les plus fréquentes avec une tolérance pour 1 décalage par mer-K.EXEMPLE
:
Nous avons pris la même séquence d’exemple que dans le problème précédent. Par conséquent, la liste de tous les 4-mers possibles est inchangée. Ils étaient les suivants :
ACGT:CGTT:GTTG:TTGC:TGCA:GCAT:CATG:ATGT:TGTC:GTCG:TCGC:CGCA:GCAT:CATG:ATGA:TGAT:GATG:ATGC:TGCA:GCAT:ATGA:TGAG:GAGA:AGAG:GAGC:AGCT
Cependant, notre résultat final changera comme suit : maintenant, nous devons prendre en compte toutes les possibilités avec 1 décalage autorisé.
Si nous prenons GATG par exemple, il y a 5 k-mers dans la séquence ci-dessus qui correspondent à GATG, ce qui permet une incompatibilité, c’est-à-dire GTTG, CATG, CATG, GATG et CATG. De même, il existe également 5 k-mers correspondants pour ATGC et ATGT. Par conséquent, nos résultats pour les k-mers les plus fréquents avec une allocation pour 1 décalage sont GATG, ATGC (correspond à TTGC, ATGT, ATGA, ATGC, ATGA) et ATGT (correspond à ACGT, ATGT, ATGA, ATGC, ATGA).
Algorithme étape par étape pour le problème K-mers
Voici une procédure simple pour résoudre le problème ci-dessus:-
- Créez la liste L de tous les K-mers de la chaîne d’origine
- Pour chaque K-mer X de la chaîne d’origine
- Considérez chaque K-mer Y de la chaîne d’origine
- Comptez le nombre de discordances m entre X et Y
- Si m < = d, augmentez le score de X de 1
- Résultat = K-mer X avec le score le plus élevé
Efficacité de calcul: Si la longueur d’origine de la chaîne est L, l’algorithme effectue des calculs de L2K. Notez que L peut parfois être assez grand, disons 10 millions, voire des milliards (l’ADN humain comprend environ 3 à 4 milliards d’acides nucléiques).
Exactitude: L’algorithme ci-dessus ne fonctionne que si le K-mer apparaît correctement (sans incompatibilité) au moins une fois dans la séquence d’ADN. Bien que cela ne soit pas nécessaire, c’est généralement le cas dans la pratique. C’est le cas de nombreux algorithmes en bioinformatique, dans lesquels il n’est pas prouvé qu’un algorithme donne des résultats optimaux tout le temps, mais en pratique, il fonctionne assez bien.