Konservierte Sequenzen

In diesem Artikel stellen wir das Konzept konservierter Sequenzen vor und beschreiben auch ihre biologische Bedeutung. Dann werden wir sehen, wie wir das Problem des Auffindens konservierter Sequenzen auf das Problem des Auffindens der häufigsten K-Mer in einer bestimmten Sequenz reduzieren und das Problem weiter überarbeiten können, um Fehlpaarungen zu behandeln, um unser Problem biologisch plausibler zu machen. Schließlich sehen wir einen einfachen Algorithmus, um das K-mer-Problem mit Nichtübereinstimmungen zu lösen.

In der Evolutionsbiologie und Genetik beziehen sich konservierte Sequenzen auf identische oder ähnliche Sequenzen von DNA oder RNA oder Aminosäuren (Proteinen), die über Generationen in verschiedenen oder derselben Spezies vorkommen. Diese Sequenzen zeigen sehr minimale Veränderungen in ihrer Zusammensetzung oder manchmal gar keine Veränderungen über Generationen hinweg.

Das folgende Beispiel zeigt, wie die Erhaltung von Sequenzen über Arten hinweg tatsächlich aussieht:

In diesem Bild betrachten wir die Aminosäuresequenz von Histonproteinen von Säugetieren und ihre konservierten Regionen. Die in Grau angegebenen sind bei allen Arten erhalten, während wir die Lücken in Weiß sehen, die sich im Laufe der verschiedenen Arten tendenziell ändern.

Häufige Beispiele für konservierte Sequenzen sind,

  • translations- und transkriptionsbezogene Sequenzen, die im Genom an mehreren Stellen konserviert gefunden werden
  • Bestimmte RNA-Komponenten in Ribosomen sind über verschiedene Arten hoch konserviert
  • tmRNA ist in mehreren Bakterienarten konserviert
  • andere Beispiele wie TATA (repetitive Regionen) und Homöoboxen (an der Regulierung der Embryonalentwicklung bei einer Vielzahl von Arten beteiligt).

Die am NCBI verfügbare Datenbank für konservierte Domänen verfügt über umfangreiche Ressourcen zu konservierten Sequenzen in verschiedenen Organismen und Genomen. Es verwendet proteinspezifische Scoring-Matrizen, um konservierte Sequenzen zu identifizieren.

Konservierte Sequenzen können in zwei Hauptkategorien eingeteilt werden, orthologous und paralogous. Eine konservierte Sequenz wird ortholog genannt, wenn identische Sequenzen über Spezies hinweg gefunden werden, und sie wird paralog genannt, wenn identische Sequenzen innerhalb desselben Genoms über Generationen hinweg gefunden werden.

Beispiel für orthologe konservierte Sequenzen: Eine Untersuchung der Genome von Wirbeltieren, Würmern, Insekten und einem Hefegenom (PubMed Central PMCID: PMC1182216) ergab konservierte Elemente in genomweiten Ausrichtungen von 5 Arten von Wirbeltieren (Mensch, Ratte, Maus, Huhn und Fugu-Rubripen), 2 Arten von Caenorhabditis und 7 Arten von Saccharomyces. Das konservierte Element, das analysiert wurde, bestand aus 3% -8% des menschlichen Genoms und wesentlich höheren Anteilen der kompakteren Genome Drosophila melanogaster (37% -53%), Caenorhabditis elegans (18% -37%) und Saccharaomyces cerevisiae (47% -68%).

Beispiel für paralog konvergierte Sequenzen: DNA-Sequenzen im Hämoglobin-Gen beim Menschen sind an mehreren Stellen des Genoms und der Myoglobin-Gensequenz bei Schimpansen identisch.

Wir sehen oft Fälle extremer Konservierung von Nukleinsäure- oder Aminosäuresequenzen, diese werden als ultrakonservierte Sequenzen bezeichnet. Zum Beispiel wurden bestimmte Sequenzen in Wirbeltieren in sehr unterschiedlichen Taxas gefunden, die drastisch variieren. In einem anderen Fall haben wir universell konservierte Sequenzen, die aus fast allen Organismen bestehen, Beispiele für solche Sequenzen sind GTP-Bindungsverlängerungsfaktor, ribosomale RNAs und tRNAs, etc.

Bedeutung konservierter Sequenzen

Konservierte Sequenzen, die in verschiedenen Genomen gefunden werden, können entweder kodierende Sequenzen oder nicht kodierende Sequenzen sein. Als kodierende Sequenzen werden Aminosäuren und Nukleinsäuren häufig konserviert, um die Struktur und Funktion eines bestimmten Proteins beizubehalten. Diese Sequenzen unterliegen minimalen Änderungen. Wenn Veränderungen auftreten, ersetzen sie normalerweise eine Aminosäure oder Nukleinsäure durch eine, die biochemisch ähnlich ist. In ähnlicher Weise werden häufig andere mRNA-bezogene Nukleinsäuresequenzen konserviert. Nicht kodierende Sequenzen, wie Ribosomenstandorte, Transkriptionsfaktoren, Bindungsstelle usw., sind ebenfalls konservierte Sequenzen.

Computerbedeutung

Konservierte Sequenzen helfen uns, die Homologie (Ähnlichkeit) zwischen verschiedenen Organismen und Arten zu finden. Phylogenetische Beziehungen und Bäume konnten entwickelt und anhand der Daten zu konservierten Sequenzen eine effektive Abstammung gefunden werden. Ein häufiges Beispiel ist die konservierte Sequenz “16S RNA”, die verwendet wird, um die phylogenetische Beziehung zwischen verschiedenen Bakterienphyla zu rekonstruieren.

Konservierte Sequenz kann auch verwendet werden, um die Entstehung von genetischen Störungen und Mutationen zu markieren. Durch den Vergleich von Genomen, die eine bestimmte konservierte Sequenz gemeinsam haben, können wir Anomalien leicht identifizieren.

Konvertierte Sequenzen mit K-Mers finden

In diesem Abschnitt werden wir sehen, wie wir bei einem Abschnitt einer einzelnen DNA kurze konservierte Sequenzen finden können. Die konservierten Sequenzen, nach denen wir suchen, werden regulatorische Motive genannt. Regulatorische Motive sind kurze DNA-Segmente (z. B. 15-30 Nukleinsäuren), die die Expression von Genen steuern, d. H. Wie oft ein Gen transkribiert wird und somit wie viel des entsprechenden Proteins produziert wird.

K-mers sind Teilzeichenfolgen der Länge k, die in der Eingabezeichenfolge gefunden werden. Im Falle der Computational Genomics repräsentiert die Eingabezeichenfolge eine Sequenz von Aminosäuren oder Nukleinsäuren. Beispielsweise beziehen sich 5-mer auf Teilzeichenfolgen der Länge 5 und 7-mer auf Teilzeichenfolgen der Länge 7.

Häufigstes K-Mers-Problem

Wir rahmen das Problem der Suche nach kurzen konservierten Sequenzen wie folgt ein. Finden Sie angesichts der Eingangssequenz von Aminosäuren oder Nukleinsäuren das K-Mer, das am häufigsten vorkommt. Nehmen wir ein Beispiel

Wir haben folgende Daten,

EINGABE:

Sequenz: ACGTTGCATGTCGCATGATGCATGAGAGCT

k = 4

ERWARTETES ERGEBNIS:

Am häufigsten vorkommende 4-mer aus der Eingabesequenz.

BEISPIEL:

Wir können die Schiebefenstertechnik verwenden, um alle K-mer zu finden. Notieren wir uns alle k-mers,

ACGT: CGTT: GTTG: TTGC: TGCA: GCAT: CATG: ATGT: TGTC: GTCG: TCGC: CGCA: GCAT: CATG: ATGA: TGAT: GATG: ATGC: TGCA: GCAT: CATG: ATGA: TGAG: GAGA: AGAG: GAGC: AGCT

In diesem beispiel, wir sehen, dass 4-mers CATG und GCAT sind die am häufigsten vorkommenden 4-mers, wie sie erscheinen 3 mal jeder.

Mismatches in K-Mers zulassen

Aus biologischen Experimenten haben wir jedoch herausgefunden, dass konservierte Sequenzen geringfügige Änderungen erfahren können. Daher müssen wir das obige Problem aufwenden, um Fehlanpassungen zu behandeln.

Zum Beispiel haben ATCCGAT und ATCGGAA 2 Fehlanpassungen, eine an Position 4 und eine andere an Position 7. Mal sehen, wie wir das Problem definieren können, die häufigsten k-Mer unter Berücksichtigung von Nichtübereinstimmungen zu finden.

EINGABE:

Sequenz: ACGTTGCATGTCGCATGATGCATGAGAGCT

K = 4, d = 1

ERWARTETES ERGEBNIS:

Häufigste 4-mer mit Berücksichtigung von 1 Fehlanpassung pro K-mer.

BEISPIEL:

Wir haben die gleiche Beispielsequenz wie im vorherigen Problem verwendet. Daher ist die Liste für alle möglichen 4-mers unverändert. Sie waren wie folgt:

ACGT: CGTT: GTTG: TTGC: TGCA: GCAT: CATG: ATGT: TGTC: GTCG: TCGC: CGCA: GCAT: CATG: ATGA: TGAT: GATG: ATGC: TGCA: GCAT: CATG: ATGA: TGAG: GAGA: AGAG: GAGC: AGCT

Unser Endergebnis wird sich jedoch ändern, wenn jetzt müssen wir alle Möglichkeiten berücksichtigen, wobei 1 Fehlanpassung zulässig ist.

Wenn wir zum Beispiel GATG nehmen, gibt es in der obigen Sequenz 5 k-mer, die GATG entsprechen und eine Fehlanpassung zulassen, dh GTTG, CATG, CATG, GATG und CATG. Ebenso gibt es 5 passende k-mers für ATGC und ATGT. Daher sind unser Ergebnis für die häufigsten k-Mers mit Berücksichtigung von 1 Mismatch GATG, ATGC (entspricht TTGC, ATGT, ATGA, ATGC, ATGA) und ATGT (entspricht ACGT, ATGT, ATGA, ATGC, ATGA).

Schritt-für-Schritt-Algorithmus für das K-mers-Problem

Das Folgende ist ein einfaches Verfahren zur Lösung des obigen Problems:-

  • Erstellen Sie eine Liste L aller K-mer in der Originalzeichenfolge
  • Für jedes K-mer X in der Originalzeichenfolge
    • Betrachten Sie jedes K-mer Y in der Originalzeichenfolge
      • Zählen Sie die Anzahl der Nichtübereinstimmungen m zwischen X und Y
      • Wenn m <= d ist, erhöhen Sie die Punktzahl von X 1
  • Ergebnis = K-mer X mit höchster Punktzahl

Recheneffizienz: Wenn die ursprüngliche Länge der Zeichenfolge L ist, führt der Algorithmus ungefähr L2K-Berechnungen durch. Beachten Sie, dass L manchmal ziemlich groß sein kann, sagen wir 10s von Millionen oder sogar Milliarden (menschliche DNA besteht aus etwa 3-4 Milliarden Nukleinsäuren).

Korrektheit: Der obige Algorithmus funktioniert nur, wenn das K-Mer mindestens einmal in der DNA-Sequenz korrekt (ohne Fehlanpassungen) erscheint. Obwohl dies nicht notwendig ist, ist dies in der Praxis normalerweise der Fall. Dies ist bei vielen Algorithmen in der Bioinformatik der Fall, wobei ein Algorithmus nicht immer optimale Ergebnisse liefert, aber in der Praxis recht gut funktioniert.

Schreibe einen Kommentar

Deine E-Mail-Adresse wird nicht veröffentlicht.