geconserveerde sequenties

in dit artikel zullen we het concept van geconserveerde sequenties introduceren en ook hun biologische significantie beschrijven. Dan zullen we zien hoe we het probleem van het vinden van geconserveerde sequenties kunnen reduceren tot het probleem van het vinden van de meest voorkomende K-mer in een bepaalde sequentie en het probleem verder herzien om mismatches te verwerken, om ons probleem biologisch aannemelijker te maken. Tot slot zien we een eenvoudig algoritme om het K-mer probleem op te lossen met mismatches.

in de evolutionaire biologie en genetica verwijzen geconserveerde sequenties naar identieke of soortgelijke sequenties van DNA of RNA of aminozuren (eiwitten) die in verschillende of dezelfde soorten over generaties voorkomen. Deze sequenties vertonen zeer minimale veranderingen in hun samenstelling of soms geen veranderingen in alle generaties.

het volgende voorbeeld laat zien hoe behoud van sequenties tussen soorten er eigenlijk uitziet:

In dit beeld kijken we naar de aminozuurvolgorde van Histon-eiwitten van zoogdieren en hun geconserveerde gebieden. Die in het grijs worden bewaard in alle soorten, terwijl we de gaten in het wit zien die de neiging hebben om over verschillende soorten te veranderen.

veelvoorkomende voorbeelden van geconserveerde sequenties zijn:,

  • translation and transcript related sequenties which are found conserved in the genome at multiple places
  • bepaalde RNA-componenten in ribosomen blijken zeer geconserveerd te zijn over verschillende species
  • tmRNA wordt gevonden in meerdere bacteriesoorten
  • andere voorbeelden zoals Tata (repetitieve gebieden) en homeoboxen (betrokken bij het reguleren van embryonale ontwikkeling in een breed scala van species).

Conserved Domains database beschikbaar op NCBI heeft uitgebreide bronnen over geconserveerde sequenties in verschillende organismen en genomen. Het gebruikt eiwitspecifieke het noteren matrices om behouden opeenvolgingen te identificeren.

geconserveerde sequenties kunnen worden onderverdeeld in twee hoofdcategorieën, orthologe en paralogus. Een behouden opeenvolging wordt genoemd orthologe wanneer de identieke opeenvolgingen over species worden gevonden en het wordt genoemd paralogous wanneer de identieke opeenvolgingen binnen hetzelfde genoom over generaties worden gevonden.

voorbeeld van orthologe geconserveerde sequenties: Een onderzoek naar genomen van gewervelde, worm, insect en een gist genoom (PubMed Centrale PMCID:PMC1182216) gevonden behouden elementen over genoom brede uitlijningen van 5 soorten van gewervelde dieren (mens, rat, muis, kip en Fugu rubripes), 2 soorten van Caenorhabditis en 7 soorten Saccharomyces. Het behouden element dat werd geanalyseerd werd gevonden om 3% -8% van het menselijke genoom en wezenlijk hogere fracties van compactere Drosophila melanogaster (37% -53%), Caenorhabditis elegans(18% -37%), en Saccharoaomyces cerevisiae (47% -68%) genomen te zijn.

voorbeeld van paralogeuze geconvergeerde sequenties: sequenties van DNA in het hemoglobinegen bij mensen blijken identiek te zijn op meerdere plaatsen op het genoom en de myoglobine-sequentie bij chimpansees.

we zien vaak gevallen van extreme conservering van nucleïnezuur-of aminozuursequenties, deze worden ultra-geconserveerde sequenties genoemd. Bijvoorbeeld, zijn bepaalde opeenvolgingen in gewervelde dieren gevonden in wijd verschillende taxas die drastisch variëren. In een ander geval hebben wij universeel behouden opeenvolgingen die uit bijna alle organismen bestaan, zijn de voorbeelden van dergelijke opeenvolgingen GTP bindende elongatiefactor, ribosomal RNA ‘s en tRNA’ s, enz.

significantie van geconserveerde sequenties

geconserveerde sequenties die in verschillende genomen worden gevonden, kunnen zowel coderende sequenties als niet-coderende sequenties zijn. Als codageopeenvolgingen, worden aminozuren en nucleic zuren vaak behouden om de structuur en de functie van een bepaalde proteã ne te behouden. Deze opeenvolgingen ondergaan minimale veranderingen. Wanneer de veranderingen gebeuren, vervangen zij gewoonlijk een aminozuur of nucleïnezuur met één die biochemisch gelijkaardig is. Op dezelfde manier worden andere mRNA verwante nucleic zure opeenvolgingen vaak behouden. De niet codageopvolgingen, zoals ribosomen plaatsen, transcriptional factoren, bandplaats, enz., zijn ook behouden opeenvolgingen.

computationele significantie

geconserveerde sequenties helpen ons homologie (gelijkenis) te vinden tussen verschillende organismen en soorten. De Phylogenetic verhoudingen en de bomen konden worden ontwikkeld en de efficiënte voorouders konden worden gevonden gebruikend de gegevens over behouden opeenvolgingen. Een gemeenschappelijk voorbeeld is de behouden opeenvolging “16S RNA” die wordt gebruikt om phylogenetic verhouding tussen diverse bacteriële phyla te reconstrueren.

geconserveerde sequentie kan ook worden gebruikt om de oorsprong van genetische aandoeningen en mutaties te markeren. Door het vergelijken van genomen die een bepaalde behouden opeenvolging gemeenschappelijk voor hen hebben kunnen wij gemakkelijk anomalieën identificeren, om het even welke bestaan.

Conversed sequenties vinden met K-mers

In deze sectie zullen we zien hoe gegeven een sectie van een enkel DNA, hoe we korte behouden sequenties kunnen vinden. De geconserveerde sequenties die we zoeken worden regulerende motieven genoemd. Regulerende motieven zijn korte DNA-segmenten (zeg 15-30 nucleïnezuren) die de expressie van genen controleren, dat wil zeggen hoe vaak een gen wordt getranscribeerd, en dus hoeveel van het overeenkomstige eiwit wordt geproduceerd.

K-mers zijn substrings met lengte k die worden gevonden in de invoerstring. In het geval van computationele genomica, vertegenwoordigt de inputreeks een opeenvolging van aminozuren of nucleic zuren. Bijvoorbeeld 5-mers verwijzen naar substrings van lengte 5, en 7-mers verwijzen naar substrings van lengte 7.

het meest voorkomende K-mers-probleem

het probleem van het vinden van korte bewaarde sequenties wordt als volgt weergegeven. Gezien de inputvolgorde van aminozuren of nucleic zuren, vind de K-mer die het vaakst voorkomt. Laten we een voorbeeld nemen

we hebben de volgende gegevens,

INPUT:

Sequence: ACGTTGCATGTCGCATGATGCATGAGAGCT

K = 4

verwacht resultaat:

meest voorkomende 4-mer uit de input sequence.

voorbeeld:

we kunnen schuifraamtechniek gebruiken om alle K-mers te vinden. Laat het ons noteer de k-mers,

ACGT : CGTT : GTTG : TTGC : TGCA : GCAT : CATG : ATGT : TGTC : GTCG : TCGC : CGCA : GCAT : CATG : ATGA : TGAT : GATG : ATGC : TGCA : GCAT : CATG : ATGA : TGAG : GAGA : AGAG : GAGC : AGCT

In dit voorbeeld zien we dat 4-mers CATG en GCAT zijn de meest voorkomende 4-mers, als ze verschijnen 3 keer elk.

het toestaan van Mismatches in K-mers

echter, uit experimenten in de biologie, hebben we ontdekt dat het mogelijk is dat geconserveerde sequenties kleine veranderingen ondergaan. Als zodanig moeten we het bovenstaande probleem besteden om mismatches aan te pakken.

bijvoorbeeld, ATCCGAT en ATCGGAA hebben 2 mismatches, één op positie 4 en een andere op positie 7. Laten we eens kijken hoe we het probleem kunnen definiëren van het vinden van de meest voorkomende k-mers met inachtneming van mismatches.

INPUT:

sequentie: ACGTTGCATGTCGCATGATGCATGAGAGCT

K = 4, d = 1

verwacht resultaat:

meest voorkomende 4-mers met inachtneming van 1 mismatch per K-mer.

voorbeeld:

we hebben dezelfde voorbeeldreeks gebruikt als in het vorige probleem. Daarom is de lijst voor alle mogelijke 4-mers ongewijzigd. Ze waren als volgt:

ACGT : CGTT : GTTG : TTGC : TGCA : GCAT : CATG : ATGT : TGTC : GTCG : TCGC : CGCA : GCAT : CATG : ATGA : TGAT : GATG : ATGC : TGCA : GCAT : CATG : ATGA : TGAG : GAGA : AGAG : GAGC : AGCT

Echter, onze uiteindelijke resultaat zal veranderen als we nu rekening moeten houden met alle mogelijkheden met 1 mismatch toegestaan.

als we GATG bijvoorbeeld nemen, zijn er 5 k-MER ‘ s in de bovenstaande reeks die overeenkomen met GATG waardoor één mismatch mogelijk is, d.w.z. GTTG, CATG, CATG, GATG en CATG. Op dezelfde manier zijn er ook 5 overeenkomende k-mers voor ATGC en ATGT. Vandaar, ons resultaat voor de meest frequente k-mers met rekening voor 1 mismatch zijn GATG, ATGC (matches TTGC, ATGT, ATGA, ATGC, ATGA) en ATGT (matches ACGT, ATGT, ATGA, ATGC, ATGA).

stap-voor-stap algoritme voor het K-mers-probleem

het volgende is een eenvoudige procedure om het bovenstaande probleem op te lossen:-

  • Maak een lijst L van alle K-mers in de originele string
  • Voor elke K-mer X in de oorspronkelijke tekenreeks
    • Beschouw elke K-mer Y in de oorspronkelijke tekenreeks
      • tel het aantal mismatches m tussen X en Y
      • Als m <= d, dan verhogen de score van X door 1
  • Resultaat = K-mer X met de hoogste score

Rekenkundige Rendement: Als de oorspronkelijke lengte van de string is van L, dan is het algoritme doet over L2K berekeningen. Merk op dat L soms vrij groot kan zijn, zeg 10s van miljoenen of zelfs miljarden (menselijk DNA bestaat uit ongeveer 3-4 miljard nucleïnezuren).

juistheid: het bovenstaande algoritme werkt alleen als de K-mer ten minste één keer in de DNA-sequentie correct wordt weergegeven (zonder mismatches). Hoewel dit niet nodig is, is dit in de praktijk meestal het geval. Dit is het geval voor veel algoritmen in de bio-informatica, waarbij een algoritme niet altijd optimale resultaten oplevert, maar in de praktijk best goed werkt.

Geef een antwoord

Het e-mailadres wordt niet gepubliceerd.