Konserverte Sekvenser
i denne artikkelen vil vi introdusere begrepet konserverte sekvenser og også beskrive deres biologiske betydning. Deretter ser vi hvordan vi kan redusere problemet med å finne konserverte sekvenser til problemet med å finne mest vanlige K-mer i en gitt rekkefølge og videre revidere problemet for å håndtere uoverensstemmelser, for å gjøre vårt problem mer biologisk plausibelt. Til slutt ser vi en enkel algoritme for å løse k-mer-problemet med feilmatcher.
i evolusjonsbiologi og genetikk refererer konserverte sekvenser til identiske eller lignende sekvenser AV DNA ELLER RNA eller aminosyrer (proteiner) som forekommer i forskjellige eller samme arter over generasjoner. Disse sekvensene viser svært små endringer i sammensetningen eller noen ganger ingen endringer i det hele tatt over generasjoner.
følgende eksempel viser hvordan bevaring av sekvenser på tvers av arter faktisk ser ut:
i dette bildet ser vi på aminosyresekvensen av pattedyrs histonproteiner og deres konserverte regioner. De som er angitt i grått, er bevart i alle artene mens vi ser hullene i hvitt som har en tendens til å forandre seg over forskjellige arter.
Vanlige eksempler på konserverte sekvenser inkluderer,
- oversettelse og transkripsjon relaterte sekvenser som er funnet konservert i genomet på flere steder
- visse rna komponenter i ribosomer er funnet å være svært konservert over ulike arter
- tmRNA er funnet å være konservert i flere bakteriearter
- andre eksempler SOM TATA (repeterende regioner) og homeoboxes (involvert i å regulere embryonal utvikling i et bredt spekter av arter).
Konserverte Domener database tilgjengelig PÅ NCBI har omfattende ressurser på konserverte sekvenser i ulike organismer og genomer. Den bruker protein spesifikke scoring matriser for å identifisere konserverte sekvenser.
Konserverte sekvenser kan kategoriseres i to hovedkategorier, orthologe og paralogøse. En konservert sekvens kalles orthologe når identiske sekvenser er funnet på tvers av arter og det kalles paralogous når identiske sekvenser er funnet innenfor samme genom over generasjoner.
eksempel på orthologe konserverte sekvenser: En forskning på genomer av virveldyr, orm, insekt og en gjær genom (PubMed Central Pmcid:PMC1182216) funnet konserverte elementer over genomet brede justeringer av 5 arter av virveldyr (menneske, rotte, mus, kylling og Fugu rubripes), 2 arter Av Caenorhabditis og 7 arter Av Saccharomyces. Det konserverte elementet som ble analysert ble funnet å være 3%-8% av det humane genomet og vesentlig høyere fraksjoner av de mer kompakte Drosophila melanogaster(37% -53%), Caenorhabditis elegans (18% -37%) og Saccharaomyces cerevisiae (47% -68%) genomene.
Eksempel på paralogøse konvervede sekvenser: Sekvenser AV DNA i hemoglobin-genet hos mennesker er funnet å være identiske på flere steder på genomet og myoglobin-gensekvensen hos sjimpanser.
vi ser ofte tilfeller av ekstrem bevaring av nukleinsyre eller aminosyresekvenser, disse kalles ultra konserverte sekvenser. For eksempel har visse sekvenser hos vertebrater blitt funnet i vidt forskjellige taxas varierende drastisk. I et annet tilfelle har vi universelt konserverte sekvenser som består av nesten alle organismer, eksempler på slike sekvenser ER GTP bindende forlengelse faktor, ribosomal RNA og tRNA, etc.
Betydningen Av Konserverte Sekvenser
Konserverte sekvenser funnet i forskjellige genomer kan være enten kodende sekvenser eller ikke-kodende sekvenser. Som kodende sekvenser blir aminosyrer og nukleinsyrer ofte konservert for å beholde strukturen og funksjonen til et bestemt protein. Disse sekvensene gjennomgår minimale endringer. Når endringer skjer, erstatter de vanligvis en aminosyre eller nukleinsyre med en som er biokjemisk lik. På samme måte blir andre mRNA-relaterte nukleinsyresekvenser ofte konservert. Ikke-kodende sekvenser, som ribosomer, transkripsjonsfaktorer, bindingssted, etc, er også konserverte sekvenser.
Beregningsmessig Betydning
Konserverte sekvenser hjelper oss med å finne homologi (likhet) mellom ulike organismer og arter. Fylogenetiske relasjoner og trær kan utvikles og effektiv herkomst kan bli funnet ved hjelp av data på konserverte sekvenser. Et vanlig eksempel er den konserverte sekvensen “16S RNA” som brukes til å rekonstruere fylogenetisk forhold mellom ulike bakterielle phyla.
Konservert sekvens kan også brukes til å markere opprinnelsen til genetiske lidelser og mutasjoner. Ved å sammenligne genomer som har en viss konservert sekvens som er felles for dem, kan vi enkelt identifisere anomalier, noen eksisterer.
Finne Konverserte Sekvenser med K-mers
I denne delen vil vi se hvordan gitt en del AV et ENKELT DNA, hvordan vi kan finne korte konserverte sekvenser. De konserverte sekvensene vi leter etter kalles regulatoriske motiver. Regulatoriske motiver er korte DNA-segmenter (for eksempel 15-30 nukleinsyrer) som styrer uttrykket av gener, dvs. hvor mange ganger et gen transkriberes, og dermed hvor mye av det tilsvarende proteinet som produseres.
K-mere er delstrenger med lengde k som finnes i inngangsstrengen. Ved beregningsgenomikk representerer inngangsstrengen en sekvens av aminosyrer eller nukleinsyrer. For eksempel 5-mers refererer til delstrenger av lengde 5, og 7-mers refererer til delstrenger av lengde 7.
Hyppigste K-mers Problem
vi rammer problemet med å finne korte konserverte sekvenser som følger. Gitt inngangssekvensen av aminosyrer eller nukleinsyrer, finn K-mer som forekommer hyppigst. La oss ta et eksempel
Vi har følgende data,
INNGANG:
Sekvens: ACGTTGCATGTCGCATGATGCATGAGAGCT
k = 4
FORVENTET RESULTAT:
Hyppigst forekommende 4-mer fra inngangssekvensen.
EKSEMPEL:
vi kan bruke glidende vindu teknikk for å finne Alle K-mers. La oss notere ned alle k-mers,
ACGT : CGTT : GTTG : TTGC : TGCA : GCAT : CATG : TGTC : GTCG : TCGC : CGCA : GCAT : CATG : ATGA : TGAT : GATG : ATGC : tgca : GCAT : CATG : ATGA : TGAG : GAGA : AGAG : GAGC : AGCT
i dette eksemplet ser vi at 4-mers catg og gcat er DE HYPPIGST FOREKOMMENDE 4-MERS, DA DE VISES 3 GANGER HVER.
Tillater Uoverensstemmelser I K-mers
men fra eksperimenter i biologi har vi funnet ut at det er mulig for konserverte sekvenser å gjennomgå mindre endringer. Som sådan må vi bruke problemet ovenfor for å håndtere uoverensstemmelser.
FOR eksempel har ATCCGAT og ATCGGAA 2 uoverensstemmelser, en i posisjoner 4 og en annen i posisjon 7. La oss se hvordan vi kan definere problemet med å finne hyppigste k-mers med tillatelse for uoverensstemmelser.
INNGANG:
Sekvens: ACGTTGCATGTCGCATGATGCATGAGAGCT
K = 4, d = 1
FORVENTET RESULTAT:
Hyppigste 4-mers med tillatelse for 1 mismatch per K-mer.
EKSEMPEL:
Vi har tatt samme eksempelsekvens som i forrige problem. Derfor er listen for alle mulige 4-mers uendret. De var som følger:
ACGT : CGTT : GTTG : TTGC : TGCA : GCAT : CATG : ATGT : TGTC : GTCG : TCGC : CGCA : GCAT : CATG : ATGA : TGAT : GATG : ATGC : tgca : GCAT : CATG : ATGA : TGAG : GAGA : AGAG : GAGC : AGCT
men vår sluttresultatet vil endres som nå må vi ta hensyn til alle muligheter med 1 mismatch TILLATT.
hvis VI tar GATG for eksempel, er det 5 k-mers i ovennevnte rekkefølge som samsvarer MED GATG, noe SOM gir en mismatch, dvs. GTTG, CATG, CATG, GATG og CATG. På samme måte er det 5 matchende k-mers FOR ATGC og ATGT også. Derfor er vårt resultat for de hyppigste k-mers med tillatelse til 1 mismatch GATG, ATGC (kamper TTGC, ATGT, atga, ATGC, ATGA) og ATGT (kamper ACGT, ATGT, ATGA, ATGC, ATGA).
Steg-For-Trinns Algoritme For K-mers-problemet
følgende er en enkel prosedyre for å løse problemet ovenfor:-
- Lag liste L av alle K-mere i den opprinnelige strengen
- For Hver K-Mer X i den opprinnelige strengen
- Vurder hver K-Mer Y i den opprinnelige strengen
- Tell antall uoverensstemmelser m Mellom X Og Y
- hvis m <= d, så øk poengsummen På X ved å 1
- Resultat = K – Mer X med høyest poengsum
Beregningseffektivitet: hvis den opprinnelige lengden På strengen Er L, gjør algoritmen OM l2k-beregninger. Merk At L Kan Noen Ganger være ganske stor, si 10s av millioner eller milliarder (menneskelig DNA har består av ca 3-4 milliarder nukleinsyrer).
Korrekthet: ovennevnte algoritme fungerer bare hvis k-mer vises riktig (uten feilmatcher) minst en GANG i DNA-sekvensen. Selv om dette ikke er nødvendig, er dette i praksis vanligvis tilfelle. Dette er tilfellet for mange algoritmer i bioinformatikk, hvor en algoritme ikke er bevist å gi optimale resultater hele tiden, men i praksis fungerer det ganske bra.