Konserverede sekvenser: deres biologiske betydning og K-mer Findingsproblemet / CommonLounge

i denne artikel introducerer vi begrebet konserverede sekvenser og beskriver også deres biologiske betydning. Derefter vil vi se, hvordan vi kan reducere problemet med at finde konserverede sekvenser til problemet med at finde mest almindelige K-mer i en given sekvens og yderligere revidere problemet for at håndtere uoverensstemmelser for at gøre vores problem mere biologisk plausibelt. Endelig ser vi en simpel algoritme til at løse K-mer-problemet med uoverensstemmelser.

i evolutionær biologi og genetik henviser konserverede sekvenser til identiske eller lignende sekvenser af DNA eller RNA eller aminosyrer (proteiner), der forekommer i forskellige eller samme arter gennem generationer. Disse sekvenser viser meget minimale ændringer i deres sammensætning eller undertiden ingen ændringer overhovedet gennem generationer.

følgende eksempel viser, hvordan bevarelse af sekvenser på tværs af arter faktisk ser ud:

i dette billede ser vi på aminosyresekvensen af pattedyrshistonproteiner og deres konserverede regioner. De, der er angivet i gråt, bevares i alle arter, mens vi ser hullerne i hvidt, som har tendens til at ændre sig over forskellige arter.

almindelige eksempler på konserverede sekvenser inkluderer,

translations-og transkriptionsrelaterede sekvenser, der findes konserveret i genomet flere steder
visse RNA-komponenter i ribosomer findes at være stærkt konserveret over forskellige arter
tmRNA findes at være konserveret i flere bakteriearter
andre eksempler som TATA (gentagne regioner) og homeobokser (involveret i regulering af embryonal udvikling i en lang række arter).

konserverede domæner database tilgængelig på NCBI har omfattende ressourcer på konserverede sekvenser i forskellige organismer og genomer. Det bruger proteinspecifikke scoringsmatricer til at identificere konserverede sekvenser.

konserverede sekvenser kan kategoriseres i to hovedkategorier, ortologe og paralogiske. En konserveret sekvens kaldes ortolog, når identiske sekvenser findes på tværs af arter, og den kaldes paralogøs, når identiske sekvenser findes inden for det samme genom gennem generationer.

eksempel på ortologe konserverede sekvenser: En undersøgelse af genomer af hvirveldyr, orm, insekt og et gærgenom (PubMed Central PMCID:PMC1182216) fandt konserverede elementer på tværs af genom brede justeringer af 5 arter af hvirveldyr (menneske, rotte, mus, kylling og Fugu rubripes), 2 arter af Caenorhabditis og 7 arter af Saccharomyces. Det konserverede element, der blev analyseret, viste sig at være 3% -8% af det humane genom og væsentligt højere fraktioner af de mere kompakte Drosophila melanogaster (37% -53%), Caenorhabditis elegans(18% -37%) og Saccharaomyces cerevisiae (47% -68%) genomer.

eksempel på paralogiske konververede sekvenser: DNA-sekvenser i hæmoglobingenet hos mennesker findes at være identiske flere steder på genomet og myoglobingensekvensen hos chimpanser.

vi ser ofte tilfælde af ekstrem konservering af nukleinsyre eller aminosyresekvenser, disse kaldes ultrakonserverede sekvenser. For eksempel, visse sekvenser hos hvirveldyr er fundet i vidt forskellige skatter, der varierer drastisk. I et andet tilfælde har vi universelt konserverede sekvenser, der består af næsten alle organismer, eksempler på sådanne sekvenser er GTP-bindingsforlængelsesfaktor, ribosomale RNA ‘er og tRNA’ er osv.

Betydning af konserverede sekvenser
beregningsmæssig Betydning
find konverserede sekvenser med K-mers
hyppigste K-mers Problem
tillader mismatch i K-mers
trin-for-trin algoritme til K-mers-problemet

Betydning af konserverede sekvenser

konserverede sekvenser fundet i forskellige genomer kan enten være kodende sekvenser eller ikke-kodende sekvenser. Som kodende sekvenser bevares aminosyrer og nukleinsyrer ofte for at bevare strukturen og funktionen af et bestemt protein. Disse sekvenser gennemgår minimale ændringer. Når der sker ændringer, erstatter de normalt en aminosyre eller nukleinsyre med en, der er biokemisk ens. Tilsvarende bevares andre mRNA-relaterede nukleinsyresekvenser ofte. Ikke-kodende sekvenser, som ribosomer, transkriptionsfaktorer, bindingssted osv., er også konserverede sekvenser.

beregningsmæssig Betydning

konserverede sekvenser hjælper os med at finde homologi (lighed) mellem forskellige organismer og arter. Fylogenetiske forhold og træer kunne udvikles, og effektiv herkomst kunne findes ved hjælp af dataene om konserverede sekvenser. Et almindeligt eksempel er den konserverede sekvens “16S RNA”, som bruges til at rekonstruere fylogenetisk forhold mellem forskellige bakteriefyler.

konserveret sekvens kan også bruges til at markere oprindelsen af genetiske lidelser og mutationer. Ved at sammenligne genomer, der har en bestemt bevaret sekvens, der er fælles for dem, kan vi let identificere anomalier, der findes.

find konverserede sekvenser med K-mers

i dette afsnit vil vi se, hvordan givet et afsnit af et enkelt DNA, hvordan vi kan finde korte konserverede sekvenser. De konserverede sekvenser, vi leder efter, kaldes regulatoriske motiver. 15-30 nukleinsyrer), som styrer ekspressionen af gener, dvs.hvor mange gange et gen transkriberes, og dermed hvor meget af det tilsvarende protein der produceres.

K-mers er understrenge af længde k, der findes i inputstrengen. I tilfælde af beregningsgenomik repræsenterer inputstrengen en sekvens af aminosyrer eller nukleinsyrer. For eksempel henviser 5-mers til understrenge med længde 5, og 7-mers henviser til understrenge med Længde 7.

hyppigste K-mers Problem

vi rammer problemet med at finde korte konserverede sekvenser som følger. I betragtning af inputsekvensen af aminosyrer eller nukleinsyrer skal du finde den K-mer, der forekommer hyppigst. Lad os tage et eksempel

vi har følgende data,

INPUT:

sekvens: ACGTTGCATGTCGCATGGAGAGCT

k = 4

forventet resultat:

hyppigst forekommende 4-mer fra indgangssekvensen.

eksempel:

vi kan bruge glidende vindueteknik til at finde alle K-mers. Lad os notere alle k-mers,

ACGT : CGTT : GTTG : TTGC : TGCA : GCAT : CATG : ATGT : TGTC : GTCG : TCGC : CGCA : GCAT : atga : TGAT : GATG : ATGC : TGCA : GGCA : GCAT : CATG : atga : TGAG : GAGA : AGAG : GAGC : AGCT

i dette eksempel ser vi, at 4-mers catg og GCAT er de hyppigst forekommende 4-MERS, da de vises 3 gange hver.

tillader mismatch i K-mers

men fra eksperimenter i biologi har vi fundet ud af, at det er muligt for konserverede sekvenser at gennemgå mindre ændringer. Som sådan er vi nødt til at bruge ovenstående problem til at håndtere uoverensstemmelser.

for eksempel har ATCCGAT og atcggaa 2 uoverensstemmelser, en i position 4 og en anden i position 7. Lad os se, hvordan vi kan definere problemet med at finde hyppigste k-mers med godtgørelse for uoverensstemmelser.

INPUT:

sekvens: ACGTTGCATGTCGCATGGAGAGCT

K = 4, D = 1

forventet resultat:

hyppigste 4-mers med Tillæg for 1 mismatch pr K-mer.

eksempel:

vi har taget den samme eksempelsekvens som i det foregående problem. Derfor er listen for alle mulige 4-mers uændret. De var som følger:

ACGT : CGTT : GTTG : TTGC : TGCA : GCAT : CATG : ATGT : TGTC : GTCG : TCGC : CGCA : GCAT : atga : TGAT : GATG : ATGC : TGCA : GCAT : CATG : atga : TGAG : GAGA : AGAG : GAGC : AGCT

vores endelige resultat vil dog ændre sig, da vi nu skal tage højde for alle muligheder med 1 mismatch tilladt.

hvis vi tager GATG for eksempel, er der 5 K-mers i ovenstående sekvens, der matcher GATG, hvilket giver mulighed for en uoverensstemmelse, dvs.GTTG, CATG, CATG, GATG og CATG. Tilsvarende er der også 5 matchende k-mers til atgc og atgt. Derfor er vores resultat for de hyppigste k-mers med tillæg til 1 mismatch gatg, atgc (matcher TTGC, atgt, atga, atgc, ATGA) og atgt (matcher ACGT, atgt, atga, atgc, atga).

trin-for-trin algoritme til K-mers-problemet

følgende er en simpel procedure til løsning af ovenstående problem:-

Opret liste L over alle K-mers i den originale streng
for hver K-mer i den originale streng

overvej hver K-mer Y i den originale streng

Tæl antallet af uoverensstemmelser m mellem H og Y
hvis m <= d, øg derefter score på 1

resultat = K-mer med højeste score

Beregningseffektivitet: hvis den oprindelige længde af strengen er L, så gør algoritmen om L2K beregninger. Bemærk, at L nogle gange kan være ret stor, siger 10s af millioner eller endda milliarder (humant DNA har består af omkring 3-4 milliarder nukleinsyrer).

korrekthed: ovenstående algoritme fungerer kun, hvis K-mer vises korrekt (uden uoverensstemmelser) mindst en gang i DNA-sekvensen. Selvom dette ikke er nødvendigt, er det i praksis normalt tilfældet. Dette er tilfældet for mange algoritmer inden for bioinformatik, hvorved en algoritme ikke bevises at give optimale resultater hele tiden, men i praksis fungerer den ganske godt.

konserverede sekvenser