konserverade sekvenser

i den här artikeln introducerar vi begreppet konserverade sekvenser och beskriver också deras biologiska betydelse. Sedan ser vi hur vi kan minska problemet med att hitta konserverade sekvenser till problemet med att hitta vanligaste K-meren i en given sekvens och ytterligare revidera problemet för att hantera felaktigheter, för att göra vårt problem mer biologiskt troligt. Slutligen ser vi en enkel algoritm för att lösa K-Mer-problemet med felaktigheter.

i evolutionär biologi och genetik hänvisar konserverade sekvenser till identiska eller liknande sekvenser av DNA eller RNA eller aminosyror (proteiner) som förekommer i olika eller samma arter över generationer. Dessa sekvenser visar mycket minimala förändringar i deras sammansättning eller ibland inga förändringar alls över generationer.

följande exempel visar hur bevarande av sekvenser över arter faktiskt ser ut:

i denna bild tittar vi på aminosyrasekvensen av däggdjurshiston proteiner och deras konserverade regioner. De som anges i grått bevaras i alla arter medan vi ser luckorna i vitt som tenderar att förändras över olika arter.

vanliga exempel på konserverade sekvenser inkluderar,

  • översättnings-och transkriptionsrelaterade sekvenser som finns bevarade i genomet på flera ställen
  • vissa RNA-komponenter i ribosomer har visat sig vara mycket konserverade över olika arter
  • tmRNA har visat sig bevaras i flera bakteriearter
  • andra exempel som TATA (repetitiva regioner) och homeoboxes (involverade i reglering av embryonal utveckling i ett brett spektrum av arter).

konserverade domäner databas tillgänglig på NCBI har omfattande resurser på konserverade sekvenser i olika organismer och genom. Den använder proteinspecifika poängmatriser för att identifiera konserverade sekvenser.

konserverade sekvenser kan kategoriseras i två huvudkategorier, orthologous och paralogous. En konserverad sekvens kallas orthologous när identiska sekvenser finns över arter och det kallas paralogous när identiska sekvenser finns inom samma genom över generationer.

exempel på ortologa konserverade sekvenser: En forskning om Genom av ryggradsdjur, maskar, insekter och ett jästgenom (PubMed Central PMCID:PMC1182216) hittade konserverade element över genombredda anpassningar av 5 arter av ryggradsdjur (människa, råtta, mus, kyckling och Fugu-rubriker), 2 arter av Caenorhabditis och 7 arter av Saccharomyces. Det konserverade elementet som analyserades befanns vara 3% -8% av det mänskliga genomet och väsentligt högre fraktioner av de mer kompakta Drosophila melanogaster (37% -53%), Caenorhabditis elegans(18% -37%) och Saccharaomyces cerevisiae (47% -68%) genom.

exempel på paralogösa konverterade sekvenser: sekvenser av DNA i hemoglobingen hos människor visar sig vara identiska på flera ställen på genomet och myoglobingensekvensen i schimpanser.

vi ser ofta fall av extrem bevarande av nukleinsyra eller aminosyrasekvenser, dessa kallas ultrakonserverade sekvenser. Till exempel har vissa sekvenser hos ryggradsdjur hittats i mycket olika taxor som varierar drastiskt. I ett annat fall har vi universellt konserverade sekvenser som består av nästan alla organismer, exempel på sådana sekvenser är GTP-bindande förlängningsfaktor, ribosomala RNA och tRNA, etc.

betydelsen av konserverade sekvenser

konserverade sekvenser som finns i olika Genom kan vara antingen kodande sekvenser eller icke-kodande sekvenser. Som kodande sekvenser bevaras aminosyror och nukleinsyror ofta för att behålla strukturen och funktionen hos ett visst protein. Dessa sekvenser genomgår minimala förändringar. När förändringar inträffar ersätter de vanligtvis en aminosyra eller nukleinsyra med en som är biokemiskt likartad. På liknande sätt bevaras ofta andra mRNA-relaterade nukleinsyrasekvenser. Icke-kodande sekvenser, som ribosomer platser, transkriptionsfaktorer, bindningsstället, etc, är också konserverade sekvenser.

Beräkningsbetydelse

konserverade sekvenser hjälper oss att hitta homologi (likhet) mellan olika organismer och arter. Fylogenetiska förhållanden och träd kunde utvecklas och effektiva anor kunde hittas med hjälp av data om konserverade sekvenser. Ett vanligt exempel är den konserverade sekvensen” 16S RNA ” som används för att rekonstruera fylogenetiskt förhållande mellan olika bakteriella phyla.

konserverad sekvens kan också användas för att markera uppkomsten av genetiska störningar och mutationer. Genom att jämföra genom som har en viss bevarad sekvens som är gemensam för dem kan vi enkelt identifiera avvikelser, alla existerar.

hitta konverserade sekvenser med K-mers

i det här avsnittet kommer vi att se hur givet ett avsnitt av ett enda DNA, hur vi kan hitta korta konserverade sekvenser. De bevarade sekvenserna vi letar efter kallas regleringsmotiv. Regulatoriska motiv är korta DNA-segment (säg 15-30 nukleinsyror) som styr uttrycket av gener, dvs hur många gånger en gen transkriberas och därmed hur mycket av motsvarande protein som produceras.

K-mers är delsträngar med längd k som finns i inmatningssträngen. Vid beräkningsgenomik representerar ingångssträngen en sekvens av aminosyror eller nukleinsyror. Till exempel 5-mers hänvisar till substrings av längd 5, och 7-mers hänvisar till substrings av Längd 7.

vanligaste K-mers-problemet

vi ramar in problemet med att hitta korta konserverade sekvenser enligt följande. Med tanke på ingångssekvensen för aminosyror eller nukleinsyror, hitta K-meren som förekommer oftast. Låt oss ta ett exempel

vi har följande data,

ingång:

sekvens: ACGTTGCATGTCGCATGATGCATGAGAGCT

k = 4

förväntat resultat:

oftast förekommande 4-Mer från ingångssekvensen.

exempel:

vi kan använda skjutfönster teknik för att hitta alla K-mers. Låt oss notera alla k-mers,

ACGT : CGTT : GTTG : TTGC : TGCA : GCAT : CATG : ATGT : TGTC : GTCG : TCGC : CGCA : GCAT : CATG : ATGA : TGAT : GATG : ATGC : TGCA : GCAT : CATG : ATGA : TGAG : GAGA : AGAG : GAGC : AGCT

i det här exemplet ser vi att 4-Mers catg och gcat är de vanligaste 4-Mers, eftersom de visas 3 gånger vardera.

tillåter felaktigheter i K-mers

men från experiment i biologi har vi upptäckt att det är möjligt för konserverade sekvenser att genomgå mindre förändringar. Som sådan måste vi använda ovanstående problem för att hantera felaktigheter.

till exempel har ATCCGAT och ATCGGAA 2 missmatchningar, en vid positioner 4 och en annan vid position 7. Låt oss se hur vi kan definiera problemet med att hitta de vanligaste k-mers med hänsyn till felaktigheter.

ingång:

sekvens: ACGTTGCATGTCGCATGATGCATGAGAGCT

K = 4, d = 1

förväntat resultat:

mest frekventa 4-mers med hänsyn till 1 mismatch per K-mer.

exempel:

vi har tagit samma exempelsekvens som i föregående problem. Därför är listan för alla möjliga 4-mers oförändrad. De var följande:

ACGT : CGTT : GTTG : TTGC : TGCA : GCAT : CATG : ATGT : TGTC : GTCG : TCGC : CGCA : GCAT : CATG : ATGA : TGAT : GATG : ATGC : TGCA : GCAT : CATG : ATGA : TGAG : GAGA : AGAG : GAGC : AGCT

emellertid, vårt slutresultat kommer att förändras eftersom vi nu måste ta hänsyn till alla möjligheter med 1 felaktig matchning tillåten.

om vi tar GATG till exempel finns det 5 k-mers i ovanstående sekvens som matchar GATG vilket möjliggör en missanpassning, dvs GTTG, CATG, CATG, GATG och CATG. På samma sätt finns det 5 matchande k-mers för ATGC och ATGT också. Därför är vårt resultat för de vanligaste k-mers med ersättning för 1 mismatch GATG, ATGC (matchar TTGC, ATGT, ATGA, ATGC, ATGA) och ATGT (matchar ACGT, ATGT, ATGA, ATGC, ATGA).

steg-för-steg-algoritm för K-mers-problemet

följande är ett enkelt förfarande för att lösa ovanstående problem:-

  • Skapa lista L över alla K-mers i originalsträngen
  • för varje K-Mer X i originalsträngen
    • Tänk på varje K-Mer Y i originalsträngen
      • räkna antalet missmatchningar m mellan X och Y
      • om m < = d, öka sedan poängen X med 1
  • resultat = K-Mer X med högsta poäng

Beräkningseffektivitet: om strängens ursprungliga längd är L, gör algoritmen om L2K-beräkningar. Observera att L ibland kan vara ganska stor, säger 10s miljoner eller till och med miljarder (humant DNA har består av ca 3-4 miljarder nukleinsyror).

korrekthet: ovanstående algoritm fungerar bara om K-meren visas korrekt (utan några avvikelser) minst en gång i DNA-sekvensen. Även om detta inte är nödvändigt, är det i praktiken vanligtvis fallet. Detta är fallet för många algoritmer inom bioinformatik, varigenom en algoritm inte bevisas ge optimala resultat hela tiden, men i praktiken fungerar det ganska bra.

Lämna ett svar

Din e-postadress kommer inte publiceras.