säilyneet sekvenssit

tässä artikkelissa esittelemme säilyneiden sekvenssien käsitteen ja kuvaamme myös niiden biologisen merkityksen. Sitten näemme, miten voimme vähentää ongelmaa löytää säilyneitä sekvenssejä ongelmaan löytää yleisin K-mer tietyssä järjestyksessä ja edelleen tarkistaa ongelman käsitellä yhteensopimattomuuksia, jotta ongelmamme biologisesti uskottava. Lopuksi näemme yksinkertaisen algoritmin, joka ratkaisee k-mer-ongelman kohtaamattomuudella.

evoluutiobiologiassa ja genetiikassa säilyneillä sekvensseillä tarkoitetaan identtisiä tai samankaltaisia DNA-tai RNA-tai aminohapposekvenssejä (proteiineja), joita esiintyy eri tai samoilla lajeilla sukupolvien aikana. Nämä sekvenssit osoittavat hyvin vähäisiä muutoksia niiden koostumuksessa tai joskus ei muutoksia kaikissa sukupolvissa.

seuraava esimerkki osoittaa, miltä lajien välisten sekvenssien säilyminen todellisuudessa näyttää:

tässä kuvassa tarkastellaan nisäkkäiden histoniproteiinien aminohappojärjestystä ja niiden säilyneitä alueita. Ne, jotka on merkitty harmaalla, säilyvät kaikissa lajeissa, kun taas näemme valkoisen aukot, jotka yleensä muuttuvat eri lajeilla.

yleisiä esimerkkejä säilyneistä sekvensseistä ovat,

  • translaatio-ja transkriptioon liittyviä sekvenssejä, jotka ovat säilyneet genomissa useissa paikoissa
  • tietyt ribosomien RNA-komponentit, on havaittu säilyvän hyvin eri lajeilla
  • tmRNA: n on havaittu säilyvän useilla bakteerilajeilla
  • muita esimerkkejä, kuten TATA (toistuvat alueet) ja homeoboksit (jotka osallistuvat alkion kehityksen säätelyyn monilla lajeilla).

NCBI: n ylläpitämässä tietokannassa on runsaasti aineistoa eri eliöiden ja genomien säilyneistä sekvensseistä. Se käyttää proteiinispesifisiä pisteytysmatriiseja tunnistaakseen säilyneet sekvenssit.

säilyneet sekvenssit voidaan luokitella kahteen pääluokkaan, ortologiseen ja paralogiseen. Säilynyttä sekvenssiä kutsutaan ortologiseksi, kun eri lajeilla esiintyy identtisiä sekvenssejä, ja sitä kutsutaan paralogiseksi, kun saman genomin sisällä esiintyy sukupolvien aikana identtisiä sekvenssejä.

esimerkki ortologisista säilyneistä sekvensseistä: Selkärankaisten, matojen, hyönteisten ja hiivan genomien genomitutkimuksessa (PubMed Central Pmcid:PMC1182216) löydettiin säilyneitä elementtejä 5 selkärankaislajin (ihminen, rotta, hiiri, kana ja Fugu rubripes), 2 Caenorhabditis-lajin ja 7 Saccharomyces-lajin genomeista. Analysoidussa säilyneessä alkuaineessa todettiin olevan 3% -8% ihmisen genomista ja huomattavasti suuremmat fraktiot kompaktimmista Drosophila melanogaster (37% -53%), Caenorhabditis elegans(18% -37%) ja Saccharamyces cerevisiae (47% -68%) genomeista.

esimerkki paralogisista konvergenssisekvensseistä: ihmisen hemoglobiinigeenin DNA-sekvenssien on todettu olevan identtisiä useissa genomin ja simpanssien myoglobiinigeenin sekvenssin kohdissa.

näemme usein tapauksia, joissa nukleiinihappo-tai aminohapposekvenssit ovat äärimmäisen säilyneitä, näitä kutsutaan ultrakonservoituneiksi sekvensseiksi. Esimerkiksi selkärankaisten tiettyjä sekvenssejä on löydetty hyvin erilaisista taksoneista, jotka ovat vaihdelleet rajusti. Toisessa tapauksessa meillä on yleisesti säilyneitä sekvenssejä, jotka koostuvat lähes kaikista organismeista, esimerkkejä tällaisista sekvensseistä ovat GTP: tä sitova venymätekijä, ribosomaalinen RNA: n ja tRNA: n jne.

eri genomeissa olevien säilyneiden sekvenssien merkitys

säilyneet sekvenssit voivat olla joko koodaussekvenssejä tai ei-koodaavia sekvenssejä. Koodaavina sekvensseinä aminohapot ja nukleiinihapot säilyvät usein tietyn proteiinin rakenteen ja toiminnan säilyttämiseksi. Nämä sekvenssit läpikäy minimaalisia muutoksia. Kun muutoksia tapahtuu, ne yleensä korvaavat aminohapon tai nukleiinihapon sellaisella, joka on biokemiallisesti samanlainen. Samoin muut mRNA: han liittyvät nukleiinihapposekvenssit säilyvät usein. Myös ei-koodaavat sekvenssit, kuten ribosomit, transkriptiotekijät, sidontapaikka jne., ovat säilyneitä sekvenssejä.

laskennallinen merkitys

säilyneet sekvenssit auttavat meitä löytämään homologian (samankaltaisuuden) eri eliöiden ja lajien välillä. Fylogeneettisiä suhteita ja puita voitaisiin kehittää ja tehokkaita kantamuotoja voitaisiin löytää käyttämällä tietoja säilyneistä sekvensseistä. Yleinen esimerkki on säilötty sekvenssi “16s RNA”, jota käytetään fylogeneettisten suhteiden rekonstruoimiseen eri bakteerien fylojen välillä.

säilynyttä sekvenssiä voidaan käyttää myös merkitsemään geneettisten häiriöiden ja mutaatioiden syntyä. Vertaamalla genomeja, joilla on tietty säilyvä sekvenssi, voimme helposti tunnistaa poikkeavuuksia, mitä tahansa on olemassa.

K-mers

tässä jaksossa nähdään, miten annetaan yhden DNA: n osa, miten voimme löytää lyhyitä säilyneitä sekvenssejä. Etsimiämme säilyneitä sekvenssejä kutsutaan sääntelymotiiveiksi. Säätelyaiheet ovat lyhyitä DNA-segmenttejä (vaikkapa 15-30 nukleiinihappoa), jotka säätelevät geenien ilmentymistä eli sitä, kuinka monta kertaa geeni transkriboidaan, ja siten sitä, kuinka paljon vastaavasta proteiinista tuotetaan.

K-Merit ovat k-pituisia substraatteja, jotka löytyvät syöttömerkkijonosta. Laskennallisessa genomiikassa tulonaru edustaa aminohappojen tai nukleiinihappojen sarjaa. Esimerkiksi 5-mers tarkoittaa substraatteja, joiden pituus on 5, ja 7-mers tarkoittaa substraatteja, joiden pituus on 7.

yleisin K-mers-ongelma

määrittelemme lyhyiden säilyneiden jaksojen löytämisen ongelman seuraavasti. Ottaen huomioon aminohappojen tai nukleiinihappojen tulojärjestyksen, etsi useimmin esiintyvä K-mer. Otetaan esimerkki

meillä on seuraavat tiedot,

INPUT:

Sequence: ACGTTGCATGATGCATGAGAGCT

K = 4

odotettu tulos:

useimmin esiintyvä 4-mer input-sekvenssistä.

esimerkki:

liukuikkunatekniikalla voidaan löytää kaikki K-Merit. Merkitään muistiin kaikki K-mers,

ACGT : CGTT : GTTG : TTGC : TGCA : GCAT : CATG : ATGA : TGAT : GATG : ATGC : TGCA : GCAT : CATG : ATGA : TGAG : GAGA : AGAG : GAGC : AGCT

tässä esimerkissä näemme, että 4-mers catg ja gcat ovat useimmin esiintyvät 4-MERS, koska ne esiintyvät 3 kertaa kukin.

K-mers

kuitenkin biologian kokeista on selvinnyt, että on mahdollista, että säilyneet sekvenssit käyvät läpi pieniä muutoksia. Näin ollen meidän on käytettävä edellä mainittu ongelma kohtaanto-ongelmien käsittelemiseksi.

esimerkiksi ATCCGAT: lla ja ATCGGAA: lla on 2 kohtausetappia, joista yksi sijoittuu sijalle 4 ja toinen sijalle 7. Katsotaanpa, miten voimme määritellä ongelman löytää useimmin k-mers kanssa huomioon kohtaanto-ongelmia.

INPUT:

Sequence: ACGTTGCATGCATGCATGAGGAGCT

K = 4, d = 1

odotettu tulos:

useimmin 4-mers, jolla on vähennys 1 miseen K-meriä kohti.

esimerkki:

olemme ottaneet saman esimerkkijakson kuin edellisessä ongelmassa. Näin ollen kaikkien mahdollisten 4-merien lista on ennallaan. Ne olivat seuraavat:

ACGT : CGTT : GTTG : TTGC : TGCA : GCAT : CATG : ATGA : TGAT : GATG : ATGC : TGCA : GCAT : CATG : ATGA : TGAG : GAGA : AGAG : GAGC : AGCT

kuitenkin, meidän lopullinen tulos muuttuu nyt meidän on otettava huomioon kaikki mahdollisuudet 1 epäsuhta sallittu.

jos otetaan esimerkiksi GATG, edellä olevassa järjestyksessä on 5 k-meriä, jotka vastaavat GATG: tä sallien yhden epäsuhdan, eli GTTG, CATG, CATG, GATG ja CATG. Samoin on 5 vastaavia k-mers atgc ja ATGT samoin. Näin ollen tuloksemme useimmista k-mers: istä, joilla on vähennys 1: een, ovat GATG, ATGC (täsmää TTGC, ATGT, ATGA, ATGC, ATGA) ja ATGT (täsmää ACGT, ATGT, ATGA, ATGC, ATGA).

K-mers-ongelman step-by-Step-algoritmi

Seuraavassa on yksinkertainen menettely edellä mainitun ongelman ratkaisemiseksi:-

  • Luo luettelo l kaikista alkuperäisen merkkijonon K-mereistä
  • jokaista alkuperäisen merkkijonon K-mer X: ää kohti
    • harkitse jokaista alkuperäisen merkkijonon K-mer Y: tä
      • laske niiden kohtien lukumäärä m x: n ja Y: n välillä
      • jos m <= d, korota X: n pistemäärää 1
  • tulos = K-mer X, jolla on korkein pistemäärä

laskennallinen hyötysuhde: jos merkkijonon alkuperäinen pituus on L, algoritmi tekee noin L2K-laskelmia. Huomaa, että L voi joskus olla melko suuri, sanoa 10s miljoonia tai jopa miljardeja (ihmisen DNA on koostuu noin 3-4 miljardia nukleiinihappoja).

oikeellisuus: edellä mainittu algoritmi toimii vain, jos K-mer esiintyy oikein (ilman kohtausvirheitä) ainakin kerran DNA-sekvenssissä. Vaikka tämä ei ole välttämätöntä, käytännössä näin yleensä on. Tämä pätee moniin bioinformatiikan algoritmeihin, jolloin algoritmin ei ole osoitettu antavan optimaalisia tuloksia koko ajan, mutta käytännössä se toimii melko hyvin.

Vastaa

Sähköpostiosoitettasi ei julkaista.