konzervált szekvenciák

ebben a cikkben bemutatjuk a konzervált szekvenciák fogalmát, és leírjuk biológiai jelentőségüket is. Ezután meglátjuk, hogyan csökkenthetjük a konzervált szekvenciák megtalálásának problémáját a leggyakoribb K-mer megtalálásának problémájára egy adott szekvenciában, és tovább vizsgálhatjuk a problémát az eltérések kezelése érdekében, annak érdekében, hogy problémánk biológiailag elfogadhatóbb legyen. Végül egy egyszerű algoritmust fogunk látni a K-mer probléma megoldására az eltérésekkel.

az evolúciós biológiában és genetikában a konzervált szekvenciák a DNS vagy RNS vagy aminosavak (fehérjék) azonos vagy hasonló szekvenciáira utalnak, amelyek különböző vagy ugyanazon fajokban fordulnak elő generációk során. Ezek a szekvenciák nagyon minimális változásokat mutatnak összetételükben, vagy néha egyáltalán nem változnak a generációk során.

a következő példa bemutatja, hogy a fajok közötti szekvenciák megőrzése valójában hogyan néz ki:

ezen a képen az emlős hiszton fehérjék aminosav-szekvenciáját és konzervált régióit vizsgáljuk. A szürkével jelölteket az összes faj konzerválja, míg a fehérben lévő réseket látjuk, amelyek hajlamosak megváltozni a különböző fajokhoz képest.

a konzervált szekvenciák gyakori példái a következők,

  • a transzlációval és transzkripcióval kapcsolatos szekvenciák, amelyek a genomban több helyen konzerváltak
  • a riboszómák bizonyos RNS-komponensei erősen konzerváltak a különböző fajoknál
  • a tmrns-t több baktériumfajban is konzerválták
  • egyéb példák, például a Tata (ismétlődő régiók) és a homeoboxok (amelyek számos fajban részt vesznek az embrionális fejlődés szabályozásában).

az NCBI-nél elérhető konzervált domének adatbázisa kiterjedt erőforrásokkal rendelkezik a különböző organizmusok és genomok konzervált szekvenciáiról. Fehérje-specifikus pontozási mátrixokat használ a konzervált szekvenciák azonosítására.

a konzervált szekvenciák két fő kategóriába sorolhatók: ortológ és paralogikus. A konzervált szekvenciát ortológusnak nevezzük, ha azonos szekvenciák találhatók a fajok között, és paralogikusnak nevezzük, ha azonos szekvenciák találhatók ugyanazon genomban generációk során.

példa ortológ konzervált szekvenciákra: A kutatás a genomok gerinces, féreg, rovar és egy élesztő Genom (PubMed központi PMCID:PMC1182216) talált konzervált elemek egész genom széles összehangolását 5 faj gerinces (emberi, patkány, egér, csirke és Fugu rubripes), 2 faj Caenorhabditis és 7 faj Saccharomyces. Az elemzett konzervált elem az emberi genom 3% -8% – át, valamint a kompaktabb Drosophila melanogaster (37% -53%), a Caenorhabditis elegans(18% -37%) és a saccharaomyces cerevisiae (47% -68%) genomok lényegesen magasabb frakcióit találta.

példa párhuzamos konvergált szekvenciákra: az emberekben a hemoglobin gén DNS-szekvenciái a genom több helyén azonosak, a csimpánzokban pedig a mioglobin génszekvenciák.

gyakran látjuk a nukleinsav vagy aminosav szekvenciák szélsőséges megőrzésének eseteit, ezeket ultra konzervált szekvenciáknak nevezzük. Például a gerincesek bizonyos szekvenciáit nagyon különböző taxonokban találták drasztikusan változó. Egy másik esetben univerzálisan konzervált szekvenciák vannak, amelyek szinte minden organizmust tartalmaznak, ilyen szekvenciák például a GTP-kötési nyúlási faktor, a riboszomális RNS és a tRNS stb.

a konzervált szekvenciák jelentősége

a különböző genomokban található konzervált szekvenciák lehetnek kódoló szekvenciák vagy nem kódoló szekvenciák. Kódoló szekvenciákként az aminosavak és a nukleinsavak gyakran konzerválódnak, hogy megőrizzék egy bizonyos fehérje szerkezetét és funkcióját. Ezek a szekvenciák minimális változásokon mennek keresztül. Amikor változások történnek, általában egy aminosavat vagy nukleinsavat helyettesítenek egy biokémiailag hasonló savval. Hasonlóképpen, más mRNS-hez kapcsolódó nukleinsavszekvenciák gyakran konzerválódnak. A nem kódoló szekvenciák, mint a riboszómák helyei, transzkripciós tényezők, kötési hely stb., Szintén konzervált szekvenciák.

számítási jelentőség

a konzervált szekvenciák segítenek megtalálni a homológiát (hasonlóságot) a különböző organizmusok és Fajok között. Filogenetikai kapcsolatokat és fákat lehetne fejleszteni, és hatékony ősöket lehetne találni a konzervált szekvenciák adatainak felhasználásával. Gyakori példa a konzervált “16S RNS” szekvencia, amelyet a különböző bakteriális phyla közötti filogenetikai kapcsolat rekonstruálására használnak.

a konzervált szekvencia a genetikai rendellenességek és mutációk keletkezésének megjelölésére is használható. Ha összehasonlítjuk azokat a genomokat, amelyeknek van egy bizonyos konzervált szekvenciájuk, akkor könnyen azonosíthatjuk az anomáliákat, bármilyen létezik.

finding beszélgetett szekvenciák k-mers

ebben a szakaszban látni fogjuk, hogyan adott egy szakasz egyetlen DNS, hogyan találunk rövid konzervált szekvenciák. Az általunk keresett konzervált szekvenciákat szabályozó motívumoknak nevezzük. A szabályozó motívumok rövid DNS-szegmensek (mondjuk 15-30 nukleinsav), amelyek szabályozzák a gének expresszióját, vagyis azt, hogy hányszor írják át a gént,és így mennyi a megfelelő fehérje.

a K-Mer-ek k hosszúságú részstringek, amelyek a bemeneti karakterláncban találhatók. Számítási genomika esetén a bemeneti karakterlánc aminosavak vagy nukleinsavak szekvenciáját képviseli. Például az 5-mers az 5 hosszúságú, a 7-mers pedig a 7 hosszúságú aljzatokra utal.

Leggyakoribb K-mers probléma

a rövid konzervált szekvenciák megtalálásának problémáját az alábbiak szerint vázoljuk fel. Tekintettel az aminosavak vagy nukleinsavak bemeneti szekvenciájára, keresse meg a leggyakrabban előforduló K-mer-t. Vegyünk egy példát

a következő adatokkal rendelkezünk,

bemenet:

szekvencia: ACGTTGCATGTCGCATGATGCATGAGAGCT

k = 4

várható eredmény:

leggyakrabban előforduló 4-mer a bemeneti szekvenciából.

példa:

csúszó ablak technikával megtalálhatjuk az összes K-Mer-t. Jegyezzük fel az összes k-mer-et,

ACGT : CGTT : GTTG : TTGC : TGCA : GCAT : CATG : ATGT : TGTC : GTCG : TCGC : CGCA : GCAT : CATG : ATGA : TGAT : GATG : ATGC : TGCA : GCAT : CATG : ATGA : TGAG : GAGA : AGAG : GAGC : AGCT

ebben a példában azt látjuk, hogy a 4-mers catg és a gcat a leggyakrabban előforduló 4-MERS, mivel mindegyik 3-szor jelenik meg.

eltérések engedélyezése A K-Mer-ekben

biológiai kísérletekből azonban kiderült, hogy lehetséges, hogy a konzervált szekvenciák kisebb változásokon mennek keresztül. Mint olyan, a fenti problémát az eltérések kezelésére kell fordítanunk.

például az ATCCGAT és az ATCGGAA 2 eltéréssel rendelkezik, az egyik a 4., a másik a 7. pozícióban. Lássuk, hogyan határozhatjuk meg a leggyakoribb k-Mer-ek megtalálásának problémáját, figyelembe véve az eltéréseket.

bemenet:

szekvencia: ACGTTGCATGTCGCATGATGCATGAGAGGCT

K = 4, d = 1

várható eredmény:

leggyakoribb 4-Mer-ek, amelyek K-merenként 1 eltérést engednek meg.

példa:

ugyanazt a példasorozatot vettük fel, mint az előző problémában. Ezért az összes lehetséges 4-Mer listája változatlan. Ezek a következők voltak:

ACGT : CGTT : GTTG : TTGC : TGCA : GCAT : CATG : ATGT : TGTC : GTCG : TGC : CGCA : GCAT : CATG : ATG : TGAT : GATG : ATGC : TGCA : GCAT : CATG : ATG : TGAG : GAGA : AGAG : GAGC : AGCT

azonban a mi a végeredmény megváltozik, mivel most minden lehetőséget figyelembe kell vennünk 1 eltérés megengedett.

ha például a GATG-t vesszük, akkor a fenti sorrendben 5 k-Mer van, amelyek megfelelnek a GATG-nek, lehetővé téve egy eltérést, azaz GTTG, CATG, CATG, GATG és CATG. Hasonlóképpen 5 megfelelő k-Mer van az ATGC és az ATGT számára is. Ezért az eredményünk a leggyakoribb k-Mer-ek esetében, amelyek 1 eltérést engednek meg, a GATG, ATGC (mérkőzések TTGC, ATGT, ATGA, ATGC, ATGA) és ATGT (mérkőzések ACGT, ATGT, ATGA, ATGC, ATGA).

lépésenkénti algoritmus a K-mers problémához

a következő egyszerű eljárás a fenti probléma megoldására:-

  • L Lista létrehozása az összes K-Mer-ről az eredeti karakterláncban
  • minden K-mer X-re az eredeti karakterláncban
    • tekintsünk meg minden K-mer Y-t az eredeti karakterláncban
      • számoljuk meg az eltérések számát M X és Y között
      • ha m < = d, akkor növeljük az X pontszámát 1
  • eredmény = k-mer X a legmagasabb pontszámmal

számítási hatékonyság: ha a karakterlánc eredeti hossza L, akkor az algoritmus körülbelül L2K számításokat végez. Vegye figyelembe, hogy az L néha meglehetősen nagy lehet, mondjuk 10 millió vagy akár milliárd (az emberi DNS körülbelül 3-4 milliárd nukleinsavból áll).

helyesség: a fenti algoritmus csak akkor működik, ha a K-mer helyesen jelenik meg (eltérések nélkül) legalább egyszer a DNS-szekvenciában. Bár erre nincs szükség, a gyakorlatban általában ez a helyzet. Ez a helyzet a bioinformatika számos algoritmusánál, ahol egy algoritmus nem bizonyított, hogy mindig optimális eredményt ad, de a gyakorlatban elég jól működik.

Vélemény, hozzászólás?

Az e-mail-címet nem tesszük közzé.