konzervált szekvenciák
ebben a cikkben bemutatjuk a konzervált szekvenciák fogalmát, és leírjuk biológiai jelentőségüket is. Ezután meglátjuk, hogyan csökkenthetjük a konzervált szekvenciák megtalálásának problémáját a leggyakoribb K-mer megtalálásának problémájára egy adott szekvenciában, és tovább vizsgálhatjuk a problémát az eltérések kezelése érdekében, annak érdekében, hogy problémánk biológiailag elfogadhatóbb legyen. Végül egy egyszerű algoritmust fogunk látni a K-mer probléma megoldására az eltérésekkel.
az evolúciós biológiában és genetikában a konzervált szekvenciák a DNS vagy RNS vagy aminosavak (fehérjék) azonos vagy hasonló szekvenciáira utalnak, amelyek különböző vagy ugyanazon fajokban fordulnak elő generációk során. Ezek a szekvenciák nagyon minimális változásokat mutatnak összetételükben, vagy néha egyáltalán nem változnak a generációk során.
a következő példa bemutatja, hogy a fajok közötti szekvenciák megőrzése valójában hogyan néz ki:
ezen a képen az emlős hiszton fehérjék aminosav-szekvenciáját és konzervált régióit vizsgáljuk. A szürkével jelölteket az összes faj konzerválja, míg a fehérben lévő réseket látjuk, amelyek hajlamosak megváltozni a különböző fajokhoz képest.
a konzervált szekvenciák gyakori példái a következők,
- a transzlációval és transzkripcióval kapcsolatos szekvenciák, amelyek a genomban több helyen konzerváltak
- a riboszómák bizonyos RNS-komponensei erősen konzerváltak a különböző fajoknál
- a tmrns-t több baktériumfajban is konzerválták
- egyéb példák, például a Tata (ismétlődő régiók) és a homeoboxok (amelyek számos fajban részt vesznek az embrionális fejlődés szabályozásában).
az NCBI-nél elérhető konzervált domének adatbázisa kiterjedt erőforrásokkal rendelkezik a különböző organizmusok és genomok konzervált szekvenciáiról. Fehérje-specifikus pontozási mátrixokat használ a konzervált szekvenciák azonosítására.
a konzervált szekvenciák két fő kategóriába sorolhatók: ortológ és paralogikus. A konzervált szekvenciát ortológusnak nevezzük, ha azonos szekvenciák találhatók a fajok között, és paralogikusnak nevezzük, ha azonos szekvenciák találhatók ugyanazon genomban generációk során.
példa ortológ konzervált szekvenciákra: A kutatás a genomok gerinces, féreg, rovar és egy élesztő Genom (PubMed központi PMCID:PMC1182216) talált konzervált elemek egész genom széles összehangolását 5 faj gerinces (emberi, patkány, egér, csirke és Fugu rubripes), 2 faj Caenorhabditis és 7 faj Saccharomyces. Az elemzett konzervált elem az emberi genom 3% -8% – át, valamint a kompaktabb Drosophila melanogaster (37% -53%), a Caenorhabditis elegans(18% -37%) és a saccharaomyces cerevisiae (47% -68%) genomok lényegesen magasabb frakcióit találta.
példa párhuzamos konvergált szekvenciákra: az emberekben a hemoglobin gén DNS-szekvenciái a genom több helyén azonosak, a csimpánzokban pedig a mioglobin génszekvenciák.
gyakran látjuk a nukleinsav vagy aminosav szekvenciák szélsőséges megőrzésének eseteit, ezeket ultra konzervált szekvenciáknak nevezzük. Például a gerincesek bizonyos szekvenciáit nagyon különböző taxonokban találták drasztikusan változó. Egy másik esetben univerzálisan konzervált szekvenciák vannak, amelyek szinte minden organizmust tartalmaznak, ilyen szekvenciák például a GTP-kötési nyúlási faktor, a riboszomális RNS és a tRNS stb.
a konzervált szekvenciák jelentősége
a különböző genomokban található konzervált szekvenciák lehetnek kódoló szekvenciák vagy nem kódoló szekvenciák. Kódoló szekvenciákként az aminosavak és a nukleinsavak gyakran konzerválódnak, hogy megőrizzék egy bizonyos fehérje szerkezetét és funkcióját. Ezek a szekvenciák minimális változásokon mennek keresztül. Amikor változások történnek, általában egy aminosavat vagy nukleinsavat helyettesítenek egy biokémiailag hasonló savval. Hasonlóképpen, más mRNS-hez kapcsolódó nukleinsavszekvenciák gyakran konzerválódnak. A nem kódoló szekvenciák, mint a riboszómák helyei, transzkripciós tényezők, kötési hely stb., Szintén konzervált szekvenciák.
számítási jelentőség
a konzervált szekvenciák segítenek megtalálni a homológiát (hasonlóságot) a különböző organizmusok és Fajok között. Filogenetikai kapcsolatokat és fákat lehetne fejleszteni, és hatékony ősöket lehetne találni a konzervált szekvenciák adatainak felhasználásával. Gyakori példa a konzervált “16S RNS” szekvencia, amelyet a különböző bakteriális phyla közötti filogenetikai kapcsolat rekonstruálására használnak.
a konzervált szekvencia a genetikai rendellenességek és mutációk keletkezésének megjelölésére is használható. Ha összehasonlítjuk azokat a genomokat, amelyeknek van egy bizonyos konzervált szekvenciájuk, akkor könnyen azonosíthatjuk az anomáliákat, bármilyen létezik.
finding beszélgetett szekvenciák k-mers
ebben a szakaszban látni fogjuk, hogyan adott egy szakasz egyetlen DNS, hogyan találunk rövid konzervált szekvenciák. Az általunk keresett konzervált szekvenciákat szabályozó motívumoknak nevezzük. A szabályozó motívumok rövid DNS-szegmensek (mondjuk 15-30 nukleinsav), amelyek szabályozzák a gének expresszióját, vagyis azt, hogy hányszor írják át a gént,és így mennyi a megfelelő fehérje.
a K-Mer-ek k hosszúságú részstringek, amelyek a bemeneti karakterláncban találhatók. Számítási genomika esetén a bemeneti karakterlánc aminosavak vagy nukleinsavak szekvenciáját képviseli. Például az 5-mers az 5 hosszúságú, a 7-mers pedig a 7 hosszúságú aljzatokra utal.
Leggyakoribb K-mers probléma
a rövid konzervált szekvenciák megtalálásának problémáját az alábbiak szerint vázoljuk fel. Tekintettel az aminosavak vagy nukleinsavak bemeneti szekvenciájára, keresse meg a leggyakrabban előforduló K-mer-t. Vegyünk egy példát
a következő adatokkal rendelkezünk,
bemenet:
szekvencia: ACGTTGCATGTCGCATGATGCATGAGAGCT
k = 4
várható eredmény:
leggyakrabban előforduló 4-mer a bemeneti szekvenciából.
példa:
csúszó ablak technikával megtalálhatjuk az összes K-Mer-t. Jegyezzük fel az összes k-mer-et,
ACGT : CGTT : GTTG : TTGC : TGCA : GCAT : CATG : ATGT : TGTC : GTCG : TCGC : CGCA : GCAT : CATG : ATGA : TGAT : GATG : ATGC : TGCA : GCAT : CATG : ATGA : TGAG : GAGA : AGAG : GAGC : AGCT
ebben a példában azt látjuk, hogy a 4-mers catg és a gcat a leggyakrabban előforduló 4-MERS, mivel mindegyik 3-szor jelenik meg.
eltérések engedélyezése A K-Mer-ekben
biológiai kísérletekből azonban kiderült, hogy lehetséges, hogy a konzervált szekvenciák kisebb változásokon mennek keresztül. Mint olyan, a fenti problémát az eltérések kezelésére kell fordítanunk.
például az ATCCGAT és az ATCGGAA 2 eltéréssel rendelkezik, az egyik a 4., a másik a 7. pozícióban. Lássuk, hogyan határozhatjuk meg a leggyakoribb k-Mer-ek megtalálásának problémáját, figyelembe véve az eltéréseket.
bemenet:
szekvencia: ACGTTGCATGTCGCATGATGCATGAGAGGCT
K = 4, d = 1
várható eredmény:
leggyakoribb 4-Mer-ek, amelyek K-merenként 1 eltérést engednek meg.
példa:
ugyanazt a példasorozatot vettük fel, mint az előző problémában. Ezért az összes lehetséges 4-Mer listája változatlan. Ezek a következők voltak:
ACGT : CGTT : GTTG : TTGC : TGCA : GCAT : CATG : ATGT : TGTC : GTCG : TGC : CGCA : GCAT : CATG : ATG : TGAT : GATG : ATGC : TGCA : GCAT : CATG : ATG : TGAG : GAGA : AGAG : GAGC : AGCT
azonban a mi a végeredmény megváltozik, mivel most minden lehetőséget figyelembe kell vennünk 1 eltérés megengedett.
ha például a GATG-t vesszük, akkor a fenti sorrendben 5 k-Mer van, amelyek megfelelnek a GATG-nek, lehetővé téve egy eltérést, azaz GTTG, CATG, CATG, GATG és CATG. Hasonlóképpen 5 megfelelő k-Mer van az ATGC és az ATGT számára is. Ezért az eredményünk a leggyakoribb k-Mer-ek esetében, amelyek 1 eltérést engednek meg, a GATG, ATGC (mérkőzések TTGC, ATGT, ATGA, ATGC, ATGA) és ATGT (mérkőzések ACGT, ATGT, ATGA, ATGC, ATGA).
lépésenkénti algoritmus a K-mers problémához
a következő egyszerű eljárás a fenti probléma megoldására:-
- L Lista létrehozása az összes K-Mer-ről az eredeti karakterláncban
- minden K-mer X-re az eredeti karakterláncban
- tekintsünk meg minden K-mer Y-t az eredeti karakterláncban
- számoljuk meg az eltérések számát M X és Y között
- ha m < = d, akkor növeljük az X pontszámát 1
- eredmény = k-mer X a legmagasabb pontszámmal
számítási hatékonyság: ha a karakterlánc eredeti hossza L, akkor az algoritmus körülbelül L2K számításokat végez. Vegye figyelembe, hogy az L néha meglehetősen nagy lehet, mondjuk 10 millió vagy akár milliárd (az emberi DNS körülbelül 3-4 milliárd nukleinsavból áll).
helyesség: a fenti algoritmus csak akkor működik, ha a K-mer helyesen jelenik meg (eltérések nélkül) legalább egyszer a DNS-szekvenciában. Bár erre nincs szükség, a gyakorlatban általában ez a helyzet. Ez a helyzet a bioinformatika számos algoritmusánál, ahol egy algoritmus nem bizonyított, hogy mindig optimális eredményt ad, de a gyakorlatban elég jól működik.