Zachovaných Sekvencí
V tomto článku, budeme zavést pojem zachovaných sekvencí a také popsat jejich biologický význam. Pak uvidíme, jak můžeme snížit problém najít zachovaných sekvencí na problém nalezení nejčastějších K-mer, v daném pořadí, a dále revidovat problém zvládnout nesoulad, v -, aby náš problém více biologicky věrohodný. Nakonec uvidíme jednoduchý algoritmus pro řešení problému K-mer s neshodami.
v evoluční biologii a genetice se konzervované sekvence týkají identických nebo podobných sekvencí DNA nebo RNA nebo aminokyselin (proteinů), které se vyskytují u různých nebo stejných druhů po generace. Tyto sekvence vykazují velmi minimální změny ve složení nebo někdy žádné změny po celé generace.
následující příklad ukazuje, co se zachování sekvence napříč druhy vlastně vypadá:
V tomto obrázku se díváme na aminokyselinové sekvence histonů v savčích proteinů a jejich konzervovaným regionům. Ty, které jsou označeny šedě, jsou zachovány u všech druhů, zatímco vidíme mezery v bílé barvě, které mají tendenci se měnit u různých druhů.
Běžné příklady zachovaných sekvencí patří,
- překlad a transkripce související sekvencí, které se nacházejí zachované v genomu na mnoha místech
- některé RNA komponenty v ribozomy jsou vysoce konzervované přes různé druhy
- tmRNA je zjištěno, že být zachovány na více druhů bakterií
- jiné příklady, jako TATA (opakující se regionů) a homeoboxes (podílející se na regulaci embryonálního vývoje v široké škále druhů).
databáze konzervovaných domén dostupná na NCBI má rozsáhlé zdroje o konzervovaných sekvencích v různých organismech a genomech. Používá protein specifické bodovací matrice k identifikaci konzervovaných sekvencí.
konzervované sekvence lze rozdělit do dvou hlavních kategorií, ortologní a paralogní. Konzervovaná sekvence se nazývá ortologní, když jsou identické sekvence nalezeny napříč druhy, a nazývá se paralogní, když jsou identické sekvence nalezeny ve stejném genomu po generace.
příklad ortologicky konzervovaných sekvencí: Výzkum na genomy obratlovců, červ, hmyz a droždí genomu (PubMed Central PMCID:PMC1182216) našel zachovaných prvků v rámci genomu široký zarovnání z 5 druhů obratlovců (člověk, potkan, myš, kuře a Fugu rubripes), 2 druhů Caenorhabditis a 7 druhů Saccharomyces. Zachovaných prvek, který byl analyzován bylo zjištěno, že 3%-8% lidského genomu a podstatně vyšší frakce z více kompaktní Drosophila melanogaster (37%-53%), Caenorhabditis elegans(18%-37%), a Saccharaomyces cerevisiae (47%-68%) genomů.
příklad paralogických konvervovaných sekvencí: sekvence DNA v genu hemoglobinu u lidí jsou identické na více místech genomu a sekvence genu myoglobinu u šimpanzů.
často vidíme případy extrémní konzervace nukleových kyselin nebo aminokyselinových sekvencí, které se nazývají ultra konzervované sekvence. Například, určité sekvence u obratlovců byly nalezeny v široce odlišných taxonech, které se drasticky lišily. V jiném případě máme univerzálně konzervované sekvence, které zahrnují téměř všechny organismy, příklady těchto sekvencí jsou GTP vazebné prodloužení faktorem, ribozomální RNA a tRNA, atd.
význam konzervovaných sekvencí
konzervované sekvence nalezené v různých genomech mohou být buď kódující sekvence, nebo nekódující sekvence. Jako kódující sekvence jsou aminokyseliny a nukleové kyseliny často konzervovány, aby si zachovaly strukturu a funkci určitého proteinu. Tyto sekvence procházejí minimálními změnami. Když dojde ke změnám, obvykle nahrazují aminokyselinu nebo nukleovou kyselinu biochemicky podobnou. Podobně jsou často konzervovány další sekvence nukleových kyselin související s mRNA. Nekódující sekvence, jako jsou místa ribozomů, transkripční faktory, vazebné místo atd., jsou také konzervované sekvence.
výpočetní význam
zachované sekvence nám pomáhají najít homologii (podobnost) mezi různými organismy a druhy. Fylogenetické vztahy a stromy by mohly být vyvinuty a efektivní předky by mohly být nalezeny pomocí údajů o konzervovaných sekvencích. Typickým příkladem je zachována sekvence “16S RNA”, který se používá k rekonstrukci fylogenetických vztahů mezi různými bakteriálních kmenů.
konzervovaná sekvence může být také použita k označení vzniku genetických poruch a mutací. Porovnáním genomů, které mají určitou zachovalou sekvenci společnou, můžeme snadno identifikovat anomálie, které existují.
hledání Konverzovaných sekvencí s K-mers
v této části uvidíme, jak daný úsek jedné DNA, jak můžeme najít krátké konzervované sekvence. Konzervované sekvence, které hledáme, se nazývají regulační motivy. Regulační motivy jsou krátké segmenty DNA (řekněme 15-30 nukleových kyselin), které kontrolují expresi genů, tj. kolikrát gen je přepsán, a tím, jak moc odpovídající protein je produkován.
K-mers jsou podřetězce délky k, které se nacházejí ve vstupním řetězci. V případě výpočetní genomiky představuje vstupní řetězec sekvenci aminokyselin nebo nukleových kyselin. Například 5-mers odkazují na podřetězce délky 5 a 7-mers odkazují na podřetězce délky 7.
nejčastější problém k-mers
problém hledání krátkých konzervovaných sekvencí rámujeme následovně. Vzhledem k vstupní sekvenci aminokyselin nebo nukleových kyselin najděte K-mer, který se vyskytuje nejčastěji. Vezměme si příklad,
Máme tyto údaje,
VSTUP:
Sekvence: ACGTTGCATGTCGCATGATGCATGAGAGCT
k = 4
OČEKÁVANÝ VÝSLEDEK:
Nejčastěji se vyskytující 4-mer ze vstupní sekvence.
příklad:
můžeme použít techniku posuvného okna k nalezení všech K-mers. Dejte nám na vědomí, všechny k-merů,
ACGT : CGTT : GTTG : TTGC : TGCA : GCAT : CATG : ATGT : TGTC : GTCG : TCGC : CGCA : GCAT : CATG : ATGA : POMOCI : GATG : ATGC : TGCA : GCAT : CATG : ATGA : TGAG : GAGA : toto je agag : GAGC : AGCT
V tomto příkladu, vidíme, že 4-mers CATG a GCAT jsou nejčastěji se vyskytující 4-mers, jak se objeví 3 krát každý.
umožnění neshod v K-mers
z experimentů v biologii jsme však zjistili, že je možné, aby konzervované sekvence podstoupily drobné změny. Jako takový, musíme vynaložit výše uvedený problém na řešení nesouladů.
například ATCCGAT a ATCGGAA mají 2 neshody, jeden na pozicích 4 a druhý na pozici 7. Podívejme se, jak můžeme definovat problém nalezení nejčastějších k-mers s přihlédnutím k neshodám.
VSTUP:
Sekvence: ACGTTGCATGTCGCATGATGCATGAGAGCT
K = 4, d = 1
OČEKÁVANÝ VÝSLEDEK:
nejčastější 4-mers s povolenkami na 1 neshoda na K-mer.
příklad:
vzali jsme stejnou ukázkovou sekvenci jako v předchozím problému. Proto je seznam všech možných 4-mers nezměněn. Byli to takto:
ACGT : CGTT : GTTG : TTGC : TGCA : GCAT : CATG : ATGT : TGTC : GTCG : TCGC : CGCA : GCAT : CATG : ATGA : POMOCI : GATG : ATGC : TGCA : GCAT : CATG : ATGA : TGAG : GAGA : toto je agag : GAGC : AGCT
Nicméně, náš konečný výsledek se bude měnit, jak teď musíme vzít v úvahu všechny možnosti s 1 neshoda povoleno.
Pokud vezmeme GATG například, tam jsou 5 k-merů ve výše uvedeném pořadí, které odpovídají GATG což na jednu nesoulad, tj. GTTG, CATG, CATG, GATG a CATG. Podobně existují 5 Odpovídající k-mers pro ATGC a ATGT stejně. Proto náš výsledek nejčastějších k-merů s povolenkami na 1 neshoda jsou GATG, ATGC (odpovídá TTGC, ATGT, ATGA, ATGC, ATGA) a ATGT (odpovídá ACGT, ATGT, ATGA, ATGC, ATGA).
krok za krokem algoritmus pro problém k-mers
následuje jednoduchý postup pro řešení výše uvedeného problému:-
- Vytvořit seznam L všech K-merů v původní řetězec
- Pro každý K-mer X v původní řetězec
- Zvážit každý K-mer Y v původní řetězec
- Počítat počet rozdílů m mezi X a Y
- Pokud m <= d, pak zvýšit skóre X 1
- Výsledek = K-mer X s nejvyšší skóre
Výpočetní Účinnost: je-Li původní délka řetězce je L, pak algoritmus se o L2K výpočty. Všimněte si, že L může být někdy docela velký, řekněme 10s milionů nebo dokonce miliard (lidská DNA se skládá z asi 3-4 miliard nukleových kyselin).
správnost: výše uvedený algoritmus funguje pouze tehdy, pokud se K-mer objeví správně (bez jakýchkoli nesouladů) alespoň jednou v sekvenci DNA. I když to není nutné, v praxi tomu tak obvykle je. To je případ pro mnoho algoritmů v bioinformatice, přičemž algoritmus není prokazatelně optimální výsledky, ale v praxi to funguje docela dobře.