konserwowane sekwencje

w tym artykule przedstawimy pojęcie konserwowanych sekwencji, a także opiszemy ich biologiczne znaczenie. Następnie zobaczymy, jak możemy zredukować problem znajdowania sekwencji konserwowanych do problemu znalezienia najczęstszych K-mer w danej sekwencji i dalej zrewidować problem, aby poradzić sobie z niedopasowaniami, aby nasz problem był bardziej biologicznie wiarygodny. Na koniec zobaczymy prosty algorytm do rozwiązania problemu K-mer z niedopasowaniem.

w biologii ewolucyjnej i genetyce zachowane sekwencje odnoszą się do identycznych lub podobnych sekwencji DNA lub RNA lub aminokwasów (białek), które występują u różnych lub tych samych gatunków na przestrzeni pokoleń. Sekwencje te wykazują bardzo minimalne zmiany w ich składzie lub czasami nie zmieniają się w ogóle na przestrzeni pokoleń.

poniższy przykład pokazuje, jak właściwie wygląda zachowanie sekwencji między gatunkami:

na tym zdjęciu przyglądamy się sekwencji aminokwasowej białek histonowych ssaków i ich zakonserwowanych regionów. Te oznaczone na szaro są zachowane we wszystkich gatunkach, podczas gdy widzimy luki w kolorze białym, które mają tendencję do zmiany w różnych gatunkach.

typowe przykłady sekwencji konserwowanych obejmują,

  • sekwencje związane z translacją i transkrypcją, które są zachowane w genomie w wielu miejscach
  • niektóre składniki RNA w rybosomach są wysoce zachowane w różnych gatunkach
  • tmrna jest konserwowane w wielu gatunkach bakterii
  • inne przykłady, takie jak TATA (powtarzalne regiony) i homeoboxy (zaangażowane w regulację rozwoju embrionalnego w szerokim zakresie gatunków).

baza danych Conserved Domains dostępna w NCBI zawiera obszerne zasoby dotyczące sekwencji konserwowanych w różnych organizmach i genomach. Wykorzystuje specyficzne dla białek matryce punktowe do identyfikacji sekwencji konserwowanych.

zachowane sekwencje można podzielić na dwie główne kategorie, ortologiczne i paralogiczne. Zachowana Sekwencja nazywana jest ortologiczną, gdy identyczne sekwencje znajdują się w różnych gatunkach i nazywa się paralogiczną, gdy identyczne sekwencje znajdują się w tym samym genomie przez pokolenia.

przykład sekwencji ortologicznych: Badania nad genomami kręgowców, robaków, owadów i genomu drożdży (PubMed Central PMCID:PMC1182216) odkryły zachowane elementy w szerokim zakresie genomu 5 gatunków kręgowców (ludzi, szczurów, myszy, kurczaków i Fugu rubripes), 2 gatunków Caenorhabditis i 7 gatunków Saccharomyces. Konserwowany pierwiastek, który był analizowany, okazał się 3% -8% ludzkiego genomu i znacznie wyższe frakcje bardziej zwartych genomów Drosophila melanogaster (37% -53%), Caenorhabditis elegans(18% -37%) i Saccharomyces cerevisiae (47% -68%).

przykład sekwencji paralogicznych: sekwencje DNA w genie hemoglobiny u ludzi są identyczne w wielu miejscach genomu i sekwencji genu mioglobiny u szympansów.

często widzimy przypadki ekstremalnej konserwacji sekwencji kwasów nukleinowych lub aminokwasów, nazywane są to sekwencje ultra konserwowane. Na przykład, pewne sekwencje u kręgowców zostały znalezione w bardzo Różnych taksonach różniących się drastycznie. W innym przypadku mamy powszechnie zachowane sekwencje, które obejmują prawie wszystkie organizmy, przykładami takich sekwencji są czynnik elongacji wiązania GTP, rybosomalne RNA i tRNA itp.

Znaczenie sekwencji konserwowanych

sekwencje konserwowane Znalezione w różnych genomach mogą być sekwencjami kodującymi lub niekodującymi. Jako sekwencje kodujące, aminokwasy i kwasy nukleinowe są często konserwowane w celu zachowania struktury i funkcji określonego białka. Sekwencje te ulegają minimalnym zmianom. Gdy zachodzą zmiany, zwykle zastępują aminokwas lub kwas nukleinowy takim, który jest biochemicznie podobny. Podobnie, inne sekwencje kwasu nukleinowego związane z mRNA są często konserwowane. Sekwencje niekodujące, takie jak miejsca rybosomów, czynniki transkrypcyjne, miejsce wiązania itp., są również sekwencjami zachowywanymi.

Znaczenie obliczeniowe

zachowane sekwencje pomagają nam znaleźć homologię (podobieństwo) między różnymi organizmami i gatunkami. Filogenetyczne relacje i drzewa mogą rozwijać i skuteczny przodków może znajdować using the data on conserved sequences. Częstym przykładem jest zachowana Sekwencja “16S RNA”, która jest używana do rekonstrukcji relacji filogenetycznych między różnymi bakteryjnymi fylami.

zachowana sekwencja może być również używana do oznaczania powstawania zaburzeń genetycznych i mutacji. Porównując genomy, które mają pewną zachowaną sekwencję wspólną dla nich, możemy łatwo zidentyfikować anomalie, jakiekolwiek istnieją.

znajdowanie sekwencji Konwersowanych z K-mers

w tej sekcji, zobaczymy jak dana sekcja pojedynczego DNA, jak możemy znaleźć krótkie zachowane sekwencje. Zachowane sekwencje, których szukamy, nazywane są motywami regulacyjnymi. Motywami regulacyjnymi są krótkie segmenty DNA (powiedzmy 15-30 kwasów nukleinowych), które kontrolują ekspresję genów, tj. ile razy gen jest transkrybowany, a co za tym idzie, ile odpowiedniego białka jest wytwarzane.

K-Mers są podłańcuchami o długości k, które znajdują się w łańcuchu wejściowym. W przypadku genomiki obliczeniowej ciąg wejściowy reprezentuje sekwencję aminokwasów lub kwasów nukleinowych. Na przykład 5-Mers odnoszą się do podłańcuchów o długości 5, a 7-Mers odnoszą się do podłańcuchów o długości 7.

najczęstszy Problem K-mers

problem znajdowania krótkich sekwencji zachowawczych kadrujemy następująco. Biorąc pod uwagę sekwencję wejściową aminokwasów lub kwasów nukleinowych, znajdź K-mer, który występuje najczęściej. Weźmy przykład

mamy następujące dane,

wejście:

Sekwencja: ACGTTGCATGTCGCATGATGCATGAGAGCT

k = 4

oczekiwany wynik:

najczęściej występujące 4-mer z sekwencji wejściowej.

przykład:

możemy użyć techniki okien przesuwnych, aby znaleźć wszystkie K-Mery. Zanotujmy wszystkie k-Mery,

ACGT : CGTT : GTTG : TTGC : TGCA : GCAT : CATG : ATGT : TGTC : GTCG : TCGC : CGCA : GCAT : CATG : ATGA : TGAT : GATG : ATGC : TGCA : GCAT : CATG : ATGA : TGAG : GAGA : AGAG : GAGC : AGCT

w tym przykładzie widzimy, że 4-mers catg i GCAT są najczęściej występującymi 4-MERS, ponieważ pojawiają się po 3 razy.

dopuszczając niedopasowania W K-merach

jednak z eksperymentów w biologii dowiedzieliśmy się, że możliwe jest, aby zachowane sekwencje ulegały niewielkim zmianom. W związku z tym musimy wykorzystać powyższy problem, aby poradzić sobie z niedopasowaniem.

na przykład ATCCGAT i ATCGGAA mają 2 niedopasowania, jeden na pozycji 4, a drugi na pozycji 7. Zobaczmy, jak możemy zdefiniować problem znalezienia najczęstszych k-mers z uwzględnieniem niedopasowania.

INPUT:

Sequence: ACGTTGCATGTCGCATGATGCATGAGAGCT

K = 4, d = 1

oczekiwany wynik:

najczęstsze 4-mers z uwzględnieniem 1 niedopasowania na K-mer.

przykład:

wzięliśmy tę samą przykładową sekwencję, co w poprzednim problemie. W związku z tym lista wszystkich możliwych 4-merów pozostaje niezmieniona. Były one następujące:

ACGT : CGTT : gttg : TTGC : TGCA : GCAT : CATG : ATGT : TGTC : GTCG : TCGC : CGCA : GCAT : CATG : ATGA : TGAT : GATG : ATGC : TGCA : GCAT : CATG : ATGA : TGAG : GAGA : AGAG : GAGC : AGCT

jednak nasz ostateczny wynik zmieni się, ponieważ teraz musimy wziąć pod uwagę wszystkie możliwości z dopuszczalnym 1 niedopasowaniem.

jeśli weźmiemy na przykład GATG, w powyższej sekwencji jest 5 k-merów, które pasują do GATG, pozwalając na jedno niedopasowanie, tj. GTTG, CATG, CATG, GATG i CATG. Podobnie istnieje 5 pasujących k-merów dla ATGC i ATGT. Dlatego nasze wyniki dla najczęstszych k-merów z dopuszczeniem 1 niedopasowania to GATG, ATGC (mecze TTGC, ATGT, ATGA, ATGC, ATGA) i ATGT (mecze ACGT, ATGT, ATGA, ATGC, ATGA).

algorytm krok po kroku dla problemu K-mers

poniżej znajduje się prosta procedura rozwiązania powyższego problemu:-

  • Utwórz listę l wszystkich K-merów w oryginalnym łańcuchu
  • dla każdego K-mer X w oryginalnym łańcuchu
    • rozważ każdy K-mer Y w oryginalnym łańcuchu
      • policz liczbę niedopasowań m między X I Y
      • jeśli M < = d, zwiększ wynik x o 1
  • wynik = K-mer X z najwyższym wynikiem

wydajność obliczeniowa: jeśli pierwotna długość ciągu wynosi L, algorytm wykonuje około L2K obliczeń. Zauważ, że L może być czasami dość duże, powiedzmy 10 milionów, a nawet miliardów (ludzkie DNA składa się z około 3-4 miliardów kwasów nukleinowych).

poprawność: powyższy algorytm działa tylko wtedy, gdy K-mer pojawia się poprawnie (bez żadnych rozbieżności) przynajmniej raz w sekwencji DNA. Chociaż nie jest to konieczne, w praktyce zwykle tak jest. Tak jest w przypadku wielu algorytmów w bioinformatyce, przy czym nie udowodniono, że algorytm cały czas daje optymalne wyniki, ale w praktyce działa całkiem dobrze.

Dodaj komentarz

Twój adres e-mail nie zostanie opublikowany.