secvențe conservate

în acest articol, vom introduce conceptul de secvențe conservate și vom descrie, de asemenea, semnificația lor biologică. Apoi, vom vedea cum putem reduce problema găsirii secvențelor conservate la problema găsirii celui mai comun K-mer într-o secvență dată și vom revizui în continuare problema pentru a face față nepotrivirilor, pentru a face problema noastră mai plauzibilă din punct de vedere biologic. În cele din urmă, vom vedea un algoritm simplu pentru a rezolva problema K-mer cu nepotriviri.

în biologia evolutivă și genetică, secvențele conservate se referă la secvențe identice sau similare de ADN sau ARN sau aminoacizi (proteine) care apar în diferite sau aceleași specii de-a lungul generațiilor. Aceste secvențe prezintă modificări foarte minime în compoziția lor sau uneori nu există modificări de-a lungul generațiilor.

următorul exemplu arată cum arată de fapt conservarea secvențelor între specii:

în această imagine ne uităm la secvența de aminoacizi a proteinelor histonice de mamifere și a regiunilor lor conservate. Cele indicate în gri sunt conservate la toate speciile, în timp ce vedem golurile în alb care tind să se schimbe peste diferite specii.

exemple comune de secvențe conservate includ,

  • secvențe legate de traducere și transcriere care se găsesc conservate în genom în mai multe locuri
  • anumite componente ARN din ribozomi se găsesc foarte conservate la diferite specii
  • tmRNA se găsește conservat la mai multe specii de bacterii
  • alte exemple precum TATA (regiuni repetitive) și homeoboxes (implicate în reglarea dezvoltării embrionare într-o gamă largă de specii).

baza de date a domeniilor conservate disponibilă la NCBI are resurse extinse pe secvențe conservate în diferite organisme și genomi. Utilizează matrice de notare specifice proteinelor pentru a identifica secvențele conservate.

secvențele conservate pot fi clasificate în două categorii majore, ortolog și Paralog. O secvență conservată se numește ortolog atunci când secvențe identice se găsesc între specii și se numește Paralog atunci când secvențe identice se găsesc în același genom de-a lungul generațiilor.

exemplu de secvențe conservate ortologe: O cercetare asupra genomului vertebratelor, viermilor, insectelor și a genomului drojdiei (PubMed Central PMCID:PMC1182216) a găsit elemente conservate în aliniamentele largi ale genomului a 5 specii de vertebrate (rubripes umane, șobolan, șoarece, pui și Fugu), 2 specii de Caenorhabditis și 7 specii de Saccharomyces. Elementul conservat care a fost analizat s-a dovedit a fi 3% -8% din genomul uman și fracțiuni substanțial mai mari ale Genomurilor mai compacte Drosophila melanogaster (37% -53%), Caenorhabditis elegans(18% -37%) și Saccharaomyces cerevisiae (47% -68%).

exemplu de secvențe convergente paraloge: secvențele de ADN din gena hemoglobinei la om se dovedesc a fi identice în mai multe locuri ale genomului și secvenței genei mioglobinei la cimpanzei.

adesea vedem cazuri de conservare extremă a secvențelor de acid nucleic sau aminoacizi, acestea se numesc secvențe ultra conservate. De exemplu, anumite secvențe la vertebrate au fost găsite în taxas foarte diferite, variind drastic. Într-un alt caz, avem secvențe conservate universal care cuprind aproape toate organismele, Exemple de astfel de secvențe sunt factorul de alungire a legării GTP, ARN ribozomal și Arnt etc.

semnificația secvențelor conservate

secvențele conservate găsite în diferite genomi pot fi fie secvențe de codare, fie secvențe necodificatoare. Ca secvențe de codificare, aminoacizii și acizii nucleici sunt adesea conservați pentru a păstra structura și funcția unei anumite proteine. Aceste secvențe suferă modificări minime. Când se întâmplă modificări, ele înlocuiesc de obicei un aminoacid sau un acid nucleic cu unul care este similar din punct de vedere biochimic. În mod similar, alte secvențe de acid nucleic legate de ARNm sunt adesea conservate. Secvențele care nu codifică, cum ar fi site-urile ribozomilor, factorii transcripționali, site-ul de legare etc., sunt, de asemenea, secvențe conservate.

semnificație computațională

secvențe conservate ne ajută să găsim omologie (similitudine) între diferite organisme și specii. Relațiile filogenetice și copacii ar putea fi dezvoltate și strămoșii eficienți ar putea fi găsiți folosind datele privind secvențele conservate. Un exemplu comun este secvența conservată “ARN 16S” care este utilizată pentru a reconstrui relația filogenetică între diferite filuri bacteriene.

secvența conservată poate fi, de asemenea, utilizată pentru a marca originea tulburărilor genetice și a mutațiilor. Comparând genomii care au o anumită secvență conservată comună acestora, putem identifica cu ușurință anomalii, orice există.

găsirea secvențelor conversate cu K-mers

în această secțiune, vom vedea cum dată o secțiune a unui singur ADN, cum putem găsi secvențe scurte conservate. Secvențele conservate pe care le căutăm se numesc motive de reglementare. Motivele de reglementare sunt segmente scurte de ADN (să zicem 15-30 acizi nucleici) care controlează expresia genelor, adică de câte ori este transcrisă o genă și, prin urmare, cât de mult din proteina corespunzătoare este produsă.

K-mers sunt substringuri de lungime k care se găsesc în șirul de intrare. În cazul genomicii computaționale, șirul de intrare reprezintă o secvență de aminoacizi sau acizi nucleici. De exemplu, 5-mers se referă la subșiruri de lungime 5, iar 7-mers se referă la subșiruri de lungime 7.

cea mai frecventă problemă K-mers

încadrăm problema găsirii secvențelor scurte conservate după cum urmează. Având în vedere secvența de intrare a aminoacizilor sau acizilor nucleici, găsiți K-mer care apare cel mai frecvent. Să luăm un exemplu

avem următoarele date,

intrare:

secvență: ACGTTGCATGTCGCATGATGCATGAGAGCT

K = 4

rezultat așteptat:

care apar cel mai frecvent 4-mer din secvența de intrare.

exemplu:

putem folosi tehnica ferestrei glisante pentru a găsi toate K-mers. Să notăm toate K-mers,

ACGT : CGTT : GTTG : TTGC : TGCA : GCAT : CATG : ATGT : TGTC : GTCG : TCGC : CGCA : GCAT : CATG : ATGA : TGAT : GATG : ATGC : TGCA : GCAT : CATG : ATGA : TGAG : GAGA : AGAG : GAGC : AGCT

în acest exemplu, vedem că 4-mers catg și gcat sunt cele mai frecvente 4-mers, deoarece apar de 3 ori fiecare.

permițând nepotriviri în K-mers

cu toate acestea, din experimente în biologie, am aflat că este posibil ca secvențele conservate să sufere modificări minore. Ca atare, trebuie să cheltuim problema de mai sus pentru a rezolva neconcordanțele.

de exemplu, ATCCGAT și ATCGGAA au 2 neconcordanțe, una la pozițiile 4 și alta la poziția 7. Să vedem cum putem defini problema găsirii celor mai frecvente k-mers cu luarea în considerare a nepotrivirilor.

intrare:

secvență: ACGTTGCATGTCGCATGATGCATGAGAGCT

K = 4, D = 1

rezultat așteptat:

cele mai frecvente 4-mers cu toleranță pentru 1 nepotrivire pe K-mer.

exemplu:

am luat aceeași secvență de exemplu ca în problema anterioară. Prin urmare, lista pentru toate 4-mers-urile posibile este neschimbată. Acestea au fost după cum urmează:

ACGT : CGTT : GTTG : TTGC : TGCA : GCAT : CATG : ATGT : TGTC : GTCG : TCGC : CGCA : GCAT : CATG : ATGA : TGAT : GATG : ATGC : TGCA : GCAT : CATG : ATGA : TGAG : GAGA : AGAG : GAGC : AGCT

cu toate acestea, rezultatul nostru final se va schimba, deoarece acum trebuie să luăm în considerare toate posibilitățile cu 1 nepotrivire permisă.

dacă luăm GATG de exemplu, există 5 K-mers în secvența de mai sus care se potrivesc GATG permițând o nepotrivire, adică GTTG, CATG, CATG, GATG și CATG. În mod similar, există 5 potrivire k-mers pentru ATGC și ATGT, de asemenea. Prin urmare, rezultatul nostru pentru cele mai frecvente k-mers cu alocație pentru 1 nepotrivire sunt GATG, ATGC (meciuri TTGC, ATGT, ATGA, ATGC, ATGA) și ATGT (meciuri ACGT, ATGT, ATGA, ATGC, ATGA).

algoritm pas cu pas pentru problema K-mers

următoarea este o procedură simplă pentru rezolvarea problemei de mai sus:-

  • Creați lista L a tuturor k-mers din șirul original
  • pentru fiecare K-mer X din șirul original
    • luați în considerare fiecare K-mer Y din șirul original
      • numărați numărul de nepotriviri m între X și Y
      • dacă m < = d, apoi creșteți scorul X cu 1
  • rezultat = K-mer X cu cel mai mare scor

eficiență computațională: dacă lungimea inițială a șirului este L, atunci algoritmul face despre calculele L2K. Rețineți că L poate fi uneori destul de mare, să zicem 10s de milioane sau chiar miliarde (ADN-ul uman are cuprinde aproximativ 3-4 miliarde de acizi nucleici).

corectitudine: algoritmul de mai sus funcționează numai dacă K-mer apare corect (fără neconcordanțe) cel puțin o dată în secvența ADN. Deși acest lucru nu este necesar, în practică acest lucru este de obicei cazul. Acesta este cazul multor algoritmi din bioinformatică, prin care nu se dovedește că un algoritm dă rezultate optime tot timpul, dar în practică funcționează destul de bine.

Lasă un răspuns

Adresa ta de email nu va fi publicată.