Sequenze conservate
In questo articolo, introdurremo il concetto di sequenze conservate e descriveremo anche il loro significato biologico. Quindi, vedremo come possiamo ridurre il problema di trovare sequenze conservate al problema di trovare K-mer più comuni in una data sequenza e rivedere ulteriormente il problema per gestire i disallineamenti, al fine di rendere il nostro problema più biologicamente plausibile. Infine, vedremo un semplice algoritmo per risolvere il problema K-mer con disallineamenti.
In biologia evolutiva e genetica, le sequenze conservate si riferiscono a sequenze identiche o simili di DNA o RNA o amminoacidi (proteine) che si verificano in diverse o stesse specie nel corso delle generazioni. Queste sequenze mostrano cambiamenti molto minimi nella loro composizione o talvolta nessun cambiamento in tutte le generazioni.
Il seguente esempio mostra come appare effettivamente la conservazione delle sequenze tra le specie:
In questa immagine stiamo osservando la sequenza aminoacidica delle proteine istoniche dei mammiferi e le loro regioni conservate. Quelli indicati in grigio sono conservati in tutte le specie mentre vediamo le lacune in bianco che tendono a cambiare su diverse specie.
esempi Comuni di sequenze conservate includono,
- traduzione e trascrizione relative sequenze che si trovano conservate nel genoma in più luoghi
- certo RNA componenti ribosomi sono trovato per essere altamente conservato nel corso di varie specie
- tmRNA è trovato per essere conservato in più specie di batteri
- altri esempi, come TATA (ripetitivo regioni) e homeoboxes (coinvolti nella regolazione dello sviluppo embrionale in una vasta gamma di specie).
Database di domini conservati disponibile presso NCBI ha ampie risorse sulle sequenze conservate in diversi organismi e genomi. Utilizza matrici di punteggio specifiche per proteine per identificare le sequenze conservate.
Le sequenze conservate possono essere classificate in due categorie principali, ortologous e paralogous. Una sequenza conservata è chiamata ortologous quando le sequenze identiche sono trovate attraverso le specie ed è chiamata paralogous quando le sequenze identiche sono trovate all’interno dello stesso genoma sopra le generazioni.
Esempio di sequenze conservate ortologhe: Una ricerca sui genomi di vertebrati, vermi, insetti e un genoma di lievito (PubMed Central PMCID:PMC1182216) ha trovato elementi conservati su allineamenti genomici di 5 specie di vertebrati (umani, ratti, topi, polli e Fugu rubripes), 2 specie di Caenorhabditis e 7 specie di Saccharomyces. L’elemento conservato che è stato analizzato è risultato essere 3% -8% del genoma umano e frazioni sostanzialmente più elevate dei genomi più compatti Drosophila melanogaster (37% -53%), Caenorhabditis elegans(18% -37%) e Saccharaomyces cerevisiae (47% -68%).
Esempio di sequenze convergenti paralogiche: le sequenze di DNA nel gene dell’emoglobina nell’uomo sono identiche in più punti del genoma e la sequenza genica della mioglobina negli scimpanzé.
Vediamo spesso casi di estrema conservazione di sequenze di acidi nucleici o amminoacidi, queste sono chiamate sequenze ultra conservate. Ad esempio, alcune sequenze nei vertebrati sono state trovate in taxa ampiamente diversi che variano drasticamente. In un altro caso abbiamo sequenze universalmente conservate che comprendono quasi tutti gli organismi, esempi di tali sequenze sono il fattore di allungamento del legame GTP, l’RNA ribosomiale e il tRNA,ecc.
Significato delle sequenze conservate
Le sequenze conservate trovate in diversi genomi possono essere sequenze codificanti o sequenze non codificanti. Come sequenze codificanti, gli amminoacidi e gli acidi nucleici sono spesso conservati per mantenere la struttura e la funzione di una certa proteina. Queste sequenze subiscono cambiamenti minimi. Quando i cambiamenti accadono, sostituiscono solitamente un amminoacido o un acido nucleico con uno che è biochimicamente simile. Allo stesso modo, altre sequenze di acido nucleico correlate all’mRNA sono spesso conservate. Le sequenze non codificanti, come i siti dei ribosomi, i fattori trascrizionali, il sito di legame, ecc., sono anche sequenze conservate.
Significato computazionale
Le sequenze conservate ci aiutano a trovare l’omologia (somiglianza) tra diversi organismi e specie. Le relazioni filogenetiche e gli alberi potrebbero essere sviluppati e l’ascendenza efficace potrebbe essere trovata usando i dati sulle sequenze conservate. Un esempio comune è la sequenza conservata “16S RNA” che viene utilizzata per ricostruire la relazione filogenetica tra vari phyla batterici.
La sequenza conservata può anche essere usata per segnare l’origine dei disordini e delle mutazioni genetiche. Confrontando genomi che hanno una certa sequenza conservata comune a loro possiamo facilmente identificare anomalie, qualsiasi esiste.
Trovare sequenze conversate con K-mers
In questa sezione, vedremo come data una sezione di un singolo DNA, come possiamo trovare brevi sequenze conservate. Le sequenze conservate che stiamo cercando sono chiamate motivi normativi. I motivi regolatori sono brevi segmenti di DNA (diciamo 15-30 acidi nucleici) che controllano l’espressione dei geni, cioè quante volte un gene viene trascritto e quindi quanta parte della proteina corrispondente viene prodotta.
I K-mer sono sottostringhe di lunghezza k che si trovano nella stringa di input. Nel caso della genomica computazionale, la stringa di input rappresenta una sequenza di amminoacidi o acidi nucleici. Ad esempio 5-mers si riferiscono a sottostringhe di lunghezza 5 e 7-mers si riferiscono a sottostringhe di lunghezza 7.
Problema K-mers più frequente
Inquadriamo il problema di trovare brevi sequenze conservate come segue. Data la sequenza di input di aminoacidi o acidi nucleici, trovare il K-mer che si verifica più frequentemente. Prendiamo un esempio
Abbiamo i seguenti dati,
INPUT:
Sequenza: ACGTTGCATGTCGCATGATGCATGAGAGCT
k = 4
RISULTATO ATTESO:
4-mer che si verificano più frequentemente dalla sequenza di input.
ESEMPIO:
Possiamo usare la tecnica della finestra scorrevole per trovare tutti i K-mers. Cerchiamo di annotare tutte le k-mers,
ACGT : CGTT : GTTG : TTGC : TGCA : GCAT : CATG : ATGT : TGTC : GTCG : TCGC : CGCA : GCAT : CATG : ATGA : TGAT : GATG : ATGC : TGCA : GCAT : CATG : ATGA : TGAG : GAGA : AGAG : GAGC : AGCT
In questo esempio, vediamo che 4-mers CATG e GCAT sono più frequenti 4-mers, come appaiono 3 volte ciascuno.
Consentire disallineamenti in K-mers
Tuttavia, da esperimenti in biologia, abbiamo scoperto che è possibile che le sequenze conservate subiscano modifiche minori. Come tale, abbiamo bisogno di spendere il problema di cui sopra per gestire disallineamenti.
Ad esempio, ATCCGAT e ATCGGAA hanno 2 disallineamenti, uno alla posizione 4 e un altro alla posizione 7. Vediamo come possiamo definire il problema di trovare k-mer più frequenti con tolleranza per disallineamenti.
INGRESSO:
Sequenza: ACGTTGCATGTGCATGATGATGCATGAGAGCT
K = 4, d = 1
RISULTATO ATTESO:
4-mer più frequenti con tolleranza per 1 mancata corrispondenza per K-mer.
ESEMPIO:
Abbiamo preso la stessa sequenza di esempio del problema precedente. Quindi, l’elenco per tutti i possibili 4-mers è invariato. Il risultato finale è il seguente:
ACGT : CGTT : GTTG : TTGC : TGCA : GCAT : CATG : ATGT : TGTC : GTCG : TCGC : CGCA : GAGA : AGAG : GAGC : AGCT
Tuttavia, il nostro risultato finale cambierà come ora dobbiamo prendere in considerazione tutte le possibilità con 1 mancata corrispondenza consentita.
Se prendiamo GATG per esempio, ci sono 5 k-mer nella sequenza precedente che corrispondono a GATG consentendo una mancata corrispondenza, cioè GTTG, CATG, CATG, GATG e CATG. Allo stesso modo ci sono 5 corrispondenti k-mers per ATGC e ATGT pure. Quindi, il nostro risultato per i k-mer più frequenti con tolleranza per 1 disallineamento sono GATG, ATGC (partite TTGC, ATGT, ATGA, ATGC, ATGA) e ATGT (partite ACGT, ATGT, ATGA, ATGC, ATGA).
Algoritmo passo-passo per il problema K-mers
La seguente è una semplice procedura per risolvere il problema di cui sopra:-
- Creare una lista L di K-mers nella stringa originale
- Per ogni K-mer X nella stringa originale
- Considerare ogni K-mer Y nella stringa originale
- Contare il numero di incongruenze m tra X e Y
- Se m <= d, quindi aumentare il punteggio di X 1
- Risultato = K-mer X con il punteggio più alto
Efficienza Computazionale: Se la lunghezza della stringa è L, quindi l’algoritmo non L2K calcoli. Si noti che L a volte può essere abbastanza grande, diciamo 10s di milioni o addirittura miliardi (DNA umano ha comprende circa 3-4 miliardi di acidi nucleici).
Correttezza: L’algoritmo di cui sopra funziona solo se il K-mer appare correttamente (senza disallineamenti) almeno una volta nella sequenza del DNA. Anche se questo non è necessario, in pratica questo è di solito il caso. Questo è il caso di molti algoritmi in bioinformatica, per cui un algoritmo non è dimostrato di dare risultati ottimali per tutto il tempo, ma in pratica, funziona abbastanza bene.