Conservada Sequências

neste artigo, vamos introduzir o conceito de sequências conservadas e também descrever o seu significado biológico. Então, veremos como podemos reduzir o problema de encontrar seqüências conservadas para o problema de encontrar o K-mer mais comum em uma dada seqüência e revisar ainda mais o problema para lidar com desajustamentos, a fim de tornar o nosso problema mais biologicamente plausível. Finalmente, vamos ver um algoritmo simples para resolver o problema do K-mer com desfasamentos.

em biologia evolutiva e genética, as sequências conservadas referem-se a sequências idênticas ou semelhantes de ADN ou ARN ou aminoácidos (proteínas) que ocorrem em diferentes ou mesmas espécies ao longo de gerações. Estas sequências mostram mudanças mínimas na sua composição ou, por vezes, não há mudanças ao longo de gerações.

O exemplo a seguir mostra que a conservação das seqüências entre espécies realmente se parece:

nesta imagem, estamos olhando para a sequência de aminoácidos de mamíferos da histona proteínas e suas regiões conservadas. Aqueles indicados em cinza são conservados em todas as espécies, enquanto vemos as lacunas em branco que tendem a mudar sobre diferentes espécies.

exemplos Comuns de sequências conservadas incluem,

  • tradução e transcrição relacionados com sequências que se encontram conservadas do genoma em vários lugares
  • certos RNA componentes em ribossomos são encontrados para ser altamente conservadas ao longo de várias espécies
  • tmRNA é encontrado para ser conservado em várias espécies de bactérias
  • outros exemplos como a TATA (repetitivo regiões) e homeoboxes (envolvidos na regulação do desenvolvimento embrionário em uma ampla gama de espécies).

conserved Domains database available at NCBI has extensive resources on conserved sequences in different organisms and genomes. Utiliza matrizes de pontuação específicas às proteínas para identificar sequências conservadas.

as sequências conservadas podem ser categorizadas em duas categorias principais, ortóloga e paralógica. Uma sequência conservada é chamada ortóloga quando sequências idênticas são encontradas através de espécies e é chamada paralógica quando sequências idênticas são encontradas dentro do mesmo genoma ao longo de gerações.

exemplo de sequências ortológicas conservadas: Uma investigação sobre o genoma dos vertebrados, verme, inseto e um genoma da levedura (PubMed Central PMCID:PMC1182216) encontrado conservado elementos ao longo do genoma ampla alinhamentos de 5 espécies de vertebrados (humanos, rato, camundongo, galinha e Fugu rubripes), 2 espécies de Caenorhabditis e 7 espécies de Saccharomyces. O elemento conservado que foi analisado foi encontrado para ser 3% -8% do genoma humano e fracções substancialmente mais altas das mais compactas Drosophila melanogaster (37% -53%), Caenorhabditis elegans(18% -37%), e Saccharaomyces cerevisiae (47% -68%) genomas.

Example of paralogous Converged sequences: Sequences of DNA in hemoglobina gene in humans is found to be identical at multiple places on the genome and myoglobina gene sequence in chimpanzees.

muitas vezes vemos casos de conservação extrema de sequências de ácidos nucleicos ou aminoácidos, estas são chamadas sequências ultra conservadas. Por exemplo, certas sequências em vertebrados têm sido encontradas em diferentes táxons variando drasticamente. Em outro caso, temos sequências universalmente conservadas que compreendem quase todos os organismos, exemplos de tais sequências são o Fator de ligação GTP, o RNA ribossômico e o RNA tRNA, etc.

Significance of Conserved Sequences

Conserved sequences found in different genomes can be either coding sequences or non coding sequences. Como seqüências de codificação, aminoácidos e ácidos nucleicos são muitas vezes conservados para manter a estrutura e função de uma determinada proteína. Estas sequências sofrem alterações mínimas. Quando as mudanças acontecem, eles geralmente substituem um aminoácido ou ácido nucleico por um que é bioquímicamente similar. Da mesma forma, outras sequências de ácido nucleico relacionadas com ARNm são frequentemente conservadas. Sequências não codificantes, como sites de ribossomas, fatores transcritionais, local de ligação, etc, também são sequências conservadas.

significância computacional

sequências conservadas nos ajudam a encontrar homologia (similaridade) entre diferentes organismos e espécies. As relações filogenéticas e as árvores poderiam ser desenvolvidas e ancestralidade efetiva poderia ser encontrada usando os dados sobre sequências conservadas. Um exemplo comum é a sequência conservada “RNA 16S”, que é usada para reconstruir a relação filogenética entre vários filos bacterianos.

a sequência conservada também pode ser usada para marcar a originação de distúrbios genéticos e mutações. Comparando genomas que têm uma certa sequência conservada comum a eles, podemos facilmente identificar anomalias, qualquer uma Existe.

encontrando sequências convergentes com K-mers

nesta secção, veremos como é dada uma secção de um único ADN, como podemos encontrar sequências curtas conservadas. As sequências conservadas que procuramos são chamadas de motivos regulatórios. Motivos regulatórios são segmentos de DNA curtos (por exemplo, 15-30 ácidos nucleicos) que controlam a expressão de genes, ou seja, quantas vezes um gene é transcrito, e, portanto, quanto da proteína correspondente é produzida.

K-mers são substratos do comprimento k que são encontrados na cadeia de entrada. No caso da genómica computacional, a cadeia de entrada representa uma sequência de aminoácidos ou ácidos nucleicos. Por exemplo, 5-mers referem-se a substratos do comprimento 5, e 7-Mer referem-se a substratos do comprimento 7.

o problema mais frequente de K-mers

nós enquadramos o problema de encontrar sequências curtas conservadas da seguinte forma. Dada a sequência de entrada de aminoácidos ou ácidos nucleicos, encontrar o K-mer que ocorre mais frequentemente. Tomemos um exemplo

temos os seguintes dados,

entrada:

sequência: ACGTTGCATGTCATGCATGCATGCATGAGCT

k = 4

resultado esperado:

exemplo:

podemos usar a técnica de janela deslizante para encontrar todos os K-mers. Vamos anotar tudo o k-mers,

ACGT : CGTT : GTTG : TTGC : TGCA : GCAT : CATG : ATGT : TGTC : GTCG : TCGC : CGCA : GCAT : CATG : ATGA : TGAT : GATG : ATGC : TGCA : GCAT : CATG : ATGA : TGAG : GAGA : a AGAGUE : GAGC : AGCT

neste exemplo, vemos que a 4-mers CATG e GCAT são as que ocorrem mais frequentemente 4-mers, como eles aparecem 3 vezes cada.

Allowing Mismatches in K-mers

However, from experiments in biology, we’ve found out that it is possible for conserved sequences to undergo minor changes. Como tal, precisamos gastar o problema acima para lidar com desfasamentos.

por exemplo, ATCCGAT e ATCGAA têm 2 desfasamentos, um nas posições 4 e outro na posição 7. Vamos ver como podemos definir o problema de encontrar os K-Mer mais frequentes com mesada para desfasamentos.

entrada:

sequência: ACGTTGCATGTCGCATGATGCATGAGCT

K = 4, d = 1

resultado esperado:

4-Mer mais frequentes com dedução de 1 desfasamento por K-mer.

exemplo:

tomamos a mesma sequência de exemplo como no problema anterior. Assim, a lista para todos os 4-Mer possíveis é inalterada. Eles foram como segue:

ACGT : CGTT : GTTG : TTGC : TGCA : GCAT : CATG : ATGT : TGTC : GTCG : TCGC : CGCA : GCAT : CATG : ATGA : TGAT : GATG : ATGC : TGCA : GCAT : CATG : ATGA : TGAG : GAGA : a AGAGUE : GAGC : AGCT

no Entanto, o nosso resultado final vai mudar agora, temos de ter em conta todas as possibilidades com 1 incompatibilidade permitido.

Se tomarmos GATG por exemplo, há 5 k-mers na seqüência acima, que correspondem GATG permitindo uma incompatibilidade, i.e. GTTG, CATG, CATG, GATG e CATG. Da mesma forma, existem 5 K-mers correspondentes para ATGC e ATGT também. Assim, o nosso resultado para os K-mers mais frequentes com subsídio para 1 desfasamento é GATG, ATGC (jogos TTGC, ATGT, ATGA, ATGC, ATGA) e ATGT (jogos ACGT, ATGT, ATGA, ATGC, ATGA).

algoritmo passo-a-passo para o problema de K-Mer

o seguinte é um procedimento simples para resolver o problema acima:-

  • Criar uma lista L de todos os K-mers na cadeia original
  • Para cada K-mer X na cadeia original
    • Considerar todos os K-mer Y na cadeia original
      • Contagem do número de inadequações m entre X e Y
      • Se m <= d e, em seguida, aumentar a pontuação de X por 1
  • Resultado = K-mer X com maior pontuação

Eficiência Computacional: Se o comprimento original da corda é L, o algoritmo faz sobre L2K cálculos. Note que L pode às vezes ser bastante grande, digamos 10s de milhões ou mesmo bilhões (o DNA humano tem composto de cerca de 3-4 bilhões de ácidos nucleicos).

Correctness: the above algorithm works only if the K-mer appears correctly (without any mismatches) at-least once in the DNA sequence. Embora isso não seja necessário, na prática é geralmente o caso. Este é o caso de muitos algoritmos em bioinformática, em que um algoritmo não é provado para dar resultados ótimos o tempo todo, mas na prática, ele funciona muito bem.

Deixe uma resposta

O seu endereço de email não será publicado.