保存された配列
この記事では、保存された配列の概念を紹介し、その生物学的意義についても説明します。 次に、保存された配列を見つける問題を、与えられた配列内の最も一般的なK-merを見つける問題にどのように減らし、問題をより生物学的にもっとも 最後に、不一致を伴うK-mer問題を解決するための簡単なアルゴリズムを見ていきます。
進化生物学および遺伝学において、保存された配列とは、世代を超えて異なる種または同じ種に存在するDNAまたはRNAまたはアミノ酸(タンパク質)の同 これらの配列は、それらの組成において非常に最小限の変化を示し、時には世代にわたって全く変化を示さない。
次の例は、種間の配列の保存が実際にどのように見えるかを示しています:
この画像では、哺乳類のヒストン蛋白質のアミノ酸配列とその保存された領域を見ています。 灰色で示されたものはすべての種で保存されていますが、異なる種にわたって変化する傾向がある白のギャップがあります。
保存された配列の一般的な例は次のとおりです,
- 複数の場所でゲノム中に保存されている翻訳および転写関連配列
- リボソーム中の特定のRNA成分は、様々な種にわたって高度に保存されていることが判明
- tmRNAは、複数の細菌種で保存されていることが判明
- タタ(反復領域)およびホメオボックス(幅広い種における胚発生の調節に関与する)のような他の例。
保存されたドメインNCBIで利用可能なデータベースには、さまざまな生物やゲノムの保存された配列に関する広範なリソースがあります。 これは、保存された配列を識別するために、タンパク質特異的スコアリング行列を使用しています。
保存された配列は、オルソロガスとパラロガスの二つの主要なカテゴリに分類することができる。 保存された配列は、同一の配列が種間で発見されたときにオルソロガスと呼ばれ、同一の配列が世代にわたって同じゲノム内で発見されたときにパラロガスと呼ばれる。
オーソロガス保存配列の例: 脊椎動物、ワーム、昆虫および酵母ゲノム(PubMed Central PMCID:PMC1182216)のゲノムに関する研究では、脊椎動物の5種(ヒト、ラット、マウス、ニワトリおよびフグのrubripes)、Caenorhabditisの2種およびSaccharomycesの7種のゲノムワイドアラインメントにわたって保存された要素を発見した。 分析された保存された要素は、ヒトゲノムの3%-8%であり、よりコンパクトなショウジョウバエmelanogaster(37%-53%)、Caenorhabditis elegans(18%-37%)、およびSaccharaomyces cerevisiae(47%-68%)ゲノムの実質的に高い画分であるこ
パラロガス収束配列の例:ヒトのヘモグロビン遺伝子のDNA配列は、チンパンジーのゲノムとミオグロビン遺伝子配列上の複数の場所で同一であることが判明した。
核酸またはアミノ酸配列が極端に保存されている場合をよく見ますが、これらは超保存配列と呼ばれています。 例えば、脊椎動物のある種の配列は、劇的に変化する広範囲に異なる分類群において見出されている。 別のケースでは、我々は、ほぼすべての生物を含む普遍的に保存された配列を有し、そのような配列の例は、GTP結合伸長因子、リボソームRNAおよびtRNAなどである。
保存された配列の意義
異なるゲノムに見られる保存された配列は、コード配列または非コード配列のいずれかであり得る。 コード配列として、アミノ酸および核酸は、特定のタンパク質の構造および機能を保持するために保存されることが多い。 これらの配列は最小限の変化を受ける。 変化が起こると、それらは通常、アミノ酸または核酸を生化学的に類似したものに置き換えます。 同様に、他のmRNA関連核酸配列はしばしば保存される。 リボソーム部位、転写因子、結合部位などのような非コード配列も保存された配列である。
計算上の意義
保存された配列は、異なる生物や種の間で相同性(類似性)を見つけるのに役立ちます。 系統発生の関係と木を開発することができ、保存された配列に関するデータを使用して効果的な祖先を見つけることができました。 一般的な例は、保存された配列「1 6S RNA」であり、これは、種々の細菌門間の系統発生関係を再構築するために使用される。
保存された配列は、遺伝的障害および突然変異の発生をマークするためにも使用することができる。 それらに共通する特定の保存された配列を有するゲノムを比較することにより、我々は容易に異常を識別することができ、任意の存在。
K-mersとの会話配列の発見
このセクションでは、単一のDNAのセクションが与えられたとき、どのようにして短い保存された配列を見つけることがで 私たちが探している保存された配列は、調節モチーフと呼ばれています。 調節モチーフは、遺伝子の発現を制御する短いDNAセグメント(例えば15-30核酸)であり、すなわち、遺伝子が転写される回数、したがって対応するタンパク質の
K-mersは、入力文字列内にある長さkの部分文字列です。 計算ゲノミクスの場合、入力文字列はアミノ酸または核酸の配列を表します。 たとえば、5-mersは長さ5の部分文字列を指し、7-mersは長さ7の部分文字列を指します。
最も頻繁なK-mers問題
短い保存配列を見つける問題を以下のようにフレーム化します。 アミノ酸または核酸の入力配列を考えると、最も頻繁に発生するK-merを見つけます。 例を見てみましょう
我々は、次のデータを持っています,
入力:
シーケンス:ACGTTGCATGTCGCATGATGCATGAGAGCT
K=4
期待される結果:
入力シーケンスから最も頻繁に発生する4-mer.
例:
スライディングウィンドウ手法を使用して、すべてのK-mersを見つけることができます。 この例では、
ACGT:CGTT:GTTG:TTG:TGC:TGCA:GCAT:CATG:ATGT:TGTC:GTCG:TCGC:CGCA:GCAT:CATG:ATGA:TGAT:GATG:ATGC:TGCA:GCAT:CATG:ATGA:TGAG:GAGA:AGAG:GAGC:AGCT
この例では、
この例では、
この例では、
この例では、
この例では、
この例では、
この例では、
4-mers catgとgcatは、それぞれ3回現れるので、最も頻繁に発生する4-mersであることがわかります。
K-mersのミスマッチを可能にする
しかし、生物学の実験から、保存された配列がマイナーな変更を受ける可能性があることがわかりました。 そのため、不一致を処理するために上記の問題を費やす必要があります。
たとえば、ATCCGATとATCGGAAには2つの不一致があり、1つは4位、もう1つは7位です。 不一致を許容する最も頻繁なk-mersを見つける問題をどのように定義できるかを見てみましょう。
入力:
シーケンス:ACGTTGCATGTCGCATGATGCATGAGAGCT
K=4,d=1
期待される結果:
最も頻繁な4-merで、K-merあたり1つの不一致が許容されます。
例:
前の問題と同じ例のシーケンスを取っています。 したがって、すべての可能な4-mersのリストは変更されません。 それらは以下の通りであった:
ACGT:CGTT:GTTG:TTGC:TGCA:GCAT:CATG:ATGT:TGTC:GTCG:TCGC:CGCA:GCAT:CATG:ATGA:TGAT:GATG:ATGC:TGCA:GCAT:CATG:ATGA:TGAG:GAGA:AGAG:GAGC:AGCT
しかし、最終結果は今のように変わります1つのミスマッチが許可されているすべての可能性を考慮する必要があります。
たとえば、GATGを取ると、上記のシーケンスにはGATGに一致する5つのk-mersがあり、GTTG、CATG、CATG、GATG、CATGが1つの不一致を可能にします。 同様に、ATGCとATGTにも5つの一致するk-merがあります。 したがって、1つの不一致を許容する最も頻繁なk-mersの結果は、GATG、ATGC(TTGC、ATGT、ATGA、ATGC、ATGAに一致)およびATGT(ACGT、ATGT、ATGA、ATGC、ATGAに一致)です。
K-mers問題のステップバイステップのアルゴリズム
以下は、上記の問題を解決するための簡単な手順です:-
- 元の文字列
- 内のすべてのK-mer Xについて
- 元の文字列
- 内のすべてのK-mer Yを考えてみましょう
- XとYの間の不一致mの数を数えます
- m<=dの場合、Xのスコアを1
- 計算効率:文字列の元の長さがLの場合、アルゴリズムはL2K計算について行います。 Lは非常に大きくなることがあり、例えば10億または数十億(ヒトDNAは約3-4億の核酸を含む)であることに注意してください。
正しさ:上記のアルゴリズムは、K-merがDNA配列内で少なくとも一度は正しく表示される場合にのみ機能します(不一致はありません)。 これは必要ではありませんが、実際には通常これが当てはまります。 これは、アルゴリズムが常に最適な結果を与えることが証明されていないバイオインフォマティクスの多くのアルゴリズムの場合ですが、実際には非常にうまく機能します。