全エクソームシーケンスベースのコピー数変異検出ツールの比較研究

感度と特異性

私たちの研究では、これらの選択したツールの性能を評価するために感度と特異性を使用しました。 このプロセスでは,wesデータのカバレッジ,CNVサイズおよびCNVタイプがツールの性能に影響する可能性があるため,三つのタイプのデータをシミュレートし,これら三つの要因に関するCNVツールの性能の変化を調べた。 その結果を以下のように示した。

カバレッジ

これらのツールのCNV検出性能に対するカバレッジの影響を評価するために、挿入の確率が削除の確率に等しい3X、10X、30x、100Xのカバレッジを持つ一連のWESデータセットを検討しました。 次に、選択したツールを使用して、これらのデータからCnvを検出しました。 その結果を図1 0に示す。 1. 図1aおよびbは、カバレッジに対するこれらのツールの感度(TPRs)および特異性(TNRs)の変化を示し、図1aおよびbは、カバレッジに対するこれらのツールの感度(TPRs) 1cは、これらのツールによって検出されたCnvの数を様々なカバレッジで示します。

図1.1.1. 1
図1

適用範囲に関する用具の性能の変更。 図aおよびbは、カバレッジに関するこれらのツールの感度(TPRs)および特異性(TNRs)の変化を記述し、図cは、これらのツールの異なるカバレッジで検出されたCnv

図から。 まず、感度(TPR)は急速に増加し、その後、天井効果によって引き起こされる可能性のあるデータのカバレッジの増加に伴って安定する。 第二に、特異性(TNR)は、感度の増加とともに全体的に減少する。 最後に、すべてのツールの検出されたCnvの数は、最初は増加し、その後、データのカバレッジの増加に伴って変更されません。 これらの結果によると、100Xのカバレッジは、これらのツールの感度と特異性が満足できる実際には十分であり、計算負担はより高いカバレッジを持つデー

CNVサイズ

CNVサイズがCNV検出性能に及ぼす影響を評価するために、CNVサイズが1kb–10kb、10kb–100kb、100kb-1Mb、1Mb–10Mbに分布し、カバレッジが100倍であり、各CNVタイプ(削除と挿入)が等しい頻度で発生する一連のデータセットを入力としてシミュレートした。 次に、選択したツールを使用して、これらのデータセットからCnvを検出しました。 その結果を図1 0に示す。 2. 図2aおよびbは、CNVサイズに対するこれらのツールの感度(Tpr)および特異性(Tnr)の変化を示し、図2Aおよびbは、CNVサイズに対するこれらのツールの感度(Tpr) 図2Cは、これらのツールのための種々のCNVサイズの検出されたCnvの数を示す。 図の横軸について。 CNVサイズ*は、CNVサイズを1 0 0 0で除算し、1 0を底とする対数を計算し、その値を切り上げることによってCNVサイズから計算される値である。 たとえば、CNVサイズが111kbの場合、CNVサイズ*は3であり、CNVサイズが9Mbの場合、CNVサイズ*は4です。

図1.1.1. 2
図2

CNVのサイズに関する用具の性能の変更。 図aおよびbは、CNVサイズに対するこれらのツールの感度(TPRs)および特異性(TNRs)の変化を示し、図cは、これらのツールの異なるCNVサイズで検出されたCnvの数を示

図から。 2、我々は二つの主要な結論を導きます: まず、これらすべてのツールについて、感度は最初に増加し、その後変化しないままであるか、CNVサイズの増加とともにわずかに減少し、感度が増加すると特異性は減少し、検出されたCnvの数はCNVサイズが増加するにつれて増加する。 第二に、これらのツールの性能はCNVサイズとともに変化し、推奨ツールはケースによって異なります。 例えば、標的とされたCNVサイズが1kb〜1 0 0kbの間である場合、Cnvkitは感度および特異性の点で他のツールより包括的に優れ、一方、標的とされたCNVサイズが1 0 0kb〜1 0Mbの間である場合、cnよりも優れている。MOPSは感受性および特定性の点では最もよく包括的に行う。

さまざまなCNVサイズに対するこれらのツールの感度と特異性を得た後、対象となるCnvは不明である可能性があるため、さまざまなCNVサイズに対する その結果を表4に示す。 この表の情報によると、cn。MOPSは特定性および感受性が包括的に満足であるので未知の研究のための適した選択である。

表4 4つのCNVツールのグローバル感度とグローバル特異度

CNVタイプ

CNVタイプがCNV検出に影響するかどうかを判断するために、カバレッジが100倍、CNVサイズがランダム、CNVタイプが等しい頻度で発生する一連のデー 次に、選択したツールを使用してCnvを検出し、各タイプの検出されたCnvの数をカウントしました。 その結果を図1 0に示す。 3.

図1.1.1. 3
図3

異なるCNVタイプの検出されたCNVの数。

図から。 まず、これらのツールはすべて、CNV挿入だけでなくCNV削除も検出できます。 第二に、CoNIFERを除くすべてのツールは、CNV挿入よりもCNV削除の方が優れています。 第三に、CoNIFERは挿入に対して削除よりも優れていますが、これらすべての挿入ツールの中で最高のパフォーマンスを発揮するわけではなく、そのパフォーマンスはCNVサイズの分布にも依存します。

重複一貫性

我々の研究では、これらのCNVツールの一貫性を評価するために、シミュレートされたデータと実際のデータに対して重複テストを実施しました。

シミュレートされたデータについて、まず、カバレッジが100Xで、CNVのサイズとタイプがランダムな一連のデータセットをシミュレートしました。 次に、選択した4つのツールを使用してCnvを検出しました。 最後に、検出結果のベン図を描き、これを図に示した。 4a.

図1.1.1. 4
図4

重複する一貫性の結果。 図aとbは、シミュレートされたデータと実データを示しています。

実際のデータについては、まずCNVkitからexomeの例をダウンロードし、元のデータとして使用しました。 次に、元のデータ(cnn形式)を他の3つのCNVツールで必要とされる形式に変換しました:CoNIFERのためのRPKM形式、exomeCopyのためのGRange形式、cnのためのS4。モップ 最後に、Cnvを検出し、シミュレートされたデータと同じ手順に従ってベン図を描きました。 ベン図は、図1に示されている。 図4b.

の情報を用いる。 本発明者らは、図4を参照して、表5に列挙される、それらの一貫性を定量化するために、これら4つのツールの重複率(比較基準の節で定義)を計算した。

表5 4つのCNVツールのオーバーラップ率

表5によれば、コニファー、Cnvkitおよびcnの重複率である。シミュレートされたデータのMOPSが90%を超える; したがって、それらはCnvの検出において満足のいく一貫性を実現し、その結果は非常に信頼できるものである。 また、cn.MOPSとCoNIFERは、実データからのCnvの検出についても満足のいく一貫性(86%と67%)を実現します。

しかし、これらのツールのすべてが満足のいく一貫性を実現するわけではありません。 ExomeCopyの重複率は常に低いです(シミュレートされたデータでは23%、実際のデータでは3%)。 この現象の原因を特定するために、我々は他の多くの研究を見直し、我々の結果はtanの結果(22%)と同様であり、それによればexomeCopyの重複率はそのアルゴリズムに関

さらに、シミュレートされたデータのツールの重複率は、私たちのテストでは実際のデータの重複率よりも高いことがわかりました。 この現象の原因を特定するために、ランダムに選択された4つのツールのうち3つのベン図を作成しました。 その結果を図1 0に示す。 5.

図1.1.1. 5
図5

ベン図は3つのCNVツールの図である。 イチジクaは針葉樹、cnのためである。モップとexomeCopy、イチジクbは針葉樹、cnのためのものです。MOPSとCNVkit、図cはCNVkit、cnのためのものです。モップとexomeCopy、および図dは針葉樹、CNVkitとexomeCopyのためのものです。

る。 5つは、これらの四つの用具の三つのすべての組合せexomeCopy、cnの組合せを除いて共通のエクソンを持っています。モップとコニファーは、cnによって検出されたエクソンの数からである。MOPSは他のツールと比較して小さすぎます。 しかし、シミュレートされたデータ上の検出結果から、cn。MOPSは、一貫性の重複の結果に沿ったものではない、グローバルな感度と特異性の点で、ほとんどのツールを上回っていました。 シミュレートされたデータからの結果に基づいて、この現象の根本的な原因は、サンプルのCNVサイズが10kbから1Mbに焦点を当てておらず、CNV挿入の数がCNV欠失の数を超えているため、exomeCopyとCNVkitの偽検出の数がcnのものよりもはるかに大きい可能性があると考えられている。モップとコニファー。

計算コスト

これらのCNVツールを包括的に評価するために、時間の複雑さと空間の複雑さを含む評価基準として計算コストを使用しました。 その結果を以下のように示した。

時間の複雑さ

私たちの研究では、これらのツールの時間の複雑さを決定するために、カバレッジが100倍でサイズが11.2MBに近い一連のデータセットを そして、これらのツールの詳細なアルゴリズムを持っていないので、平均実行時間とCPU使用率を乗じて各ツールの時間の複雑さを計算しました。 その結果を図1 0に示す。 6.

図1.1.1. 6
図6

の時間の複雑さは、exomeCopy、コニファー、CNVkitとcnの。モップ

る。 6、cn。したがって、これらのツール間で同じデータ処理に最小の時間が必要になります。 CNVkitは、満足のいく感度と特異性を実現しながら、最高の時間の複雑さを持っています。

スペースの複雑さ

CNVツールが実行中に他のプログラムに影響を与えるかどうかを判断するために、カバレッジが100倍、サイズが11.2MBに近い一連のデー 次に,これらのデータセットからCnvを検出するために選択したツールを使用し,空間複雑度の特性化量として平均メモリ占有率を計算した。 その結果を図1 0に示す。 7.

図1.1.1. 7
図7

の空間の複雑さは、エクソメコピー、コニファー、CNVkitとcnの。モップ

の情報によれば、図1 4の情報による。 7つの針葉樹にこれらの用具間の同じデータ処理のための最も低い記憶占有があります;それ故に、それにコンピュータハードウェアのための最小要件が cn.MOPSのメモリ占有率はこれらのツールの中で最も高く、時間の複雑さは最も低く、これは時間の複雑さと空間の複雑さが相互に制約されているためです。

コメントを残す

メールアドレスが公開されることはありません。