Vergleichende Studie von Tools zur Erkennung von Kopienzahlvariationen auf Basis der gesamten Exomsequenzierung

Sensitivität und Spezifität

In unserer Studie haben wir die Sensitivität und Spezifität verwendet, um die Leistung dieser ausgewählten Tools zu bewerten. Da in diesem Prozess die Abdeckung, die CNV-Größe und der CNV-Typ der WES-Daten die Leistung von Werkzeugen beeinflussen können, haben wir drei Arten von Daten simuliert und die Änderungen der Leistung der CNV-Werkzeuge in Bezug auf diese drei Faktoren untersucht. Die Ergebnisse werden wie folgt dargestellt.

Abdeckung

Um die Auswirkungen der Abdeckung auf die CNV-Erkennungsleistung dieser Tools zu bewerten, haben wir eine Reihe von WES-Datensätzen mit einer Abdeckung von 3X, 10X, 30X und 100X betrachtet, bei denen die Wahrscheinlichkeit von Einfügungen gleich der Wahrscheinlichkeit von Löschungen ist. Dann haben wir die ausgewählten Tools verwendet, um CNVs aus diesen Daten zu erkennen. Die Ergebnisse sind in Abb. 1. Abbildung 1a und b zeigt die Änderungen der Sensitivitäten (TPRs) und Spezifitäten (TNRs) dieser Tools in Bezug auf die Abdeckung, und Abb. 1c zeigt die Anzahl der von diesen Tools erkannten CNVs mit verschiedenen Deckungen.

Abb. 1
 abbildung1

Die Leistungsänderungen der Werkzeuge in Bezug auf die Abdeckung. Fig a und b beschreiben die Veränderungen der Sensitivitäten (TPRs) und Spezifitäten (TNRs) dieser Werkzeuge in Bezug auf die Abdeckung, und Fig c beschreibt die Anzahl der detektierten CNVs in verschiedenen Abdeckungen für diese Werkzeuge.

Aus Fig. 1, erhalten wir drei Hauptschlussfolgerungen: Zuerst nimmt die Empfindlichkeit (TPR) schnell zu und stabilisiert sich anschließend mit der Zunahme der Datenabdeckung, die durch den Deckeneffekt verursacht werden kann. Zweitens nimmt die Spezifität (TNR) insgesamt mit zunehmender Sensitivität ab. Schließlich nimmt die Anzahl der erkannten CNVs jedes Werkzeugs zunächst zu und bleibt anschließend mit zunehmender Abdeckung der Daten unverändert. Nach diesen Ergebnissen ist die Abdeckung von 100X in der Praxis ausreichend, für die die Sensitivitäten und Spezifitäten dieser Werkzeuge zufriedenstellend sind, und die Rechenlast ist viel geringer als die für die Daten mit höherer Abdeckung.

CNV–Größe

Um den Einfluss der CNV–Größe auf die CNV-Erkennungsleistung zu bewerten, simulierten wir eine Reihe von Datensätzen als Eingabe, für die die CNV–Größen in 1 kb-10 kb, 10 kb-100 kb, 100 kb-1 Mb und 1 Mb-10 Mb verteilt sind, während die Abdeckung 100X ist und jeder CNV-Typ (Löschen und Einfügen) mit gleicher Häufigkeit unter ihnen auftritt. Dann haben wir die ausgewählten Tools verwendet, um CNVs aus diesen Datensätzen zu erkennen. Die Ergebnisse sind in Abb. 2. Abbildung 2a und b zeigen die Änderungen der Sensitivitäten (TPRs) und Spezifitäten (TNRs) dieser Werkzeuge in Bezug auf die CNV-Größe, und Abb. 2c zeigt die Anzahl der erfassten CNVs verschiedener CNV-Größen für diese Werkzeuge. Für die Abszissenachse der Fig. 2a und b ist die CNV-Größe * ein Wert, der aus der CNV-Größe berechnet wird, indem die CNV-Größe durch 1000 dividiert, der Logarithmus zur Basis 10 berechnet und der Wert aufgerundet wird. Wenn die CNV-Größe beispielsweise 111 KB beträgt, beträgt die CNV-Größe * 3, und wenn die CNV-Größe 9 MB beträgt, beträgt die CNV-Größe * 4.

Abb. 2
 abbildung2

Die Leistungsänderungen der Werkzeuge in Bezug auf die CNV-Größe. Fig a und b zeigen die Veränderungen der Sensitivitäten (TPRs) und Spezifitäten (TNRs) dieser Werkzeuge in Bezug auf die CNV-Größe, und Fig c zeigt die Anzahl der detektierten CNVs in verschiedenen CNV-Größen für diese Werkzeuge.

Aus Fig. 2, ziehen wir zwei Hauptschlussfolgerungen: Erstens nimmt für alle diese Werkzeuge die Empfindlichkeit anfänglich zu und bleibt anschließend unverändert oder nimmt mit zunehmender CNV-Größe geringfügig ab, während die Spezifität mit zunehmender Empfindlichkeit abnimmt und die Anzahl der detektierten CNVs mit zunehmender CNV-Größe zunimmt. Zweitens ändern sich die Leistungen dieser Werkzeuge mit der CNV-Größe, und die empfohlenen Werkzeuge unterscheiden sich zwischen den Fällen. Wenn die angestrebte CNV-Größe beispielsweise zwischen 1 kb und 100 kb liegt, übertrifft CNVkit andere Tools in Bezug auf Sensitivität und Spezifität umfassend, während CNVkit bei einer angestrebten CNV-Größe zwischen 100 kb und 10 Mb.MOPS führt am besten umfassend in Bezug auf die Empfindlichkeit und Spezifität.

Nachdem wir die Sensitivitäten und Spezifitäten dieser Tools für verschiedene CNV-Größen erhalten hatten, berechneten wir die globalen Sensitivitäten und Spezifitäten dieser Tools, indem wir ihre Sensitivitäten und Spezifitäten über verschiedene CNV-Größen gemittelt hatten, da die Ziel-CNVs möglicherweise unbekannt sind. Die Ergebnisse sind in Tabelle 4 dargestellt. Nach den Angaben in dieser Tabelle, cn.MOPS ist eine geeignete Wahl für die klinische Forschung, da seine Spezifität und Sensitivität umfassend zufriedenstellend sind.

Tabelle 4 Die globale Sensitivität und die globale Spezifität von vier CNV-Tools

CNV-Typ

Um festzustellen, ob der CNV-Typ die CNV-Erkennung beeinflusst oder nicht, simulierten wir eine Reihe von Datensätzen, von denen die Abdeckung 100X beträgt, die CNV-Größe zufällig ist und die CNV-Typen mit gleicher Häufigkeit auftreten. Anschließend haben wir die ausgewählten Tools zum Erkennen von CNVs verwendet und die Anzahl der erkannten CNVs jedes Typs gezählt. Die Ergebnisse sind in Abb. 3.

Abb. 3
 abbildung3

Die Anzahl der erkannten CNV für verschiedene CNV-Typen.

Aus Fig. 3 schließen wir Folgendes ab: Erstens können alle diese Tools nicht nur CNV-Einfügungen, sondern auch CNV-Deletionen erkennen. Zweitens schneiden alle Werkzeuge außer CoNIFER bei CNV-Deletionen besser ab als bei CNV-Insertionen. Drittens, obwohl CoNIFER für Insertionen eine bessere Leistung erbringt als für Deletionen, ist es möglicherweise nicht die beste Leistung unter all diesen Werkzeugen für Insertionen, von denen die Leistung auch von der Verteilung der CNV-Größe abhängt.

Überlappende Konsistenz

Um die Konsistenz dieser CNV-Tools zu bewerten, haben wir in unserer Studie Überlappungstests an simulierten Daten und realen Daten durchgeführt.

Für die simulierten Daten haben wir zunächst eine Reihe von Datensätzen simuliert, deren Abdeckung 100X beträgt und deren CNV-Größe und -Typ zufällig sind. Dann haben wir die ausgewählten vier Tools verwendet, um CNVs zu erkennen. Schließlich zeichneten wir ein Venn-Diagramm der Detektionsergebnisse, das in Abb. 4a.

Abb. 4
 abbildung4

Die überlappende Konsistenz ergibt sich. Abb. a und b zeigen die simulierten Daten und realen Daten.

Für die realen Daten haben wir zuerst Exome-Beispiele von CNVkit heruntergeladen und sie als Originaldaten verwendet. Anschließend haben wir die Originaldaten (im CNN-Format) in die Formate konvertiert, die von den anderen drei CNV-Tools benötigt werden: RPKM-Format für CoNIFER, GRange-Format für exomeCopy und S4 für cn.MOPP. Schließlich entdeckten wir CNVs und zeichneten ein Venn-Diagramm, indem wir das gleiche Verfahren wie für die simulierten Daten befolgten. Das Venn-Diagramm ist in Fig. 4b.

Mit den Angaben in Fig. 4 haben wir die Überlappungsraten (definiert im Abschnitt Vergleichskriterien) dieser vier Werkzeuge berechnet, um ihre Konsistenz zu quantifizieren, die in Tabelle 5 aufgeführt sind.

Tabelle 5 Die Überlappungsraten von vier CNV-Werkzeugen

Gemäß Tabelle 5 die Überlappungsraten von Nadelbaum, CNVkit und cn.MOPS übersteigen 90% für die simulierten Daten; daher realisieren sie eine zufriedenstellende Konsistenz bei der Erkennung von CNVs, und ihre Ergebnisse sind sehr vertrauenswürdig. Darüber hinaus cn.MOPS und Koniferen erzielen auch eine zufriedenstellende Konsistenz (86 und 67%) beim Nachweis von CNVs aus realen Daten.

Nicht alle dieser Tools erzielen jedoch eine zufriedenstellende Konsistenz. Die Überlappungsrate von exomeCopy ist immer gering (23% bei simulierten Daten und 3% bei realen Daten). Um die Ursache dieses Phänomens zu ermitteln, haben wir viele andere Studien überprüft und festgestellt, dass unser Ergebnis den Ergebnissen von Tan (22%) ähnelt , wonach die Überlappungsrate der Exomekopie mit ihren Algorithmen zusammenhängt.

Darüber hinaus haben wir festgestellt, dass die Überlappungsraten der Tools für simulierte Daten in unserem Test höher sind als für reale Daten. Um zu bestimmen, was zu diesem Phänomen geführt hat, haben wir die Venn-Diagramme von drei von vier Werkzeugen erstellt, die zufällig ausgewählt wurden. Die Ergebnisse sind in Abb. 5.

Abb. 5
 abbildung5

Venn-Diagramme von drei CNV-Tools. Fig a ist für Nadelbaum, cn.MOPS und exomeCopy, Fig b ist für Nadelbaum, cn.MOPS und CNVkit, Fig c ist für CNVkit, cn.MOPS und exomeCopy, und Fig d ist für Nadelbaum, CNVkit und exomeCopy.

Gemäß Fig. 5, alle kombinationen von drei dieser vier werkzeuge haben gemeinsame exons außer die kombination von exomeCopy, cn.MOPS und Nadelbaum, was daran liegt, dass die Anzahl der nachgewiesenen Exons von cn.MOPS ist im Vergleich zu anderen Tools zu klein. Aus den Detektionsergebnissen zu den simulierten Daten ergibt sich jedoch cn.MOPS übertrafen die meisten Tools in Bezug auf globale Sensitivität und Spezifität, was nicht mit dem Ergebnis überlappender Konsistenz übereinstimmt. Basierend auf den Ergebnissen der simulierten Daten glauben wir, dass die zugrunde liegenden Ursachen für dieses Phänomen darin liegen können, dass sich die CNV-Größen der Proben nicht auf 10 kb bis 1 MB konzentrieren und die Anzahl der CNV-Insertionen die Anzahl der CNV-Deletionen übersteigt, was dazu führen kann, dass die Anzahl der Fehlerkennungen für exomeCopy und CNVkit weitaus größer ist als für cn.MOPS und Nadelbaum.

Rechenkosten

Um diese CNV-Tools umfassend zu bewerten, haben wir auch die Rechenkosten als Bewertungskriterium verwendet, das die zeitliche Komplexität und die räumliche Komplexität umfasst. Die Ergebnisse werden wie folgt dargestellt.

Zeitkomplexität

Um die Zeitkomplexität dieser Tools zu bestimmen, haben wir in unserer Studie eine Reihe von Datensätzen als Eingabe simuliert, deren Abdeckung 100X beträgt und deren Größe nahe bei 11,2 MB liegt. Da wir dann nicht über den detaillierten Algorithmus dieser Tools verfügen, haben wir die Zeitkomplexität jedes Tools berechnet, indem wir die durchschnittliche Laufzeit und die CPU-Auslastung multipliziert haben. Die Ergebnisse sind in Abb. 6.

Abb. 6
 abbildung6

Die Zeitkomplexitäten von exomeCopy, CoNIFER, CNVkit und cn.MOPP.

Gemäß Fig. 6, kn.MOPS hat die geringste Zeitkomplexität; Daher wird es die minimale Zeit für die gleiche Datenverarbeitung unter diesen Tools erfordern. CNVkit hat die höchste Zeitkomplexität, während es eine zufriedenstellende Sensitivität und Spezifität realisiert.

Raumkomplexität

Um festzustellen, ob das CNV-Tool während der Ausführung andere Programme beeinflusst, haben wir eine Reihe von Datensätzen als Eingabe simuliert, von denen die Abdeckung 100X beträgt und die Größe nahe bei 11,2 MB liegt. Anschließend haben wir mit den ausgewählten Tools CNVs aus diesen Datensätzen erkannt und die durchschnittliche Speicherbelegung als Charakterisierungsgröße der Raumkomplexität berechnet. Die Ergebnisse sind in Abb. 7.

Abb. 7
 abbildung7

Die Raumkomplexitäten von exomeCopy, CoNIFER, CNVkit und cn.MOPP.

Gemäß den Angaben in Fig. 7 hat CoNIFER die niedrigste Speicherbelegung für die gleiche Datenverarbeitung unter diesen Werkzeugen; Daher hat es die Mindestanforderungen an Computerhardware. kn.MOPS hat die höchste Speicherbelegung unter diesen Werkzeugen, während es die niedrigste Zeitkomplexität aufweist, und dies liegt daran, dass die Zeitkomplexität und die Raumkomplexität gegenseitig eingeschränkt sind.

Schreibe einen Kommentar

Deine E-Mail-Adresse wird nicht veröffentlicht.