Comparative study of whole exome sequencing-based copy number variation detection tools

gevoeligheid en specificiteit
Coverage
CNV-grootte
CNV-type
overlappende consistentie
computationele kosten
tijdscomplexiteit
ruimtecomplexiteit

gevoeligheid en specificiteit

In onze studie hebben we de gevoeligheid en specificiteit gebruikt om de prestaties van deze geselecteerde tools te evalueren. Aangezien de dekking, de CNV-grootte en het CNV-type van de WES-gegevens van invloed kunnen zijn op de prestaties van gereedschappen, simuleerden we drie soorten gegevens en bestudeerden we de veranderingen in de prestaties van de CNV-gereedschappen met betrekking tot deze drie factoren. De resultaten worden als volgt gepresenteerd.

Coverage

om het effect van de coverage op de CNV-detectieprestaties van deze tools te evalueren, hebben we een reeks WES-datasets met coverages van 3X, 10X, 30X en 100X overwogen waarbij de kans op inserties gelijk is aan de kans op deleties. Vervolgens hebben we de geselecteerde tools gebruikt om CNV ‘ s uit deze gegevens te detecteren. De resultaten zijn weergegeven in Fig. 1. Figuur 1a en b geven de veranderingen weer van de gevoeligheden van deze instrumenten (TPRs) en specifieke kenmerken (TNRs) met betrekking tot de dekking, en Fig. 1c presenteert de aantallen gedetecteerde CNV ‘ s door deze tools met verschillende dekkingen.

Van Fig. 1, we verkrijgen drie belangrijke conclusies: ten eerste, de gevoeligheid (TPR) neemt snel toe en vervolgens stabiliseert met de toename van de dekking van de gegevens, die kan worden veroorzaakt door het plafond effect. Ten tweede neemt de specificiteit (TNR) over het algemeen af met de toename van de gevoeligheid. Ten slotte neemt het aantal gedetecteerde CNV ‘ s van elke tool aanvankelijk toe en blijft het vervolgens onveranderd met de toename van de dekking van de gegevens. Volgens deze resultaten is de dekking van 100X in de praktijk voldoende, waarvoor de gevoeligheden en specifieke kenmerken van deze instrumenten bevredigend zijn en de rekenlast veel lager is dan die voor de gegevens met een hogere dekking.

CNV-grootte

om de invloed van de CNV–grootte op de CNV–detectieprestaties te evalueren, simuleerden we een reeks datasets als invoer, waarbij de CNV-maten worden verdeeld in 1 kb–10 kb, 10 kb-100 kb, 100 kb-1 Mb en 1 Mb-10 Mb, terwijl de dekking 100X is en elk CNV-type (verwijderen en invoegen) met gelijke frequentie voorkomt. Vervolgens gebruikten we de geselecteerde tools om CNV ‘ s uit deze datasets te detecteren. De resultaten zijn weergegeven in Fig. 2. Figuur 2a en b tonen de veranderingen van de gevoeligheden van deze gereedschappen (TPRs) en specificiteiten (TNRs) met betrekking tot de CNV-grootte, en Fig. 2c toont het aantal gedetecteerde CNV ‘ s van verschillende CNV-maten voor deze tools. Voor de abscis as van Fig. 2a en b, de CNV-grootte* is een waarde die wordt berekend uit de CNV-grootte door de CNV-grootte te delen door 1000, het berekenen van de basis 10 logaritme, en het afronden van de waarde. Bijvoorbeeld, wanneer de CNV-grootte 111 kb is, is de CNV-Grootte * 3, en wanneer de CNV-grootte 9 Mb is, is de CNV-grootte* 4.

Van Fig. 2, trekken we twee belangrijke conclusies: Ten eerste neemt voor al deze instrumenten de gevoeligheid aanvankelijk toe en vervolgens onveranderd of licht af met de toename van de CNV-grootte, terwijl de specificiteit afneemt naarmate de gevoeligheid toeneemt en het aantal gedetecteerde CNV ‘ s toeneemt naarmate de CNV-grootte toeneemt. Ten tweede, de prestaties van deze tools veranderen met de CNV-grootte, en de aanbevolen tools verschillen tussen de gevallen. Wanneer bijvoorbeeld de beoogde CNV-grootte tussen 1 kb en 100 kb ligt, presteert CNVkit op het gebied van gevoeligheid en specificiteit ruimschoots beter dan andere instrumenten, terwijl de beoogde CNV-grootte tussen 100 kb en 10 Mb ligt, cn.MOPS presteert het beste volledig in termen van de gevoeligheid en specificiteit.

nadat we de gevoeligheden en specificiteiten van deze gereedschappen voor verschillende CNV-groottes hadden verkregen, aangezien de beoogde CNV ‘ s onbekend kunnen zijn, hebben we de Algemene gevoeligheden en specificiteiten van deze gereedschappen berekend door hun gevoeligheden en specificiteiten over verschillende CNV-groottes te Gemiddelde. De resultaten zijn weergegeven in Tabel 4. Volgens de informatie in deze tabel, cn.MOPS is een geschikte keuze voor onbekend onderzoek als zijn specificiteit en gevoeligheid zijn bevredigend volledig.

Tabel 4 de Globale gevoeligheid en de Globale specificiteit van vier CNV-tools

CNV-type

om te bepalen of het CNV-type de CNV-detectie beïnvloedt of niet, simuleerden we een reeks datasets, waarvan de dekking 100X is, de CNV-grootte willekeurig is en de CNV-typen met gelijke frequentie voorkomen. Vervolgens gebruikten we de geselecteerde tools om CNV ‘s te detecteren en telden we het aantal gedetecteerde CNV’ s van elk type. De resultaten zijn weergegeven in Fig. 3.

Van Fig. 3, we concluderen het volgende: Ten eerste kunnen al deze tools niet alleen CNV-inserties detecteren, maar ook CNV-deleties. Ten tweede, alle tools behalve CoNIFER presteren beter voor CNV deleties dan voor CNV inserties. Ten derde, hoewel CoNIFER beter presteert voor inserties dan voor schrappingen, kan het niet de beste van al deze instrumenten voor inserties, waarvan de prestaties ook afhankelijk van de verdeling van de CNV-grootte.

overlappende consistentie

in onze studie, om de consistentie van deze CNV-instrumenten te evalueren, hebben we overlappende tests uitgevoerd op de gesimuleerde gegevens en echte gegevens.

voor de gesimuleerde gegevens simuleerden we eerst een reeks datasets, waarvan de dekking 100X is en de CNV-grootte en het type willekeurig zijn. Vervolgens gebruikten we de geselecteerde vier tools om CNV ‘ s te detecteren. Tenslotte hebben we een Venn-diagram van de detectieresultaten getekend, dat in Fig. 4a.

voor de echte gegevens, eerst, We gedownload exome voorbeelden van CNVkit en gebruikt ze als de oorspronkelijke gegevens. Vervolgens hebben we de originele gegevens (in cnn-formaat) omgezet in de formaten die vereist zijn door de andere drie CNV-tools: RPKM-formaat voor CoNIFER, GRange-formaat voor exomeCopy en S4 voor cn.Dweilen. Tenslotte hebben we CNV ‘ s gedetecteerd en een Venn-diagram getekend door dezelfde procedure te volgen als voor de gesimuleerde gegevens. Het Venn-diagram is weergegeven in Fig. 4b.

met de informatie in Fig. 4, berekenden we de overlappingspercentages (gedefinieerd in sectie vergelijkingscriteria) van deze vier instrumenten om hun consistentie te kwantificeren, die zijn opgenomen in Tabel 5.

Tabel 5 de overlappingspercentages van vier CNV-gereedschappen

volgens tabel 5, de overlappingen van CoNIFER, CNVkit en cn.Meer dan 90% voor de gesimuleerde gegevens; daarom realiseren ze een bevredigende consistentie in de detectie van CNV ‘ s, en hun resultaten zijn zeer betrouwbaar. Bovendien, cn.MOPS en CoNIFER realiseren ook een bevredigende consistentie (86 en 67%) bij de detectie van CNV ‘ s op basis van echte gegevens.

echter, niet al deze instrumenten realiseren een bevredigende consistentie. De overlap van exomeCopy is altijd laag (23% op gesimuleerde gegevens en 3% op echte gegevens). Om de oorzaak van dit fenomeen te bepalen, hebben we vele andere studies bekeken en vonden we dat ons resultaat vergelijkbaar is met de resultaten van Tan (22%) , volgens welke de overlap van exomecopie geassocieerd is met zijn algoritmen.

bovendien vonden we dat de overlappercentages van de tools voor gesimuleerde gegevens hoger zijn dan die voor echte gegevens in onze test. Om te bepalen wat tot dit fenomeen leidde, maakten we de Venn-diagrammen van drie van de vier gereedschappen, die willekeurig werden geselecteerd. De resultaten zijn weergegeven in Fig. 5.

volgens Fig. 5, alle combinaties van drie van deze vier hulpmiddelen hebben gemeenschappelijke exons behalve de combinatie van exomeCopy, cn.MOPS en coniferen, dat komt door het aantal gedetecteerde exons per GN.MOPS is te klein ten opzichte van die door andere instrumenten. Echter, uit de detectieresultaten op de gesimuleerde gegevens, cn.DWP ‘ s presteerden beter dan de meeste instrumenten in termen van globale gevoeligheid en specificiteit, wat niet in overeenstemming is met het resultaat van overlappende consistentie. Op basis van de resultaten van de gesimuleerde gegevens denken we dat de onderliggende oorzaken van dit fenomeen kunnen zijn dat de CNV-maten van de monsters niet gericht zijn op 10 kb tot 1 Mb en het aantal CNV-inserties groter is dan het aantal CNV-deleties, waardoor het aantal valse detecties voor exomeCopy en CNVkit veel groter kan zijn dan die voor cn.Dweilen en coniferen.

computationele kosten

om deze CNV-tools volledig te beoordelen, gebruikten we ook de computationele kosten als evaluatiecriterium, dat de tijdcomplexiteit en de ruimtecomplexiteit omvat. De resultaten worden als volgt gepresenteerd.

tijdscomplexiteit

om de tijdscomplexiteit van deze tools te bepalen, simuleerden we een reeks datasets als input, waarvan de dekking 100X bedraagt en de grootte bijna 11,2 MB bedraagt. Dan, omdat we niet het gedetailleerde algoritme van deze tools, we berekend de tijd complexiteit van elke tool door de gemiddelde looptijd en het CPU-gebruik te vermenigvuldigen. De resultaten zijn weergegeven in Fig. 6.

volgens Fig. 6, cn.MOPS heeft de laagste tijd complexiteit; vandaar, het zal de minimale tijd voor dezelfde gegevensverwerking tussen deze tools vereisen. CNVkit heeft de hoogste tijd complexiteit, terwijl het realiseert bevredigende gevoeligheid en specificiteit.

ruimtecomplexiteit

om te bepalen of de CNV-tool andere programma ‘ s zal beïnvloeden tijdens het draaien, simuleerden we een reeks datasets als invoer, waarvan de dekking 100X is en de grootte bijna 11,2 MB bedraagt. Vervolgens gebruikten we de geselecteerde tools om CNV ‘ s uit deze datasets te detecteren en berekenden we de gemiddelde geheugenbezetting als een karakterisatiehoeveelheid van de ruimtecomplexiteit. De resultaten zijn weergegeven in Fig. 7.

volgens de informatie in Fig. 7, CoNIFER heeft de laagste geheugenbezetting voor dezelfde gegevensverwerking onder deze tools; vandaar, het heeft de minimale vereisten voor computerhardware. cn.MOPS heeft de hoogste geheugenbezetting onder deze tools, terwijl het de laagste tijdcomplexiteit heeft, en dit komt omdat de tijdcomplexiteit en de ruimtecomplexiteit elkaar inperken.