Jämförande studie av hela exome-sekvenseringsbaserade kopianummervariationsdetekteringsverktyg / BMC Bioinformatics

känslighet och specificitet
täckning
CNV-storlek
CNV-typ
överlappande konsistens
Beräkningskostnader
tidskomplexitet
Rymdkomplexitet

känslighet och specificitet

i vår studie använde vi känsligheten och specificiteten för att utvärdera prestationerna för dessa valda verktyg. I denna process, eftersom täckningen, CNV-storleken och CNV-typen av WES-data kan påverka verktygets prestanda, simulerade vi tre typer av data och studerade förändringarna i CNV-verktygets prestanda med avseende på dessa tre faktorer. Resultaten presenteras enligt följande.

täckning

för att utvärdera effekten av täckningen på CNV-detekteringsprestanda för dessa verktyg betraktade vi en serie WES-dataset med täckningar på 3x, 10x, 30x och 100x för vilka sannolikheten för Infogningar är lika med sannolikheten för raderingar. Sedan använde vi de valda verktygen för att upptäcka CNV från dessa data. Resultaten presenteras i Fig. 1. Figur 1a och b presenterar förändringarna av dessa verktygs känsligheter (TPRs) och specificiteter (TNRs) med avseende på täckningen, och Fig. 1c presenterar antalet upptäckta CNV av dessa verktyg med olika täckningar.

Från Fig. 1, vi får tre huvudslutsatser: för det första ökar känsligheten (TPR) snabbt och stabiliseras därefter med ökningen av datans täckning, vilket kan orsakas av takeffekten. För det andra minskar specificiteten (TNR) totalt sett med ökningen av känsligheten. Slutligen ökar antalet upptäckta CNV för varje verktyg initialt och förblir därefter oförändrat med ökningen av datans täckning. Enligt dessa resultat är täckningen av 100x tillräcklig i praktiken, för vilken känsligheten och specificiteten hos dessa verktyg är tillfredsställande, och beräkningsbördan är mycket lägre än för data med högre täckning.

CNV-storlek

för att utvärdera påverkan av CNV–storleken på CNV–detekteringsprestanda simulerade vi en serie dataset som ingång, för vilka CNV-storlekarna fördelas i 1 kb–10 kb, 10 kb-100 kb, 100 kb-1 Mb och 1 Mb-10 Mb medan täckningen är 100x och varje CNV-typ (radering och insättning) sker med samma frekvens bland dem. Sedan använde vi de valda verktygen för att upptäcka CNV från dessa dataset. Resultaten presenteras i Fig. 2. Figur 2a och b visar förändringarna av dessa verktygs känsligheter (tprs) och specificiteter (TNRs) med avseende på CNV-storleken och Fig. 2c visar antalet detekterade CNV: er av olika CNV-storlekar för dessa verktyg. För abscissaxeln i Fig. 2A och b, CNV-storleken * är ett värde som beräknas från CNV-storleken genom att dividera CNV-storleken med 1000, beräkna basen 10 logaritmen och avrunda värdet. Till exempel, när CNV-storleken är 111 kb, är CNV-storleken* 3, och när CNV-storleken är 9 Mb är CNV-storleken* 4.

Från Fig. 2, Vi drar två huvudsakliga slutsatser: Först för alla dessa verktyg ökar känsligheten initialt och förblir därefter oförändrad eller minskar något med ökningen av CNV-storleken, medan specificiteten minskar när känsligheten ökar och antalet detekterade CNV ökar när CNV-storleken ökar. För det andra ändras prestandan för dessa verktyg med CNV-storleken, och de rekommenderade verktygen skiljer sig åt mellan fallen. Till exempel, när den riktade CNV-storleken är mellan 1 kb och 100 kb, överträffar CNVkit omfattande andra verktyg när det gäller känslighet och specificitet, medan när den riktade CNV-storleken är mellan 100 kb och 10 Mb, cn.Moppar presterar bäst omfattande när det gäller känslighet och specificitet.

efter att vi erhållit känsligheten och specificiteten hos dessa verktyg för olika CNV-storlekar, eftersom de riktade CNV: erna kan vara okända, beräknade vi de globala känsligheten och specificiteten hos dessa verktyg genom att medelvärdera deras känslighet och specificitet över olika CNV-storlekar. Resultaten presenteras i Tabell 4. Enligt informationen i denna tabell, cn.MOPS är ett lämpligt val för okänd forskning eftersom dess specificitet och känslighet är tillfredsställande omfattande.

Tabell 4 den globala känsligheten och den globala specificiteten hos fyra CNV-verktyg

CNV-typ

för att avgöra om CNV-typen påverkar CNV-detekteringen eller inte, simulerade vi en serie dataset, varav täckningen är 100x, CNV-storleken är slumpmässig och CNV-typerna förekommer med samma frekvens. Sedan använde vi de valda verktygen för att upptäcka CNV och räknade antalet upptäckta CNV av varje typ. Resultaten presenteras i Fig. 3.

Från Fig. 3, avslutar vi följande: för det första kan alla dessa verktyg upptäcka inte bara CNV-Infogningar utan även CNV-raderingar. För det andra fungerar alla verktyg utom Barrträd bättre för CNV-raderingar än för CNV-Infogningar. För det tredje, även om barrträd fungerar bättre för Infogningar än för raderingar, kanske det inte fungerar bäst bland alla dessa verktyg för Infogningar, varav prestandan också beror på fördelningen av CNV-storleken.

överlappande konsistens

i vår studie, för att utvärdera konsistensen av dessa CNV-verktyg, genomförde vi överlappningstester på simulerade data och verkliga data.

för simulerade data simulerade vi först en serie dataset, varav täckningen är 100x och CNV-storleken och typen är slumpmässiga. Sedan använde vi de valda fyra verktygen för att upptäcka CNVs. Slutligen ritade vi ett Venn-diagram över detekteringsresultaten, vilket visas i Fig. 4a.

för de verkliga uppgifterna hämtade vi först exome-exempel från CNVkit och använde dem som originaldata. Sedan konverterade vi originaldata (i cnn-format) till de format som krävs av de andra tre CNV-verktygen: RPKM-format för barrträd, GRange-format för exomeCopy och S4 för cn.MOPP. Slutligen upptäckte vi CNVs och ritade ett Venn-diagram genom att följa samma procedur som för simulerade data. Venn-diagrammet presenteras i Fig. 4b.

med informationen i Fig. 4, beräknade vi överlappningshastigheterna (definierade i sektionsjämförelsekriterier) för dessa fyra verktyg för att kvantifiera deras konsistens, som listas i Tabell 5.

Tabell 5 överlappningsgraden för fyra CNV-verktyg

enligt Tabell 5 överlappningshastigheterna för barrträd, CNVkit och cn.Moppar överstiger 90% för simulerade data; därför inser de tillfredsställande konsistens vid detektering av CNV, och deras resultat är mycket pålitliga. Dessutom cn.Moppar och Barrträd inser också tillfredsställande konsistens (86 och 67%) vid detektering av CNV från verkliga data.

men inte alla dessa verktyg inser tillfredsställande konsistens. Överlappningsgraden för exomekopi är alltid låg (23% på simulerade data och 3% på verkliga data). För att bestämma orsaken till detta fenomen granskade vi många andra studier och fann att vårt resultat liknar tans resultat (22%), enligt vilket överlappningsgraden för exomekopi är associerad med dess algoritmer.

dessutom fann vi att verktygets överlappningshastigheter för simulerade data är högre än de för verkliga data i vårt test. För att bestämma vad som ledde till detta fenomen gjorde vi Venn-diagrammen av tre av fyra verktyg, som valdes slumpmässigt. Resultaten presenteras i Fig. 5.

enligt Fig. 5, alla kombinationer av tre av dessa fyra verktyg har vanliga exoner utom kombinationen av exomeCopy, cn.Moppar och Barrträd, vilket beror på att antalet upptäckta exoner av cn.Moppar är för små i förhållande till de med andra verktyg. Men från detekteringsresultaten på simulerade data, cn.MOPS överträffade de flesta verktygen när det gäller global känslighet och specificitet, vilket inte överensstämmer med resultatet av överlappande konsistens. Baserat på resultaten från simulerade data tror vi att de bakomliggande orsakerna till detta fenomen kan vara att CNV-storlekarna på proverna inte fokuserar på 10 kb to1 Mb och antalet CNV-Infogningar överstiger antalet CNV-raderingar, vilket kan leda till att antalet falska upptäckter för exomeCopy och CNVkit är mycket större än de för cn.MOPS och Barrträd.

Beräkningskostnader

för att utvärdera dessa CNV-verktyg omfattande använde vi också beräkningskostnaden som ett utvärderingskriterium, vilket inkluderar tidskomplexiteten och rymdkomplexiteten. Resultaten presenteras enligt följande.

tidskomplexitet

i vår studie, för att bestämma tidskomplexiteten för dessa verktyg, simulerade vi en serie dataset som inmatning, varav täckningen är 100x och storleken är nära 11.2 MB. Sedan, eftersom vi inte har den detaljerade algoritmen för dessa verktyg, beräknade vi tidskomplexiteten för varje verktyg genom att multiplicera den genomsnittliga körtiden och CPU-utnyttjandet. Resultaten presenteras i Fig. 6.

enligt Fig. 6, cn.MOPS har den lägsta tidskomplexiteten; därför kommer det att kräva minsta tid för samma databehandling bland dessa verktyg. CNVkit har den högsta tidskomplexiteten, medan den realiserar tillfredsställande känslighet och specificitet.

Rymdkomplexitet

för att avgöra om CNV-verktyget kommer att påverka andra program medan det körs simulerade vi en serie dataset som inmatning, varav täckningen är 100x och storleken är nära 11.2 MB. Sedan använde vi de valda verktygen för att upptäcka CNV från dessa dataset och beräknade Den genomsnittliga minnesbeläggningen som en karaktäriseringskvantitet av rymdkomplexiteten. Resultaten presenteras i Fig. 7.

enligt informationen i Fig. 7, barrträd har den lägsta minnesbeläggningen för samma databehandling bland dessa verktyg; därför har den minimikraven för datormaskinvara. KN.MOPS har den högsta minnesbeläggningen bland dessa verktyg, medan den har den lägsta tidskomplexiteten, och detta beror på att tidskomplexiteten och rymdkomplexiteten är ömsesidigt begränsade.

jämförande studie av hela exome-sekvenseringsbaserade kopianummervariationsdetekteringsverktyg