sammenlignende undersøgelse af hele eksomsekventeringsbaserede værktøjer til detektering af kopiantalvariation
følsomhed og specificitet
i vores undersøgelse brugte vi følsomheden og specificiteten til at evaluere præstationerne for disse valgte værktøjer. I denne proces, da dækningen, CNV-størrelsen og CNV-typen af VES-data kan påvirke ydeevnen af værktøjer, simulerede vi tre typer data og studerede ændringerne i CNV-værktøjernes præstationer med hensyn til disse tre faktorer. Resultaterne præsenteres som følger.
dækning
for at evaluere virkningen af dækningen på CNV-detektionsydelserne for disse værktøjer overvejede vi en række ves-datasæt med dækninger på 3 gange, 10 gange, 30 gange og 100 gange, for hvilke sandsynligheden for indsættelser er lig med sandsynligheden for sletninger. Derefter brugte vi de valgte værktøjer til at registrere CNV ‘ er fra disse data. Resultaterne er præsenteret i Fig. 1. Figur 1a og b præsenterer ændringerne af disse værktøjers følsomhed (TPRs) og specificiteter (TNRs) med hensyn til dækningen, og Fig. 1c præsenterer antallet af detekterede CNV ‘ er ved hjælp af disse værktøjer med forskellige dækninger.
Fra Fig. 1, opnår vi tre hovedkonklusioner: for det første øges følsomheden (TPR) hurtigt og stabiliseres derefter med stigningen i dataens dækning, hvilket kan være forårsaget af lofteffekten. For det andet falder specificiteten (TNR) generelt med stigningen i følsomheden. Endelig øges antallet af detekterede CNV ‘ er for hvert værktøj oprindeligt og forbliver derefter uændret med stigningen i datadækningen. Ifølge disse resultater er dækningen på 100 gange tilstrækkelig i praksis, for hvilken følsomheden og specifikationerne af disse værktøjer er tilfredsstillende, og beregningsbyrden er meget lavere end for data med højere dækning.
CNV–størrelse
for at evaluere indflydelsen af CNV–størrelsen på CNV-detektionsydelsen simulerede vi en række datasæt som input, for hvilke CNV–størrelserne er fordelt i 1 kb-10 kb, 10 kb-100 kb, 100 kb-1 Mb og 1 Mb-10 Mb, mens dækningen er 100 gange, og hver CNV-type (sletning og indsættelse) forekommer med samme frekvens blandt dem. Derefter brugte vi de valgte værktøjer til at registrere CNV ‘ er fra disse datasæt. Resultaterne er præsenteret i Fig. 2. Figur 2a og b viser ændringerne af disse værktøjers følsomhed (TPRs) og specificiteter (TNRs) med hensyn til CNV-størrelse, og Fig. 2c viser antallet af detekterede CNV ‘ er i forskellige CNV-størrelser for disse værktøjer. Til abscisseaksen i Fig. 2A og b, CNV-størrelsen* er en værdi, der beregnes ud fra CNV-størrelsen ved at dividere CNV-størrelsen med 1000, beregne base 10-logaritmen og afrunde værdien. For eksempel, når CNV-størrelsen er 111 kb, er CNV-størrelsen* 3, og når CNV-størrelsen er 9 Mb, er CNV-størrelsen* 4.
Fra Fig. 2, trækker vi to hovedkonklusioner: For det første øges følsomheden for alle disse værktøjer oprindeligt og forbliver derefter uændret eller falder lidt med stigningen i CNV-størrelsen, mens specificiteten falder, når følsomheden øges, og antallet af detekterede CNV ‘ er øges, når CNV-størrelsen øges. For det andet ændres præstationerne af disse værktøjer med CNV-størrelsen, og de anbefalede værktøjer adskiller sig mellem sagerne. For eksempel, når den målrettede CNV-størrelse er mellem 1 kb og 100 kb, overgår CNVkit omfattende andre værktøjer med hensyn til følsomhed og specificitet, mens når den målrettede CNV-størrelse er mellem 100 kb og 10 Mb, cn.MOPS udfører bedst omfattende med hensyn til følsomhed og specificitet.
efter at vi har opnået følsomheden og specificiteterne af disse værktøjer til forskellige CNV-størrelser, da de målrettede CNV ‘ er kan være ukendte, beregnede vi de globale følsomheder og specificiteter af disse værktøjer ved at beregne deres følsomheder og specificiteter over forskellige CNV-størrelser. Resultaterne fremgår af tabel 4. Ifølge oplysningerne i denne tabel, cn.MOPS er et passende valg til ukendt forskning, da dets specificitet og følsomhed er tilfredsstillende omfattende.
CNV-type
for at bestemme, om CNV-typen påvirker CNV-detekteringen eller ej, simulerede vi en række datasæt, hvoraf dækningen er 100 gange, CNV-størrelsen er tilfældig, og CNV-typerne forekommer med samme frekvens. Derefter brugte vi de valgte værktøjer til at registrere CNV ‘er og tællede antallet af detekterede CNV’ er af hver type. Resultaterne er præsenteret i Fig. 3.
Fra Fig. 3, konkluderer vi følgende: for det første kan alle disse værktøjer ikke kun registrere CNV-indsættelser, men også CNV-sletninger. For det andet fungerer alle værktøjer undtagen nåletræ bedre til CNV-sletninger end for CNV-indsættelser. For det tredje, selvom nåletræ fungerer bedre til Indsætninger end til sletninger, fungerer det muligvis ikke bedst blandt alle disse værktøjer til Indsætninger, hvoraf ydelsen også afhænger af fordelingen af CNV-størrelsen.
overlappende konsistens
i vores undersøgelse gennemførte vi overlapningstest på de simulerede data og reelle data for at evaluere konsistensen af disse CNV-værktøjer.
for de simulerede data simulerede vi først en række datasæt, hvoraf dækningen er 100 gange, og CNV-størrelsen og typen er tilfældig. Derefter brugte vi de valgte fire værktøjer til at registrere CNV ‘ er. Endelig tegnede vi et Venn-diagram over detektionsresultaterne, som er vist i Fig. 4a.
for de rigtige data hentede vi først eksomeeksempler fra CNVkit og brugte dem som de originale data. Derefter konverterede vi de originale data (i cnn-format) til de formater, der kræves af de andre tre CNV-værktøjer: RPKM-format til nåletræ, GRange-format til eksomekopi og S4 til cn.MOP. Endelig opdagede vi CNV ‘ er og tegnede et Venn-diagram ved at følge samme procedure som for de simulerede data. Venn-diagrammet er vist i Fig. 4b.
med oplysningerne i Fig. 4, vi beregnet overlapningsraterne (defineret i afsnit Sammenligningskriterier) af disse fire værktøjer til at kvantificere deres konsistens, som er anført i tabel 5.
ifølge tabel 5 er overlapningsraterne for nåletræ, CNVkit og cn.Mopper overstiger 90% for de simulerede data; derfor indser de tilfredsstillende konsistens i påvisning af CNV ‘ er, og deres resultater er meget troværdige. Derudover cn.Mopper og nåletræ realiserer også tilfredsstillende konsistens (86 og 67%) ved påvisning af CNV ‘ er fra reelle data.
imidlertid realiserer ikke alle disse værktøjer tilfredsstillende konsistens. Overlapningsgraden for eksomekopi er altid lav (23% på simulerede data og 3% på reelle data). For at bestemme årsagen til dette fænomen gennemgik vi mange andre undersøgelser og fandt ud af, at vores resultat ligner Tan ‘ s resultater (22%) , hvorefter overlapningsgraden for eksomekopi er forbundet med dens algoritmer.
derudover fandt vi, at værktøjernes overlapningshastigheder for simulerede data er højere end dem for reelle data i vores test. For at bestemme, hvad der førte til dette fænomen, lavede vi Venn-diagrammerne af tre af fire værktøjer, som blev valgt tilfældigt. Resultaterne er præsenteret i Fig. 5.
ifølge Fig. 5, alle kombinationer af tre af disse fire værktøjer har fælles eksoner undtagen kombinationen af eksomekopi, cn.Mopper og nåletræ, hvilket skyldes antallet af detekterede eksoner af cn.MOPS er for lille i forhold til dem ved andre værktøjer. Fra detektionsresultaterne på de simulerede data, cn.Mopper overgik de fleste af værktøjerne med hensyn til global følsomhed og specificitet, hvilket ikke er i tråd med resultatet af overlappende konsistens. Baseret på resultaterne fra de simulerede data tror vi, at de underliggende årsager til dette fænomen kan være, at CNV-størrelserne på prøverne ikke fokuserer på 10 kb til1 Mb, og antallet af CNV-indsættelser overstiger antallet af CNV-sletninger, hvilket kan medføre, at antallet af falske detektioner for eksomekopi og CNVkit er langt større end dem for cn.Mopper og nåletræ.
Beregningsomkostninger
for at vurdere disse CNV-værktøjer omfattende brugte vi også beregningsomkostningerne som et evalueringskriterium, som inkluderer tidskompleksiteten og rumkompleksiteten. Resultaterne præsenteres som følger.
tidskompleksitet
i vores undersøgelse simulerede vi en række datasæt som input for at bestemme tidskompleksiteterne for disse værktøjer, hvoraf dækningen er 100 gange og størrelsen er tæt på 11, 2 MB. Da vi ikke har den detaljerede algoritme for disse værktøjer, beregnede vi tidskompleksiteten for hvert værktøj ved at multiplicere den gennemsnitlige driftstid og CPU-udnyttelsen. Resultaterne er præsenteret i Fig. 6.
ifølge Fig. 6, cn.MOPS har den laveste tidskompleksitet; derfor vil det kræve minimumstiden for den samme databehandling blandt disse værktøjer. CNVkit har den højeste tidskompleksitet, mens den realiserer tilfredsstillende følsomhed og specificitet.
rumkompleksitet
for at afgøre, om CNV-værktøjet vil påvirke andre programmer, mens det kører, simulerede vi en række datasæt som input, hvoraf dækningen er 100 gange og størrelsen er tæt på 11, 2 MB. Derefter brugte vi de valgte værktøjer til at registrere CNV ‘ er fra disse datasæt og beregnet den gennemsnitlige hukommelsesbelægning som en karakteriseringsmængde af pladskompleksiteten. Resultaterne er præsenteret i Fig. 7.
ifølge oplysningerne i Fig. 7, har nåletræ den laveste hukommelsesbelægning til den samme databehandling blandt disse værktøjer; derfor har den minimumskravene til computerudstyr. cn.MOPS har den højeste hukommelsesbelægning blandt disse værktøjer, mens den har den laveste tidskompleksitet, og det skyldes, at tidskompleksiteten og rumkompleksiteten er gensidigt begrænset.