Sammenlignende studie av hele exome sekvensering-baserte kopi nummer variasjon deteksjon verktøy / BMC Bioinformatikk

Følsomhet og spesifisitet
Dekning
CNV-størrelse
CNV type
Overlappende konsistens
Beregningskostnader
tidskompleksitet
Plasskompleksitet

Følsomhet og spesifisitet

i vår studie, vi brukte følsomhet og spesifisitet for å evaluere resultatene av disse utvalgte verktøy. I denne prosessen, siden dekningen, CNV-størrelsen og CNV-typen AV wes-dataene kan påvirke ytelsen til verktøy, simulerte vi tre typer data og studerte endringene i CNV-verktøyets forestillinger med hensyn til disse tre faktorene. Resultatene presenteres som følger.

Dekning

for å evaluere virkningen av dekningen på CNV-deteksjonsytelsene til disse verktøyene, vurderte vi EN serie wes-datasett MED dekning PÅ 3X, 10X, 30X og 100X hvor sannsynligheten for innsetting er lik sannsynligheten for slettinger. Deretter brukte vi de valgte verktøyene for å oppdage CNVs fra disse dataene. Resultatene er presentert I Fig. 1. Figur 1a og b presenterer endringene av disse verktøyets følsomhet (TPRs) og spesifisitet (TNRs) med hensyn til dekning, Og Fig. 1c presenterer antall oppdagede Cnver av disse verktøyene med ulike deksler.

Fra Fig. 1, får vi tre hovedkonklusjoner: for Det Første øker følsomheten (TPR) raskt og stabiliserer seg deretter med økningen av dataens dekning, noe som kan skyldes takeffekten. For det andre reduseres spesifisiteten (TNR) samlet med økningen av følsomheten. Til slutt øker antall oppdagede Cnver av hvert verktøy først og forblir uendret med økningen av dataens dekning. Ifølge disse resultatene er dekningen PÅ 100X tilstrekkelig i praksis, for hvilken følsomheten og spesifisiteten til disse verktøyene er tilfredsstillende, og beregningsbyrden er mye lavere enn for dataene med høyere dekning.

CNV-størrelse

for å evaluere INNFLYTELSEN AV CNV-størrelsen på CNV-deteksjonsytelsen, simulerte vi en serie datasett som inngang, for hvilke CNV-størrelsene distribueres i 1 kb-10 kb, 10 kb-100 kb, 100 kb-1 Mb Og 1 Mb–10 Mb mens dekningen ER 100X og hver CNV-type (sletting og innsetting) forekommer med samme frekvens blant dem. Deretter brukte vi de valgte verktøyene for å oppdage CNVs fra disse datasettene. Resultatene er presentert I Fig. 2. Figur 2a og b viser endringene av disse verktøyets følsomhet (TPRs) og spesifisitet (TNRs)med hensyn TIL CNV-størrelsen, Og Fig. 2c viser antall oppdagede Cnver av forskjellige CNV-størrelser for disse verktøyene. For abscissen aksen Av Fig. 2A og b, CNV-størrelsen* er en verdi som beregnes ut fra CNV-størrelsen ved å dele CNV-størrelsen med 1000, beregne basen 10 logaritmen og avrunde verdien. HVIS FOR EKSEMPEL CNV-størrelsen er 111 kb, ER CNV-størrelsen * 3, og NÅR CNV-størrelsen er 9 Mb, ER CNV-størrelsen * 4.

Fra Fig. 2, vi trekker to hovedkonklusjoner: Først for alle disse verktøyene øker følsomheten først og deretter forblir uendret eller reduseres noe med økningen AV CNV-størrelsen, mens spesifisiteten minker ettersom følsomheten øker, og antallet detekterte Cnver øker ettersom CNV-størrelsen øker. For det andre endres ytelsen til disse verktøyene med CNV-størrelsen, og de anbefalte verktøyene varierer blant tilfellene. For eksempel, Når den målrettede CNV-størrelsen er mellom 1 kb og 100 kb, Overgår CNVkit omfattende andre verktøy når det gjelder følsomhet og spesifisitet, mens når den målrettede CNV-størrelsen er mellom 100 kb og 10 Mb, cn.MOPS utfører best omfattende når det gjelder følsomhet og spesifisitet.

Etter at vi fikk sensitiviteter og spesifikasjoner av disse verktøyene for forskjellige CNV-størrelser, siden de målrettede Cnvene kan være ukjente, beregnet vi de globale følsomhetene og spesifikasjonene til disse verktøyene ved å gjennomsnittlig deres følsomhet og spesifisitet over forskjellige CNV-størrelser. Resultatene er presentert i Tabell 4. Ifølge informasjonen i denne tabellen, cn.MOPS er et egnet valg for ukjent forskning som sin spesifisitet og følsomhet er tilfredsstillende omfattende.

Tabell 4 den globale følsomheten og den globale spesifisiteten til fire CNV-verktøy

CNV type

for å avgjøre om CNV-typen påvirker CNV-deteksjonen eller ikke, simulerte vi en serie datasett, hvorav dekningen ER 100X, CNV-størrelsen er tilfeldig og CNV-typene forekommer med samme frekvens. Deretter brukte vi de valgte verktøyene for å oppdage CNVs og talt antall oppdagede CNVs av hver type. Resultatene er presentert I Fig. 3.

Fra Fig. 3, vi konkluderer med følgende: først kan alle disse verktøyene oppdage IKKE BARE CNV-innsettinger, men OGSÅ CNV-slettinger. Sekund, alle verktøy unntatt Bartre utføre bedre FOR CNV slettinger enn FOR CNV innsettinger. For det tredje, Selv Om Bartre utfører bedre for innsettinger enn for slettinger, kan det ikke utføre det beste blant alle disse verktøyene for innsettinger, hvorav ytelsen også avhenger av fordelingen av CNV-størrelsen.

Overlappende konsistens

i vår studie, for å evaluere konsistensen av DISSE CNV-verktøyene, gjennomførte vi overlappingstester på simulerte data og reelle data.

for de simulerte dataene simulerte vi først en serie datasett, hvorav dekningen ER 100X og CNV-størrelsen og typen er tilfeldig. Deretter brukte vi de valgte fire verktøyene for å oppdage CNVs. Til slutt tegnet Vi Et Venn-diagram over deteksjonsresultatene, som er vist I Fig. 4a.

for de virkelige dataene lastet vi først ned exome-eksempler fra CNVkit og brukte dem som de opprinnelige dataene. Deretter konverterte vi de opprinnelige dataene (i cnn-format) til formatene som kreves av de tre ANDRE CNV-verktøyene: RPKM-format For CoNIFER, GRange-format for exomeCopy og S4 for cn.MOPP. Til slutt oppdaget Vi CNVs og tegnet Et Venn-diagram ved å følge samme prosedyre som for de simulerte dataene. Venn-diagrammet er presentert I Fig. 4b.

med informasjonen I Fig. 4, vi beregnet overlapp priser (definert i seksjon Sammenligning kriterier) av disse fire verktøy for å kvantifisere deres konsistens, som er oppført i Tabell 5.

Tabell 5 overlappingsratene for fire CNV-verktøy

I Henhold til Tabell 5, overlappingsratene For Bartre, CNVkit og cn.MOPPER overstiger 90% for simulerte data; derfor innser de tilfredsstillende konsistens i deteksjon Av CNVs, og deres resultater er svært troverdige. I tillegg cn.MOPS og Bartre også innse tilfredsstillende konsistens (86 og 67%) på påvisning Av CNVs fra reelle data.

imidlertid innser ikke alle disse verktøyene tilfredsstillende konsistens. Overlappingsraten for exomeCopy er alltid lav (23% på simulerte data og 3% på reelle data). For å finne årsaken til dette fenomenet, gjennomgikk vi mange andre studier og fant at resultatet vårt ligner Tans resultater (22%), ifølge hvilket overlappingsgraden av exomeCopy er knyttet til sine algoritmer.

i tillegg fant vi ut at verktøyets overlappingsrater for simulerte data er høyere enn de for reelle data i testen vår. For å avgjøre hva som førte til dette fenomenet, laget Vi Venn-diagrammene på tre av fire verktøy, som ble valgt tilfeldig. Resultatene er presentert I Fig. 5.

Ifølge Fig. 5, alle kombinasjonene av tre av disse fire verktøyene har felles eksoner unntatt kombinasjonen av exomeCopy, cn.MOPS Og Bartre, som er fordi antall oppdaget exons av cn.MOPS er for liten i forhold til de av andre verktøy. Men fra deteksjonsresultatene på de simulerte dataene, cn.MOPS overgikk de fleste verktøyene når det gjelder global følsomhet og spesifisitet, som ikke er i tråd med resultatet av overlappende konsistens. Basert på resultatene fra de simulerte dataene, tror vi at de underliggende årsakene til dette fenomenet kan være AT CNV-størrelsene på prøvene ikke fokuserer på 10 kb til 1 Mb, og antall CNV-innsettinger overstiger antall CNV-slettinger, noe som kan føre til at antall falske deteksjoner for exomeCopy og CNVkit er langt større enn de for cn.MOPS Og Bartre.

Beregningskostnader

for å vurdere DISSE CNV-verktøyene grundig, brukte vi også beregningskostnaden som et evalueringskriterium, som inkluderer tidskompleksiteten og romkompleksiteten. Resultatene presenteres som følger.

tidskompleksitet

i vår studie, for å bestemme tidskompleksiteten til disse verktøyene, simulerte vi en serie datasett som inngang, hvorav dekningen ER 100X og størrelsen er nær 11,2 MB. Da, siden vi ikke har den detaljerte algoritmen til disse verktøyene, beregnet vi tidskompleksiteten til hvert verktøy ved å multiplisere gjennomsnittlig kjøretid og CPU-utnyttelsen. Resultatene er presentert I Fig. 6.

Ifølge Fig. 6, cn.MOPS har den laveste tidskompleksiteten; derfor vil det kreve minimum tid for samme databehandling blant disse verktøyene. CNVkit har den høyeste tidskompleksiteten, mens den innser tilfredsstillende følsomhet og spesifisitet.

Plasskompleksitet

for å avgjøre om CNV-verktøyet vil påvirke andre programmer mens det kjører, simulerte vi en serie datasett som inngang, hvorav dekningen ER 100X og størrelsen er nær 11,2 MB. Deretter brukte vi de valgte verktøyene til å oppdage Cnver fra disse datasettene og beregnet gjennomsnittlig minnebelastning som en karakteriseringsmengde av plasskompleksiteten. Resultatene er presentert I Fig. 7.

ifølge informasjonen I Fig. 7, Bartre har lavest minne belegg for samme databehandling blant disse verktøyene; derfor har det minimumskravene for maskinvare. cn.MOPS har den høyeste minnebelastningen blant disse verktøyene, mens den har den laveste tidskompleksiteten, og dette skyldes at tidskompleksiteten og romkompleksiteten er gjensidig begrenset.

Sammenlignende studie av hele exome sekvensering-baserte kopi nummer variasjon deteksjon verktøy