Srovnávací studie whole exome sequencing-based kopírovat číslo variace detekce nástroje

Citlivost a specifičnost

V naší studii jsme použili citlivost a specifičnost hodnotit výkony těchto vybraných nástrojů. V tomto procesu, protože pokrytí, velikost CNV a typ CNV dat WES mohou ovlivnit výkon nástrojů, simulovali jsme tři typy dat a studovali změny ve výkonech nástrojů CNV s ohledem na tyto tři faktory. Výsledky jsou uvedeny následovně.

Pokrytí

vyhodnotit dopad pokrytí na detekci CNV představení těchto nástrojů, jsme považován za série WES datových souborů s reportáží z 3X, 10X, 30X a 100X, pro které je pravděpodobnost, že inzerce je rovna pravděpodobnost, že delece. Poté jsme pomocí vybraných nástrojů detekovali CNV z těchto dat. Výsledky jsou uvedeny na obr. 1. Obrázky 1a a b představují změny citlivosti těchto nástrojů (TPRs) a specifik (TNRs) s ohledem na pokrytí a obr. 1c představuje počty detekovaných CNV těmito nástroji s různými kryty.

obr. 1
1

změny nástrojů výkony s ohledem na pokrytí. Obr a a b popisují změny těchto nástrojů’ citlivost (TPRs) a zvláštnosti (TNRs) s ohledem na pokrytí, a Obr c popisuje počty zjištěných CNVs v různé reportáže pro tyto nástroje.

Z Obr. 1, získáme tři hlavní závěry: nejprve se citlivost (TPR) rychle zvyšuje a následně se stabilizuje se zvýšením pokrytí dat, což může být způsobeno stropním efektem. Za druhé, specificita (TNR) se celkově snižuje se zvýšením citlivosti. Nakonec se počet detekovaných CNV každého nástroje zpočátku zvyšuje a následně zůstává nezměněn s nárůstem pokrytí dat. Podle těchto výsledků je pokrytí 100X v praxi dostatečné, pro které jsou citlivost a specifika těchto nástrojů uspokojivé a výpočetní zátěž je mnohem nižší než u dat s vyšším pokrytím.

CNV velikost

vyhodnotit vliv CNV velikost CNV detekce výkonu, jsme simulované sérii datových souborů jako vstup, pro které CNV velikosti jsou distribuovány v 1 kb, 10 kb, 10 kb 100 kb 100 kb-1 Mb a 1 Mb–10 Mb, zatímco pokrytí je 100X a každý typ CNV (smazání a vložení) se vyskytuje se stejnou frekvencí mezi nimi. Poté jsme použili vybrané nástroje k detekci CNV z těchto datových sad. Výsledky jsou uvedeny na obr. 2. Obrázek 2a a b ukazují změny těchto nástrojů’ citlivost (TPRs) a zvláštnosti (TNRs) s ohledem na velikost CNV, a Obr. 2c zobrazuje počty detekovaných CNV různých velikostí CNV pro tyto nástroje. Pro osu úsečky na obr. 2a a b, velikost CNV* je hodnota, která se vypočítá z velikosti CNV vydělením velikosti CNV 1000, výpočtem základního logaritmu 10 a zaokrouhlením hodnoty. Například, když je velikost CNV 111 kb, velikost CNV* je 3, a když je velikost CNV 9 Mb, velikost CNV* je 4.

obr. 2
číslo2

změny výkonů nástrojů s ohledem na velikost CNV. Obr a a b ukazují změny těchto nástrojů’ citlivost (TPRs) a zvláštnosti (TNRs) s ohledem na velikost CNV, a Obr. c ukazuje počet zjištěných CNVs v CNV různé velikosti pro tyto nástroje.

Z Obr. 2, vyvodíme dva hlavní závěry: První, pro všechny tyto nástroje, citlivost se zvyšuje na začátku a následně zůstává nezměněný nebo mírně klesá s nárůstem CNV velikosti, zatímco specificita klesá citlivost zvyšuje, a počet zjištěných CNVs se zvyšuje, jak CNV velikost zvyšuje. Za druhé, výkony těchto nástrojů se mění s velikostí CNV a doporučené nástroje se v jednotlivých případech liší. Například, když cílené CNV velikost je mezi 1 kb a 100 kb, CNVkit komplexně překonává jiné nástroje, pokud jde o citlivost a specifičnost, vzhledem k tomu, že při cílené CNV velikost je mezi 100 kb a 10 Mb, kn.MOPS funguje nejlépe komplexně, pokud jde o citlivost a specifičnost.

Poté, co jsme získali citlivost a specificitu těchto nástrojů pro různé CNV velikostí, od cílené CNVs může být neznámé, jsme vypočítali globální citlivost a specificitu těchto nástrojů tím, že v průměru jejich citlivost a specificitu přes různé velikosti CNV. Výsledky jsou uvedeny v tabulce 4. Podle informací v této tabulce, cn.MOPS je vhodnou volbou pro Neznámý výzkum, protože jeho specifičnost a citlivost jsou komplexně uspokojivé.

Tabulka 4 globální citlivost a globální specifičnost čtyři CNV nástroje

CNV typ

K určení, zda CNV typ ovlivňuje detekci CNV, nebo ne, jsme simulované sérii datových sad, z nichž pokrytí je 100X, CNV velikost je náhodná a CNV typy se vyskytují se stejnou frekvencí. Poté jsme použili vybrané nástroje pro detekci CNV a spočítali počet detekovaných CNV každého typu. Výsledky jsou uvedeny na obr. 3.

obr. 3
číslo3

počet detekovaných CNV pro různé typy CNV.

Z Obr. 3, uzavíráme následující: Za prvé, všechny tyto nástroje mohou detekovat nejen CNV inzerce, ale také CNV delece. Za druhé, všechny nástroje kromě jehličnanů fungují lépe pro odstranění CNV než pro vložení CNV. Zatřetí, ačkoli jehličnan funguje lépe pro vložení než pro odstranění, nemusí mít nejlepší výkon ze všech těchto nástrojů pro vložení, jejichž výkon závisí také na distribuci velikosti CNV.

překrývající se konzistence

v naší studii jsme pro vyhodnocení konzistence těchto nástrojů CNV provedli překrývající se testy simulovaných dat a reálných dat.

pro simulovaná data jsme nejprve simulovali řadu datových souborů, jejichž pokrytí je 100X a velikost a typ CNV jsou náhodné. Poté jsme použili vybrané čtyři nástroje k detekci CNV. Nakonec jsme nakreslili Vennův diagram výsledků detekce, který je znázorněn na obr. 4 a.

obr. 4
číslo4

výsledkem je překrývající se konzistence. Obr a A b ukazují simulovaná data a reálná data.

pro skutečná data jsme nejprve stáhli příklady exome z CNVkit a použili je jako původní data. Poté jsme původní data (ve formátu cnn) převedli do formátů, které vyžadují další tři nástroje CNV: formát RPKM pro CoNIFER, Formát GRange pro exomeCopy a S4 pro cn.MOP. Nakonec jsme detekovali CNV a nakreslili Vennův diagram stejným postupem jako u simulovaných dat. Vennův diagram je uveden na obr. 4b.

s informacemi na obr. 4, vypočítali jsme míry překrývání (definované v sekci srovnávací kritéria) těchto čtyř nástrojů pro kvantifikaci jejich konzistence, které jsou uvedeny v tabulce 5.

Tabulka 5 míry překrývání čtyř nástrojů CNV

podle tabulky 5 míry překrývání jehličnanů, CNVkit a cn.Mopy přesahují 90% pro simulovaná data; proto si uvědomují uspokojivou konzistenci při detekci CNV a jejich výsledky jsou vysoce důvěryhodné. Kromě toho, cn.Mopy a jehličnany si také uvědomují uspokojivou konzistenci (86 a 67%) při detekci CNV z reálných dat.

ne všechny tyto nástroje však dosahují uspokojivé konzistence. Míra překrytí exomeCopy je vždy nízká (23% na simulovaných datech a 3% na reálných datech). Určit příčinu tohoto jevu, zhodnotili jsme mnoho dalších studií a zjistili, že náš výsledek je podobný Tan výsledky (22%) , podle které se překrývají rychlost exomeCopy je spojena s jeho algoritmy.

kromě toho jsme zjistili, že míry překrývání nástrojů pro simulovaná data jsou vyšší než u reálných dat v našem testu. Abychom zjistili, co vedlo k tomuto jevu, vytvořili jsme vennovy diagramy tří ze čtyř nástrojů, které byly vybrány náhodně. Výsledky jsou uvedeny na obr. 5.

obr. 5
figurka5

Vennovy diagramy tří nástrojů CNV. Obr a je pro jehličnan, cn.Mopy a exomeCopy, Obr b je pro jehličnany, cn.Mops a CNVkit, Obr c je pro CNVkit, cn.Mopy a exomeCopy a Obr d je pro jehličnany, CNVkit a exomeCopy.

podle obr. 5, všechny kombinace tří z těchto čtyř nástrojů mají společné exony kromě kombinace exomeCopy, cn.Mopy a jehličnany, což je způsobeno počtem zjištěných exonů cn.Mopy jsou příliš malé ve srovnání s jinými nástroji. Nicméně z výsledků detekce na simulovaných datech, cn.Mopy překonaly většinu nástrojů, pokud jde o globální citlivost a specificitu, což není v souladu s výsledkem překrývající se konzistence. Na základě výsledků ze simulovaných dat, myslíme si, že základní příčiny tohoto jevu může být, že CNV velikosti vzorků se nemusíte soustředit na 10 kb to1 Mb a počet CNV inzerce převyšuje počet CNV delece, což může způsobit, že počet falešných detekcí pro exomeCopy a CNVkit být daleko větší než ty, pro cn.Mopy a jehličnany.

Výpočetní náklady

posoudit tyto CNV nástroje komplexně, také jsme použili výpočetní cenu jako hodnotící kritérium, které zahrnuje časová složitost a prostorová složitost. Výsledky jsou uvedeny následovně.

časová složitost

V naší studii k určení časové složitosti těchto nástrojů, jsme simulované sérii datových souborů jako vstup, jehož pokrytí je 100X a velikost je blízko k 11.2 MB. Poté, protože nemáme podrobný algoritmus těchto nástrojů, vypočítali jsme časovou složitost každého nástroje vynásobením průměrné doby běhu a využití CPU. Výsledky jsou uvedeny na obr. 6.

obr. 6
číslo6

časové složitosti exomeCopy, jehličnanů, CNVkit a cn.MOP.

podle obr. 6, cn.MOPS má nejnižší časovou složitost; proto bude vyžadovat minimální čas pro stejné zpracování dat mezi těmito nástroji. CNVkit má nejvyšší časovou složitost, zatímco si uvědomuje uspokojivou citlivost a specifičnost.

složitost prostoru

abychom zjistili, zda nástroj CNV ovlivní jiné programy, zatímco je spuštěn, simulovali jsme jako vstup řadu datových sad, jejichž pokrytí je 100X a velikost se blíží 11,2 MB. Poté jsme použili vybrané nástroje k detekci CNV z těchto datových sad a vypočítali průměrnou obsazenost paměti jako charakterizační množství složitosti prostoru. Výsledky jsou uvedeny na obr. 7.

obr. 7
obrázek7

prostor složitosti exomeCopy, Jehličnan, CNVkit a kn.MOP.

podle informací na obr. 7, jehličnan má nejnižší obsazenost paměti pro stejné zpracování dat mezi těmito nástroji; proto má minimální požadavky na počítačový hardware. cn.MOPS má mezi těmito nástroji nejvyšší obsazenost paměti, zatímco má nejnižší časovou složitost, a to proto, že časová složitost a prostorová složitost jsou vzájemně omezeny.

Napsat komentář

Vaše e-mailová adresa nebude zveřejněna.