Teljes exome szekvenálás alapú másolatszám variáció detektáló eszközök összehasonlító vizsgálata / BMC bioinformatika

érzékenység és specifitás
lefedettség
CNV méret
CNV típus
átfedő konzisztencia
számítási költségek
idő komplexitás
Space complexity

érzékenység és specifitás

vizsgálatunkban az érzékenységet és a specifitást használtuk ezen kiválasztott eszközök teljesítményének értékelésére. Ebben a folyamatban, mivel a Wes adatok lefedettsége, CNV mérete és CNV típusa befolyásolhatja az eszközök teljesítményét, három adattípust szimuláltunk, és tanulmányoztuk a CNV eszközök teljesítményének változását e három tényező tekintetében. Az eredményeket a következőképpen mutatjuk be.

lefedettség

a lefedettség ezen eszközök CNV detektálási teljesítményére gyakorolt hatásának értékeléséhez Wes adatkészletek sorozatát vettük figyelembe 3x, 10x, 30x és 100x lefedettséggel, amelyeknél a beillesztések valószínűsége megegyezik a törlések valószínűségével. Ezután a kiválasztott eszközöket használtuk a CNV-k észlelésére ezekből az adatokból. Az eredményeket ábrán mutatjuk be. 1. Az 1a. és b. ábra bemutatja ezen eszközök érzékenységének (TPRs) és sajátosságainak (tnrs) változását a lefedettség tekintetében, valamint az ábra. Az 1c bemutatja az ezen eszközök által észlelt CNV-k számát, különféle lefedettségekkel.

Tól Ábra. Az 1.ábrán három fő következtetést vonunk le: először az érzékenység (TPR) gyorsan növekszik, majd az adatok lefedettségének növekedésével stabilizálódik, amelyet a plafonhatás okozhat. Másodszor, a specifitás (TNR) az érzékenység növekedésével összességében csökken. Végül az egyes eszközök észlelt CNV-jeinek száma kezdetben növekszik, majd az adatok lefedettségének növekedésével változatlan marad. Ezen eredmények szerint a gyakorlatban elegendő a 100x lefedettség, amelyre ezen eszközök érzékenysége és sajátosságai kielégítőek, és a számítási teher sokkal alacsonyabb, mint a nagyobb lefedettségű adatoké.

CNV méret

a CNV méretének a CNV detektálási teljesítményre gyakorolt hatásának értékeléséhez adatkészletek sorozatát szimuláltuk bemenetként, amelyeknél a CNV méretek eloszlása 1 kb–10 kb, 10 kb–100 kb, 100 kb-1 Mb és 1 Mb–10 Mb, míg a lefedettség 100x, és minden CNV típus (törlés és beillesztés) azonos gyakorisággal történik közöttük. Ezután a kiválasztott eszközöket használtuk a CNV-k észlelésére ezekből az adatkészletekből. Az eredményeket ábrán mutatjuk be. 2. A 2A.és b. ábra mutatja be ezen eszközök érzékenységének (TPRs) és sajátosságainak (tnrs) változását a CNV méretéhez képest, valamint az ábrát. A 2c a különböző CNV méretű észlelt CNV-k számát mutatja ezekhez az eszközökhöz. Ábra abszcissza tengelyére. 2A és b, a CNV-méret * egy olyan érték, amelyet a CNV-méretből számítunk ki úgy, hogy elosztjuk a CNV-méretet 1000-rel, kiszámítjuk az alap 10 logaritmust, és kerekítjük az értéket. Például, ha a CNV mérete 111 kb, a CNV mérete * 3, és ha a CNV mérete 9 Mb, a CNV mérete* 4.

Tól Ábra. 2, két fő következtetést vonunk le: Először is, mindezen eszközök esetében az érzékenység kezdetben növekszik, majd a CNV méretének növekedésével változatlan marad, vagy kissé csökken, míg a specifitás az érzékenység növekedésével csökken, a detektált CNV-k száma pedig a CNV méretének növekedésével növekszik. Másodszor, ezeknek az eszközöknek a teljesítménye a CNV méretével változik, az ajánlott eszközök pedig különböznek az esetek között. Például, ha a célzott CNV Méret 1 kb és 100 kb között van, a CNVkit átfogóan felülmúlja az egyéb eszközöket az érzékenység és a specifitás szempontjából, míg ha a célzott CNV méret 100 kb és 10 Mb között van, a CN.MOPS teljesít a legjobban átfogóan szempontjából az érzékenység és a specificitás.

miután megkaptuk ezeknek az eszközöknek az érzékenységét és sajátosságait a különböző CNV méretekre, mivel a célzott CNV-k ismeretlenek lehetnek, kiszámítottuk ezen eszközök globális érzékenységét és sajátosságait azáltal, hogy átlagoltuk érzékenységüket és sajátosságaikat a különböző CNV méretekre. Az eredményeket a 4. táblázat tartalmazza. A táblázatban szereplő információk szerint cn.A MOPS megfelelő választás ismeretlen kutatásokhoz, mivel specifitása és érzékenysége átfogóan kielégítő.

4. táblázat négy CNV-eszköz globális érzékenysége és globális sajátossága

CNV típus

annak megállapításához, hogy a CNV típus befolyásolja-e a CNV detektálást, szimuláltunk egy sor adatkészletet, amelyek lefedettsége 100X, a CNV mérete véletlenszerű, és a CNV típusok azonos gyakorisággal fordulnak elő. Ezután a kiválasztott eszközöket használtuk a CNV-k észlelésére, és megszámoltuk az egyes típusok észlelt CNV-jeinek számát. Az eredményeket ábrán mutatjuk be. 3.

Tól Ábra. 3, a következőket vonjuk le: először is, ezek az eszközök nemcsak a CNV beillesztéseket, hanem a CNV törléseket is képesek felismerni. Másodszor, a tűlevelű kivételével minden eszköz jobban teljesít a CNV törléseknél, mint a CNV beillesztéseknél. Harmadszor, bár a tűlevelű jobban teljesít a beillesztéseknél, mint a törléseknél, előfordulhat, hogy a beillesztések ezen eszközei között nem a legjobban teljesít, amelyek teljesítménye a CNV méretének eloszlásától is függ.

átfedő konzisztencia

vizsgálatunkban ezen CNV eszközök konzisztenciájának értékelésére átfedési teszteket végeztünk a szimulált adatokon és a valós adatokon.

a szimulált adatok esetében először egy sor adatkészletet szimuláltunk, amelyek lefedettsége 100x, a CNV mérete és típusa pedig véletlenszerű. Ezután a kiválasztott négy eszközt használtuk a CNV-k kimutatására. Végül, rajzoltunk egy Venn-diagramot az észlelési eredményekről, amelyet az ábra mutat. 4a.

a valós adatokhoz először letöltöttük az exome példákat a CNVkit – ből, és eredeti adatként használtuk őket. Ezután az eredeti adatokat (cnn formátumban) átalakítottuk a másik három CNV eszköz által megkövetelt formátumokra: Rpkm formátum a tűlevelűekhez, GRange formátum az exomeCopy-hoz és S4 a cn-hez.Felmosók. Végül CNV-ket detektáltunk, és Venn-diagramot rajzoltunk, ugyanazt az eljárást követve, mint a szimulált adatok esetében. A Venn-diagram ábrán látható. 4b.

az ábrán látható információkkal. 4, kiszámítottuk e négy eszköz átfedési arányait (az összehasonlítási kritériumok szakaszban definiálva) következetességük számszerűsítésére, amelyeket az 5.táblázat sorol fel.

5. táblázat négy CNV eszköz átfedési aránya

az 5.táblázat szerint a tűlevelűek, a CNVkit és a KN átfedési aránya.A mop – ok meghaladják a 90% – ot a szimulált adatok esetében; ezért kielégítő következetességet valósítanak meg a CNV-k kimutatásában, és eredményeik nagyon megbízhatóak. Továbbá, cn.A mopok és a tűlevelűek is kielégítő konzisztenciát (86 és 67%) valósítanak meg a CNV-k valós adatokból történő kimutatásában.

azonban ezek az eszközök nem mindegyike valósítja meg a kielégítő konzisztenciát. Az exomecopy átfedési aránya mindig alacsony (23% a szimulált adatokon és 3% a valós adatokon). Ennek a jelenségnek az okának meghatározásához számos más tanulmányt áttekintettünk, és megállapítottuk , hogy eredményünk hasonló a Tan eredményeihez (22%), amely szerint az exomeCopy átfedési aránya összefügg az algoritmusaival.

ezenkívül azt találtuk, hogy az eszközök átfedési aránya a szimulált adatok esetében magasabb, mint a tesztünkben szereplő valós adatok esetében. Annak megállapításához, hogy mi vezetett ehhez a jelenséghez, elkészítettük a Venn-diagramokat a négy eszköz közül háromból, amelyeket véletlenszerűen választottunk ki. Az eredményeket ábrán mutatjuk be. 5.

ábra szerint. 5, e négy eszköz közül három kombinációjának közös exonjai vannak, kivéve az exomeCopy, cn kombinációját.MOPS és tűlevelű, ami azért van, mert a CN által észlelt exonok száma.MOPS túl kicsi képest más eszközökkel. A szimulált adatok kimutatási eredményeiből azonban cn.A MOPS a legtöbb eszközt felülmúlta a globális érzékenység és specifitás szempontjából, ami nincs összhangban az átfedő következetesség eredményével. A szimulált adatok alapján úgy gondoljuk, hogy ennek a jelenségnek az oka az lehet, hogy a minták CNV-mérete nem 10 kb-ról 1 Mb-ra összpontosít, és a CNV-Beillesztések száma meghaladja a CNV-törlések számát, ami az exomeCopy és a CNVkit hamis észleléseinek számát sokkal nagyobb lehet, mint a cn esetében.MOPS és tűlevelű.

számítási költségek

ezen CNV eszközök átfogó értékeléséhez a számítási költségeket is értékelési kritériumként használtuk, amely magában foglalja az idő bonyolultságát és a tér bonyolultságát. Az eredményeket a következőképpen mutatjuk be.

idő komplexitás

tanulmányunkban ezen eszközök időbonyolultságának meghatározásához adatkészletek sorozatát szimuláltuk bemenetként, amelyek lefedettsége 100X, mérete pedig közel 11,2 MB. Ezután, mivel nem rendelkezünk ezeknek az eszközöknek a részletes algoritmusával, kiszámítottuk az egyes eszközök időbonyolultságát az átlagos futási idő és a CPU kihasználtság szorzatával. Az eredményeket ábrán mutatjuk be. 6.

ábra szerint. 6, cn.MOPS van a legalacsonyabb idő komplexitás; ennélfogva, ez lesz szükség a minimális időt ugyanazon adatfeldolgozás között ezeket az eszközöket. A CNVkit a legmagasabb időbonyolultsággal rendelkezik, miközben kielégítő érzékenységet és specifitást valósít meg.

Space complexity

annak megállapításához, hogy a CNV eszköz hatással lesz-e más programokra futás közben, adatkészletek sorozatát szimuláltuk bemenetként, amelyek lefedettsége 100X, mérete pedig közel 11,2 MB. Ezután a kiválasztott eszközökkel észleltük a CNV-ket ezekből az adatkészletekből, és kiszámítottuk az átlagos memóriafoglaltságot a tér komplexitásának jellemzési mennyiségeként. Az eredményeket ábrán mutatjuk be. 7.

ábra szerinti információk szerint. 7, tűlevelű van a legalacsonyabb memória kihasználtság az azonos adatfeldolgozás között ezeket az eszközöket; ennélfogva, azt a minimális követelményeket a számítógépes hardver. cn.A MOPS rendelkezik a legnagyobb memóriafoglaltsággal ezen eszközök között, míg a legalacsonyabb az idő komplexitása, és ez azért van, mert az idő komplexitása és a tér komplexitása kölcsönösen korlátozott.

teljes exome szekvenálás alapú másolatszám variáció detektáló eszközök összehasonlító vizsgálata