Vertaileva tutkimus kokonaisista exome-sekvensointiin perustuvista kopioluvun vaihtelun tunnistustyökaluista / BMC bioinformatiikka

herkkyys ja spesifisyys
kattavuus
CNV–koko
CNV-tyyppi
päällekkäinen johdonmukaisuus
laskennalliset kustannukset
aikakompleksisuus
avaruuden monimutkaisuus

herkkyys ja spesifisyys

tutkimuksessamme käytimme herkkyyttä ja spesifisyyttä arvioidessamme näiden valittujen työkalujen suorituskykyä. Tässä prosessissa, koska Wes-datan kattavuus, CNV-koko ja CNV-Tyyppi voivat vaikuttaa työkalujen suorituskykyyn, simuloimme kolmenlaisia tietoja ja tutkimme CNV-työkalujen suorituskyvyn muutoksia näiden kolmen tekijän osalta. Tulokset on esitetty seuraavasti.

kattavuus

arvioidaksemme kattavuuden vaikutusta näiden työkalujen CNV-tunnistussuorituksiin tarkastelimme sarjaa WES-tietokokonaisuuksia, joiden peitteet ovat 3X, 10x, 30x ja 100x ja joiden insertioiden todennäköisyys on yhtä suuri kuin poistojen todennäköisyys. Sitten, käytimme valittuja työkaluja havaita CNVs näistä tiedoista. Tulokset on esitetty Fig. 1. Kuvioissa 1a ja b esitetään muutokset näiden välineiden herkkyyksissä (tprs) ja erityispiirteissä (tnrs) kattavuuden osalta, ja kuva. 1c esittää näiden työkalujen havaitsemien CNV: iden lukumäärän erilaisilla peitesivuilla.

Figistä. 1, saamme kolme päätelmää: ensinnäkin herkkyys (TPR) kasvaa nopeasti ja vakiintuu myöhemmin tietojen kattavuuden kasvaessa, mikä voi johtua kattovaikutuksesta. Toiseksi spesifisyys (TNR) vähenee yleisesti herkkyyden kasvaessa. Lopuksi jokaisen työkalun Havaittujen CNV-arvojen määrä kasvaa aluksi ja pysyy myöhemmin muuttumattomana tietojen kattavuuden kasvaessa. Näiden tulosten mukaan 100x: n kattavuus on käytännössä riittävä, jolle näiden työkalujen herkkyydet ja erityispiirteet ovat tyydyttäviä, ja laskennallinen rasitus on paljon pienempi kuin suuremmalla kattavuudella varustettujen tietojen.

CNV–koko

arvioidaksemme CNV–koon vaikutusta CNV-tunnistustehoon simuloimme syötteenä sarjan tietokokoja, joiden CNV–koot on jaettu 1 kb-10 kb, 10 kb-100 kb, 100 kb-1 Mb ja 1 Mb-10 Mb, kun kattavuus on 100X ja jokainen CNV-tyyppi (poisto ja lisäys) tapahtuu yhtä usein niiden välillä. Sitten, käytimme valittuja työkaluja havaita CNVs näistä aineistoista. Tulokset on esitetty Fig. 2. Kuvissa 2a ja b esitetään näiden välineiden herkkyyksien (tprs) ja erityispiirteiden (tnrs) muutokset CNV: n kokoon nähden ja kuva. 2c näyttää eri kokoisten CNV: iden numerot näille työkaluille. Viikunan abscissa-akselille. 2A ja b, CNV-koko* on arvo, joka lasketaan CNV-koosta jakamalla CNV-koko 1000: lla, laskemalla perusarvo 10 logaritmia ja pyöristämällä arvo ylös. Esimerkiksi kun CNV: n koko on 111 kb, CNV: n koko* on 3 ja kun CNV: n koko on 9 Mt, CNV: n koko* on 4.

Figistä. 2, teemme kaksi päätelmä: Ensinnäkin kaikkien näiden työkalujen herkkyys kasvaa aluksi ja pysyy myöhemmin muuttumattomana tai pienenee hieman CNV-koon kasvaessa, kun taas spesifisyys vähenee herkkyyden kasvaessa ja havaittujen CNV-arvojen määrä kasvaa CNV-koon kasvaessa. Toiseksi näiden työkalujen suorituskyky muuttuu CNV-koon myötä,ja suositellut työkalut eroavat tapauksista. Esimerkiksi silloin, kun CNVK: n tavoitekoko on 1-100 kb, CNVkit on herkkyydeltään ja spesifisyydeltään täysin muita työkaluja parempi, kun taas kun CNVK: n tavoitekoko on 100 kb: n ja 10 Mb: n välillä, cn.MOPS toimii parhaiten kokonaisvaltaisesti herkkyyden ja spesifisyyden suhteen.

saatuamme selville näiden eri CNV-kokoisten työkalujen herkkyydet ja ominaispiirteet, koska kohde-CNV: t eivät ehkä ole tiedossa, laskimme näiden työkalujen maailmanlaajuiset herkkyydet ja erityispiirteet laskemalla niiden herkkyyden ja erityisyyden keskiarvon eri CNV-kokojen osalta. Tulokset on esitetty taulukossa 4. Tämän taulukon tietojen mukaan cn.MOPS on sopiva valinta tuntemattomaan tutkimukseen, sillä sen spesifisyys ja herkkyys ovat kattavasti tyydyttäviä.

Taulukko 4 neljän CNV-työkalun globaali herkkyys ja globaali spesifisyys

CNV-tyyppi

sen määrittämiseksi, vaikuttaako CNV-tyyppi CNV-tunnistukseen vai ei, simuloimme joukon tietokokonaisuuksia, joiden kattavuus on 100X, CNV-koko on satunnainen ja CNV-tyypit esiintyvät yhtä usein. Sitten, käytimme valittuja työkaluja havaita CNVs ja laski määrä havaittu CNV kunkin tyypin. Tulokset on esitetty Fig. 3.

Figistä. 3, päätämme seuraavat: Ensinnäkin kaikki nämä työkalut voivat havaita paitsi CNV-lisäykset myös CNV-poistot. Toiseksi kaikki työkalut havupuuta lukuun ottamatta toimivat paremmin CNV: n poistoissa kuin CNV: n lisäyksissä. Kolmanneksi, vaikka Havupuu toimii paremmin lisäyksissä kuin poistoissa, se ei välttämättä suoriudu parhaiten kaikista näistä lisäyksissä käytettävistä työkaluista, joiden suorituskyky riippuu myös CNV-koon jakautumisesta.

päällekkäinen johdonmukaisuus

tutkimuksessamme näiden CNV-työkalujen johdonmukaisuuden arvioimiseksi teimme päällekkäisyystestejä simuloiduille tiedoille ja todellisille tiedoille.

simuloitujen tietojen osalta simuloimme ensin joukon tietokokonaisuuksia, joiden kattavuus on 100X ja CNV: n koko ja tyyppi ovat satunnaisia. Sitten, käytimme valittujen neljän työkaluja havaita CNVs. Lopuksi piirsimme Havaintotuloksista Venn-diagrammin, joka on esitetty kuvassa. 4a.

oikeaa dataa varten latasimme ensin exome-esimerkkejä Cnvkitistä ja käytimme niitä alkuperäisinä datoina. Sitten, muunnimme alkuperäiset tiedot (cnn-muodossa) muotoihin, joita vaaditaan kolme muuta CNV työkalut: Rpkm muoto Havupuu, GRange muoto exomeCopy ja S4 CN.MOPS. Lopuksi havaitsimme CNV: t ja piirsimme Venn-diagrammin noudattamalla samaa menettelyä kuin simuloiduissa tiedoissa. Venn-Diagrammi on esitetty kuvassa. 4b.

ja tiedot viikuna. 4, laskimme päällekkäisyysasteet (määritelty kohdassa Vertailukriteerit) näiden neljän työkalun kvantifioida niiden johdonmukaisuus, jotka on lueteltu taulukossa 5.

Taulukko 5 neljän CNV-työkalun päällekkäisyydet

taulukon 5 mukaisesti päällekkäisyyksiä hinnat Havupuu, CNVkit ja cn.Simuloiduissa tiedoissa MOPS ylittää 90% ; näin ollen ne ovat riittävän johdonmukaisia CNV: n havaitsemisessa, ja niiden tulokset ovat erittäin luotettavia. Lisäksi CN.MOPS ja Havupuu toteavat myös tyydyttävän yhdenmukaisuuden (86 ja 67%) CNV: n havaitsemisessa todellisista tiedoista.

kaikki nämä työkalut eivät kuitenkaan ole riittävän johdonmukaisia. Eksomekopian päällekkäisyysaste on aina pieni (23% simuloiduista tiedoista ja 3% reaalitiedoista). Ilmiön syyn selvittämiseksi kävimme läpi monia muita tutkimuksia ja huomasimme , että tuloksemme on samanlainen kuin Tanin tulokset (22%), joiden mukaan eksomekopian päällekkäisyysaste liittyy sen algoritmeihin.

lisäksi havaitsimme, että simuloiduissa tiedoissa työkalujen päällekkäisyysasteet ovat korkeammat kuin todellisissa tiedoissa testissämme. Selvittääksemme, mikä johti tähän ilmiöön, teimme Venn-diagrammit kolmesta neljästä työkalusta, jotka valittiin satunnaisesti. Tulokset on esitetty Fig. 5.

Fig: n mukaan. 5, kaikilla näiden neljän työkalun yhdistelmillä on yhteiset eksonit lukuun ottamatta eksomekopian yhdistelmää, cn.MOPS ja Havupuu, mikä johtuu siitä, että havaittujen eksonien määrä cn: n mukaan.MOPS on liian pieni suhteessa muihin työkaluihin. Kuitenkin simuloitujen tietojen havaitsemistuloksista, cn.MOPS päihitti useimmat työkalut globaalin herkkyyden ja spesifisyyden suhteen, mikä ei ole yhdenmukaista päällekkäisen johdonmukaisuuden tuloksen kanssa. Simuloiduista tiedoista saatujen tulosten perusteella uskomme, että ilmiön taustalla voi olla se, että näytteiden CNV-koot eivät keskity 10 kb-1 Mb: hen ja CNV-insertioiden määrä ylittää CNV-poistojen määrän, mikä saattaa aiheuttaa eksomecopyn ja Cnvkitin väärien havaintojen määrän olevan paljon suurempi kuin cn: n.Mopseja ja havuja.

laskennalliset kustannukset

arvioidaksemme näitä CNV-työkaluja kokonaisvaltaisesti käytimme arviointikriteerinä myös laskennallisia kustannuksia, joihin sisältyy ajan monimutkaisuus ja tilan monimutkaisuus. Tulokset on esitetty seuraavasti.

aikakompleksisuus

tutkimuksessamme näiden työkalujen aikakompleksien määrittämiseksi simuloimme syötteenä joukon tietokokonaisuuksia, joiden kattavuus on 100X ja koko lähellä 11,2 MB. Sitten, koska meillä ei ole näiden työkalujen yksityiskohtaista algoritmia, laskimme kunkin työkalun ajallisen monimutkaisuuden kertomalla keskimääräisen käyttöajan ja suorittimen käytön. Tulokset on esitetty Fig. 6.

Fig: n mukaan. 6, cn.MOPS on alhaisin aika monimutkaisuus; näin ollen, se vaatii vähimmäisaika samaan tietojenkäsittelyyn näiden työkalujen. CNVkit on korkein aika monimutkaisuus, kun se toteuttaa tyydyttävä herkkyys ja spesifisyys.

avaruuden monimutkaisuus

selvittääksemme, vaikuttaako CNV-työkalu muihin ohjelmiin sen ollessa käynnissä, simuloimme syötteenä joukon tietokokonaisuuksia, joiden kattavuus on 100X ja koko lähellä 11.2 MB. Sitten, käytimme valittuja työkaluja havaita CNVs näistä aineistoista ja laski keskimääräinen muistin käyttöaste kuin karakterisointi määrä tilaa monimutkaisuus. Tulokset on esitetty Fig. 7.

Fig: n tietojen mukaan. 7, havupuu on alhaisin muistin käyttöaste samaan tietojenkäsittelyyn näiden työkalujen joukossa; näin ollen se on vähimmäisvaatimukset tietokonelaitteistolle. cn.MOPS on korkein muistin käyttöaste näistä työkaluista, kun taas se on alhaisin aika monimutkaisuus, ja tämä johtuu siitä, että aika monimutkaisuus ja tila monimutkaisuus ovat keskenään rajoitettu.

vertaileva tutkimus kokonaisista exome-sekvensointiin perustuvista kopioluvun vaihtelun tunnistustyökaluista