studiu comparativ al instrumentelor de detectare a variației numărului de copii pe bază de secvențiere a întregului exom

sensibilitate și specificitate

în studiul nostru, am utilizat sensibilitatea și specificitatea pentru a evalua performanțele acestor instrumente selectate. În acest proces, deoarece acoperirea, dimensiunea CNV și tipul CNV al datelor WES pot influența performanțele instrumentelor, am simulat trei tipuri de date și am studiat modificările performanțelor instrumentelor CNV cu privire la acești trei factori. Rezultatele sunt prezentate după cum urmează.

acoperire

pentru a evalua impactul acoperirii asupra performanțelor de detectare CNV ale acestor instrumente, am luat în considerare o serie de seturi de date WES cu acoperiri de 3X, 10x, 30x și 100x pentru care probabilitatea inserțiilor este egală cu probabilitatea ștergerilor. Apoi, am folosit instrumentele selectate pentru a detecta cnv – urile din aceste date. Rezultatele sunt prezentate în Fig. 1. Figura 1a și b prezintă modificările sensibilităților acestor instrumente (TPRs) și ale specificităților (TNRs) în ceea ce privește acoperirea și Fig. 1c prezintă numărul de cnv-uri detectate de aceste instrumente cu diferite acoperiri.

Fig. 1
figura1

modificările performanțelor instrumentelor în ceea ce privește acoperirea. Fig a și B descriu modificările sensibilităților acestor instrumente (TPR) și specificităților (TNR) în ceea ce privește acoperirea, iar Fig c descrie numărul de cnv-uri detectate în diferite acoperiri pentru aceste instrumente.

Din Fig. 1, obținem trei concluzii principale: în primul rând, sensibilitatea (TPR) crește rapid și ulterior se stabilizează odată cu creșterea acoperirii datelor, care poate fi cauzată de efectul plafonului. În al doilea rând, specificitatea (TNR) scade în general odată cu creșterea sensibilității. În cele din urmă, numărul de cnv-uri detectate ale fiecărui instrument crește inițial și ulterior rămâne neschimbat odată cu creșterea acoperirii datelor. Conform acestor rezultate, acoperirea de 100x este suficientă în practică, pentru care sensibilitățile și specificitățile acestor instrumente sunt satisfăcătoare, iar sarcina de calcul este mult mai mică decât cea pentru datele cu acoperire mai mare.

Dimensiune CNV

pentru a evalua influența dimensiunii CNV asupra performanței de detectare a CNV, am simulat o serie de seturi de date ca intrare, pentru care dimensiunile CNV sunt distribuite în 1 kb–10 kb, 10 kb–100 kb, 100 kb-1 Mb și 1 Mb–10 Mb în timp ce acoperirea este de 100x și fiecare tip CNV (ștergere și inserare) are loc cu o frecvență egală între ele. Apoi, am folosit instrumentele selectate pentru a detecta cnv – urile din aceste seturi de date. Rezultatele sunt prezentate în Fig. 2. Figura 2a și b prezintă modificările sensibilităților acestor instrumente (TPR) și specificităților (TNR) în ceea ce privește dimensiunea CNV și Fig. 2c arată numărul de cnv-uri detectate de diferite dimensiuni CNV pentru aceste instrumente. Pentru axa abscisă din Fig. 2a și b, Dimensiunea CNV* este o valoare care este calculată din dimensiunea CNV împărțind dimensiunea CNV la 1000, calculând logaritmul de bază 10 și rotunjind valoarea. De exemplu, când dimensiunea CNV este de 111 kb, dimensiunea CNV* este 3, iar când dimensiunea CNV este de 9 Mb, dimensiunea CNV* este 4.

Fig. 2
figura2

modificările performanțelor instrumentelor în ceea ce privește dimensiunea CNV. Fig a și B prezintă modificările sensibilităților (TPR) și specificităților (TNR) acestor instrumente în ceea ce privește dimensiunea CNV, iar Fig c arată numărul de cnv detectate în diferite dimensiuni CNV pentru aceste instrumente.

Din Fig. 2, tragem două concluzii principale: În primul rând, pentru toate aceste instrumente, sensibilitatea crește inițial și ulterior rămâne neschimbată sau scade ușor odată cu creșterea dimensiunii CNV, în timp ce specificitatea scade odată cu creșterea sensibilității, iar numărul de cnv detectate crește odată cu creșterea dimensiunii CNV. În al doilea rând, performanțele acestor instrumente se schimbă odată cu dimensiunea CNV, iar instrumentele recomandate diferă între cazuri. De exemplu, atunci când dimensiunea CNV vizată este cuprinsă între 1 kb și 100 kb, CNVkit depășește în mod cuprinzător alte instrumente în ceea ce privește sensibilitatea și specificitatea, în timp ce atunci când dimensiunea cnv vizată este cuprinsă între 100 kb și 10 Mb, cn.MOPS funcționează cel mai bine cuprinzător în ceea ce privește sensibilitatea și specificitatea.

după ce am obținut sensibilitățile și specificitățile acestor instrumente pentru diferite dimensiuni CNV, deoarece cnv-urile vizate pot fi necunoscute, am calculat sensibilitățile și specificitățile globale ale acestor instrumente prin medierea sensibilităților și specificităților lor pe diferite dimensiuni CNV. Rezultatele sunt prezentate în tabelul 4. Conform informațiilor din acest tabel, cn.MOPS este o alegere potrivită pentru cercetări necunoscute, deoarece specificitatea și sensibilitatea sa sunt satisfăcătoare în mod cuprinzător.

Tabelul 4 sensibilitatea globală și specificitatea globală a patru instrumente CNV

tip CNV

pentru a determina dacă tipul CNV influențează sau nu detectarea CNV, am simulat o serie de seturi de date, dintre care acoperirea este de 100X, dimensiunea CNV este aleatorie și tipurile CNV apar cu frecvență egală. Apoi, am folosit instrumentele selectate pentru a detecta cnv-urile și am numărat numărul de cnv-uri detectate de fiecare tip. Rezultatele sunt prezentate în Fig. 3.

Fig. 3
figura3

numărul de cnv detectate pentru diferite tipuri de CNV.

Din Fig. 3, concluzionăm următoarele: În primul rând, toate aceste instrumente pot detecta nu numai inserțiile CNV, ci și ștergerile CNV. În al doilea rând, toate instrumentele, cu excepția coniferului, au performanțe mai bune pentru ștergerile CNV decât pentru inserțiile CNV. În al treilea rând, deși CoNIFER are performanțe mai bune pentru inserții decât pentru ștergeri, este posibil să nu funcționeze cel mai bine dintre toate aceste instrumente pentru inserții, dintre care performanța depinde și de distribuția dimensiunii CNV.

suprapunerea consistenței

în studiul nostru, pentru a evalua coerența acestor instrumente CNV, am efectuat teste de suprapunere pe datele simulate și datele reale.

pentru datele simulate, în primul rând, am simulat o serie de seturi de date, dintre care acoperirea este de 100x, iar dimensiunea și tipul CNV sunt aleatorii. Apoi, am folosit cele patru instrumente selectate pentru a detecta cnv-urile. În cele din urmă, am desenat o diagramă Venn a rezultatelor detectării, care este prezentată în Fig. 4a.

Fig. 4
figura4

consecvența suprapusă rezultă. Fig a și B arată datele simulate și datele reale.

pentru datele reale, mai întâi, am descărcat Exemple exome de la CNVkit și le-am folosit ca date originale. Apoi, am convertit datele originale (în format cnn) în formatele cerute de celelalte trei instrumente CNV: formatul RPKM pentru CoNIFER, formatul GRange pentru exomeCopy și S4 pentru cn.Mopuri. În cele din urmă, am detectat cnv-uri și am desenat o diagramă Venn urmând aceeași procedură ca și pentru datele simulate. Diagrama Venn este prezentată în Fig. 4b.

cu informațiile din Fig. 4, am calculat ratele de suprapunere (definite în secțiunea criterii de comparație) a acestor patru instrumente pentru a cuantifica coerența acestora, care sunt enumerate în tabelul 5.

Tabelul 5 ratele de suprapunere a patru instrumente CNV

conform tabelului 5, ratele de suprapunere a coniferelor, CNVkit și cn.Mop-urile depășesc 90% pentru datele simulate; prin urmare, realizează o coerență satisfăcătoare în detectarea cnv-urilor, iar rezultatele lor sunt extrem de demne de încredere. În plus, cn.Mopurile și coniferele realizează, de asemenea, o consistență satisfăcătoare (86 și 67%) la detectarea cnv-urilor din date reale.

cu toate acestea, nu toate aceste instrumente realizează o consistență satisfăcătoare. Rata de suprapunere a exomecopiei este întotdeauna scăzută (23% la datele simulate și 3% la datele reale). Pentru a determina cauza acestui fenomen, am analizat multe alte studii și am constatat că rezultatul nostru este similar cu rezultatele lui Tan (22%) , conform cărora rata de suprapunere a exomecopiei este asociată cu algoritmii săi.

în plus, am constatat că ratele de suprapunere ale instrumentelor pentru datele simulate sunt mai mari decât cele pentru datele reale din testul nostru. Pentru a determina ce a dus la acest fenomen, am făcut diagramele Venn a trei din cele patru instrumente, care au fost selectate aleatoriu. Rezultatele sunt prezentate în Fig. 5.

Fig. 5
figura5

Venn diagrame de trei instrumente CNV. Fig a este pentru conifere, cn.Mopuri și exomecopie, Fig b este pentru conifere, cn.Mopuri și CNVkit, Fig c este pentru CNVkit, cn.Mopuri și exomeCopy, iar Fig d este pentru CoNIFER, CNVkit și exomeCopy.

conform Fig. 5, toate combinațiile a trei dintre aceste patru instrumente au exoni comuni, cu excepția combinației de exomecopie, cn.Mopuri și conifere, ceea ce se datorează numărului de exoni detectați de cn.MOPS este prea mic în raport cu cele de alte instrumente. Cu toate acestea, din rezultatele detectării datelor simulate, cn.Mopurile au depășit majoritatea instrumentelor în ceea ce privește sensibilitatea și specificitatea globală, ceea ce nu este în concordanță cu rezultatul suprapunerii consistenței. Pe baza rezultatelor din datele simulate, credem că cauzele care stau la baza acestui fenomen ar putea fi că dimensiunile CNV ale probelor nu se concentrează pe 10 kb până la 1 Mb, iar numărul de inserții CNV depășește numărul de ștergeri CNV, ceea ce poate determina numărul de detectări false pentru exomeCopy și CNVkit să fie mult mai mare decât cele pentru cn.Mopuri și conifere.

costuri de calcul

pentru a evalua aceste instrumente CNV în mod cuprinzător, am folosit și costul de calcul ca criteriu de evaluare, care include complexitatea timpului și complexitatea spațiului. Rezultatele sunt prezentate după cum urmează.

complexitatea timpului

în studiul nostru, pentru a determina complexitatea timpului acestor instrumente, am simulat o serie de seturi de date ca intrare, a căror acoperire este de 100x și dimensiunea este aproape de 11,2 MB. Apoi, deoarece nu avem algoritmul detaliat al acestor instrumente, am calculat complexitatea timpului fiecărui instrument înmulțind timpul mediu de funcționare și utilizarea procesorului. Rezultatele sunt prezentate în Fig. 6.

Fig. 6
figura6

complexitatea timpului exomeCopy, CoNIFER, CNVkit și cn.Mopuri.

conform Fig. 6, cn.MOPS are cea mai mică complexitate de timp; prin urmare, va necesita timpul minim pentru aceeași prelucrare a datelor între aceste instrumente. CNVkit are cea mai mare complexitate de timp, în timp ce realizează sensibilitate și specificitate satisfăcătoare.

complexitatea spațiului

pentru a determina dacă instrumentul CNV va afecta alte programe în timp ce rulează, am simulat o serie de seturi de date ca intrare, din care acoperirea este de 100x și dimensiunea este aproape de 11,2 MB. Apoi, am folosit instrumentele selectate pentru a detecta cnv-urile din aceste seturi de date și am calculat gradul mediu de ocupare a memoriei ca o cantitate de caracterizare a complexității spațiului. Rezultatele sunt prezentate în Fig. 7.

Fig. 7
figura7

complexitatea spațială a exomeCopy, CoNIFER, CNVkit și cn.Mopuri.

conform informațiilor din Fig. 7, CoNIFER are cea mai mică ocupare a memoriei pentru aceeași prelucrare a datelor printre aceste instrumente; prin urmare, are cerințele minime pentru hardware-ul computerului. cn.MOPS are cea mai mare ocupare a memoriei dintre aceste instrumente, în timp ce are cea mai mică complexitate în timp, iar acest lucru se datorează faptului că complexitatea timpului și complexitatea spațiului sunt constrânse reciproc.

Lasă un răspuns

Adresa ta de email nu va fi publicată.