studio Comparativo dell’intero exome sequenziamento a base di numero di copia variazione strumenti di rilevamento
Sensibilità e specificità
Nel nostro studio, abbiamo utilizzato la sensibilità e la specificità per valutare le prestazioni di questi strumenti selezionati. In questo processo, poiché la copertura, la dimensione CNV e il tipo CNV dei dati WES possono influenzare le prestazioni degli strumenti, abbiamo simulato tre tipi di dati e studiato i cambiamenti nelle prestazioni degli strumenti CNV rispetto a questi tre fattori. I risultati sono presentati come segue.
Copertura
Per valutare l’impatto della copertura sulle prestazioni di rilevamento CNV di questi strumenti, abbiamo preso in considerazione una serie di dataset WES con coperture di 3X, 10X, 30X e 100X per i quali la probabilità di inserimenti è pari alla probabilità di cancellazioni. Quindi, abbiamo utilizzato gli strumenti selezionati per rilevare i CNV da questi dati. I risultati sono presentati in Fig. 1. La figura 1a e b presenta i cambiamenti delle sensibilità (TPRs) e delle specificità (TNRs) di questi strumenti rispetto alla copertura, e Fig. 1c presenta il numero di CNV rilevati da questi strumenti con varie coperture.
Da Fig. 1, otteniamo tre conclusioni principali: In primo luogo, la sensibilità (TPR) aumenta rapidamente e successivamente si stabilizza con l’aumento della copertura dei dati, che può essere causata dall’effetto del soffitto. In secondo luogo, la specificità (TNR) diminuisce complessivamente con l’aumento della sensibilità. Infine, il numero di CNV rilevati di ogni strumento aumenta inizialmente e successivamente rimane invariato con l’aumento della copertura dei dati. Secondo questi risultati, la copertura di 100X è sufficiente nella pratica, per cui le sensibilità e le specificità di questi strumenti sono soddisfacenti, e il carico computazionale è molto più basso di quello per i dati con una copertura più elevata.
Dimensione CNV
Per valutare l’influenza della dimensione CNV sulle prestazioni di rilevamento CNV, abbiamo simulato una serie di set di dati come input, per i quali le dimensioni CNV sono distribuite in 1 kb–10 kb, 10 kb–100 kb, 100 kb-1 Mb e 1 Mb–10 Mb mentre la copertura è 100X e ogni tipo CNV (cancellazione e inserimento) avviene con uguale frequenza tra di loro. Quindi, abbiamo utilizzato gli strumenti selezionati per rilevare CNV da questi set di dati. I risultati sono presentati in Fig. 2. Le figure 2a e b mostrano i cambiamenti delle sensibilità (TPRs) e delle specificità (TNRs) di questi strumenti rispetto alla dimensione del CNV e Fig. 2c mostra il numero di CNV rilevati di varie dimensioni CNV per questi strumenti. Per l’asse delle ascisse di Fig. 2a e b, la dimensione CNV * è un valore che viene calcolato dalla dimensione CNV dividendo la dimensione CNV per 1000, calcolando il logaritmo di base 10 e arrotondando il valore. Ad esempio, quando la dimensione CNV è 111 kb, la dimensione CNV* è 3 e quando la dimensione CNV è 9 Mb, la dimensione CNV* è 4.
Da Fig. 2, tracciamo due conclusioni principali: Innanzitutto, per tutti questi strumenti, la sensibilità aumenta inizialmente e successivamente rimane invariata o diminuisce leggermente con l’aumento della dimensione del CNV, mentre la specificità diminuisce all’aumentare della sensibilità e il numero di CNV rilevati aumenta all’aumentare della dimensione del CNV. In secondo luogo, le prestazioni di questi strumenti cambiano con la dimensione del CNV e gli strumenti consigliati differiscono tra i casi. Ad esempio, quando la dimensione CNV mirata è compresa tra 1 kb e 100 kb, CNVkit supera ampiamente gli altri strumenti in termini di sensibilità e specificità, mentre quando la dimensione CNV mirata è compresa tra 100 kb e 10 Mb, cn.MOPS esegue meglio completo in termini di sensibilità e specificità.
Dopo aver ottenuto le sensibilità e le specificità di questi strumenti per varie dimensioni CNV, poiché i CNV mirati potrebbero essere sconosciuti, abbiamo calcolato le sensibilità e le specificità globali di questi strumenti facendo una media delle loro sensibilità e specificità su varie dimensioni CNV. I risultati sono presentati nella Tabella 4. Secondo le informazioni contenute in questa tabella, cn.MOPS è una scelta adatta per la ricerca sconosciuta in quanto la sua specificità e sensibilità sono soddisfacenti in modo completo.
Tipo CNV
Per determinare se il tipo CNV influenza il rilevamento CNV o meno, abbiamo simulato una serie di set di dati, di cui la copertura è 100X, la dimensione CNV è casuale e i tipi CNV si verificano con uguale frequenza. Quindi, abbiamo utilizzato gli strumenti selezionati per rilevare i CNV e contato il numero di CNV rilevati di ciascun tipo. I risultati sono presentati in Fig. 3.
Da Fig. 3, concludiamo quanto segue: In primo luogo, tutti questi strumenti in grado di rilevare non solo CNV inserimenti, ma anche CNV delezioni. In secondo luogo, tutti gli strumenti tranne CoNIFER funzionano meglio per le eliminazioni CNV che per gli inserimenti CNV. Terzo, anche se CoNIFER esegue meglio per gli inserimenti che per le eliminazioni, potrebbe non eseguire il meglio tra tutti questi strumenti per gli inserimenti, di cui le prestazioni dipendono anche dalla distribuzione della dimensione CNV.
Sovrapposizione coerenza
Nel nostro studio, per valutare la coerenza di questi strumenti CNV, abbiamo condotto test di sovrapposizione sui dati simulati e dati reali.
Per i dati simulati, in primo luogo, abbiamo simulato una serie di set di dati, di cui la copertura è 100X e la dimensione e il tipo CNV sono casuali. Quindi, abbiamo utilizzato i quattro strumenti selezionati per rilevare i CNV. Infine, abbiamo disegnato un diagramma di Venn dei risultati di rilevamento, che è mostrato in Fig. 4 bis.
Per i dati reali, in primo luogo, abbiamo scaricato esempi exome da CNVkit e li abbiamo usati come dati originali. Quindi, abbiamo convertito i dati originali (in formato cnn) nei formati richiesti dagli altri tre strumenti CNV: formato RPKM per CoNIFER, formato GRange per exomeCopy e S4 per cn.SCOPA. Infine, abbiamo rilevato CNVS e disegnato un diagramma di Venn seguendo la stessa procedura per i dati simulati. Il diagramma di Venn è presentato in Fig. 4b.
Con le informazioni in Fig. 4, abbiamo calcolato i tassi di sovrapposizione (definiti nella sezione Criteri di confronto) di questi quattro strumenti per quantificare la loro consistenza, che sono elencati nella Tabella 5.
Secondo la tabella 5, i tassi di sovrapposizione di conifere, CNVkit e cn.I MOP superano il 90% per i dati simulati; quindi, realizzano una coerenza soddisfacente nel rilevamento dei CNV e i loro risultati sono altamente affidabili. Inoltre, cn.MOP e CONIFERE realizzano anche una consistenza soddisfacente (86 e 67%) sul rilevamento di CNV da dati reali.
Tuttavia, non tutti questi strumenti realizzano una coerenza soddisfacente. Il tasso di sovrapposizione di exomeCopy è sempre basso (23% su dati simulati e 3% su dati reali). Per determinare la causa di questo fenomeno, abbiamo esaminato molti altri studi e abbiamo scoperto che il nostro risultato è simile ai risultati di Tan (22%) , secondo cui il tasso di sovrapposizione dell’esomecopia è associato ai suoi algoritmi.
Inoltre, abbiamo scoperto che i tassi di sovrapposizione degli strumenti per i dati simulati sono superiori a quelli per i dati reali nel nostro test. Per determinare cosa ha portato a questo fenomeno, abbiamo fatto i diagrammi di Venn di tre dei quattro strumenti, che sono stati selezionati in modo casuale. I risultati sono presentati in Fig. 5.
Secondo Fig. 5, tutte le combinazioni di tre di questi quattro strumenti hanno esoni comuni tranne la combinazione di exomeCopy, cn.MOP e conifere, che è perché il numero di esoni rilevati da cn.MOPS è troppo piccolo rispetto a quelli di altri strumenti. Tuttavia, dai risultati di rilevamento sui dati simulati, cn.I MOP hanno sovraperformato la maggior parte degli strumenti in termini di sensibilità e specificità globali, che non è in linea con il risultato della coerenza sovrapposta. Sulla base dei risultati dei dati simulati, pensiamo che le cause sottostanti di questo fenomeno possano essere che le dimensioni CNV dei campioni non si concentrano su 10 kb a 1 Mb e il numero di inserimenti CNV supera il numero di eliminazioni CNV, il che può causare il numero di falsi rilevamenti per exomeCopy e CNVkit per essere molto più grandi di quelli per cn.STRACCI e CONIFERE.
Costi computazionali
Per valutare questi strumenti CNV in modo completo, abbiamo utilizzato anche il costo computazionale come criterio di valutazione, che include la complessità temporale e la complessità spaziale. I risultati sono presentati come segue.
Complessità temporale
Nel nostro studio, per determinare le complessità temporali di questi strumenti, abbiamo simulato una serie di dataset come input, di cui la copertura è 100X e la dimensione è vicina a 11.2 MB. Quindi, poiché non abbiamo l’algoritmo dettagliato di questi strumenti, abbiamo calcolato la complessità temporale di ciascun strumento moltiplicando il tempo medio di esecuzione e l’utilizzo della CPU. I risultati sono presentati in Fig. 6.
Secondo Fig. 6, cn.MOPS ha la complessità temporale più bassa; quindi, richiederà il tempo minimo per la stessa elaborazione dei dati tra questi strumenti. CNVkit ha la più alta complessità temporale, mentre realizza sensibilità e specificità soddisfacenti.
Complessità dello spazio
Per determinare se lo strumento CNV influenzerà altri programmi mentre è in esecuzione, abbiamo simulato una serie di set di dati come input, di cui la copertura è 100X e la dimensione è vicina a 11.2 MB. Quindi, abbiamo utilizzato gli strumenti selezionati per rilevare i CNV da questi set di dati e calcolato l’occupazione media della memoria come quantità di caratterizzazione della complessità dello spazio. I risultati sono presentati in Fig. 7.
Secondo le informazioni in Fig. 7, CoNIFER ha la più bassa occupazione di memoria per lo stesso trattamento dei dati tra questi strumenti; quindi, ha i requisiti minimi per l’hardware del computer. cn.MOPS ha la più alta occupazione di memoria tra questi strumenti, mentre ha la più bassa complessità temporale, e questo perché la complessità temporale e la complessità spaziale sono reciprocamente vincolate.