Etude comparative des outils de détection de variation de nombre de copies basés sur le séquençage d’exomes entiers

Sensibilité et spécificité

Dans notre étude, nous avons utilisé la sensibilité et la spécificité pour évaluer les performances de ces outils sélectionnés. Dans ce processus, étant donné que la couverture, la taille du VNC et le type de VNC des données WES peuvent influencer les performances des outils, nous avons simulé trois types de données et étudié l’évolution des performances des outils VNC par rapport à ces trois facteurs. Les résultats sont présentés comme suit.

Couverture

Pour évaluer l’impact de la couverture sur les performances de détection CNV de ces outils, nous avons considéré une série de jeux de données WES avec des couvertures de 3X, 10X, 30X et 100X pour lesquelles la probabilité d’insertions est égale à la probabilité de suppressions. Ensuite, nous avons utilisé les outils sélectionnés pour détecter les CNV à partir de ces données. Les résultats sont présentés à la Fig. 1. Les figures 1a et b présentent les changements de sensibilités (TPR) et de spécificités (TNR) de ces outils par rapport à la couverture, et la Fig. 1c présente le nombre de CNV détectées par ces outils avec différentes couvertures.

Fig. 1
 figure1

Les changements de performances des outils par rapport à la couverture. Les figures a et b décrivent les changements de sensibilités (TPR) et de spécificités (TNR) de ces outils par rapport à la couverture, et la figure c décrit les nombres de CNV détectés dans différentes couvertures pour ces outils.

De la Fig. 1, nous obtenons trois conclusions principales: Premièrement, la sensibilité (TPR) augmente rapidement et se stabilise ensuite avec l’augmentation de la couverture des données, qui peut être causée par l’effet plafond. Deuxièmement, la spécificité (TNR) diminue globalement avec l’augmentation de la sensibilité. Enfin, le nombre de CNV détectés de chaque outil augmente initialement et reste inchangé par la suite avec l’augmentation de la couverture des données. Selon ces résultats, la couverture de 100X est suffisante en pratique, pour laquelle les sensibilités et spécificités de ces outils sont satisfaisantes, et la charge de calcul est beaucoup plus faible que celle pour les données à couverture plus élevée.

Taille de CNV

Pour évaluer l’influence de la taille de CNV sur les performances de détection de CNV, nous avons simulé une série d’ensembles de données en entrée, pour lesquels les tailles de CNV sont réparties en 1 kb–10 kb, 10 kb –100 kb, 100 kb -1 Mo et 1 Mo –10 Mo alors que la couverture est de 100X et que chaque type de CNV (suppression et insertion) se produit à fréquence égale entre eux. Ensuite, nous avons utilisé les outils sélectionnés pour détecter les CNV à partir de ces ensembles de données. Les résultats sont présentés à la Fig. 2. Les figures 2a et b montrent l’évolution des sensibilités (TPR) et des spécificités (TNR) de ces outils par rapport à la taille du CNV, et la Fig. 2c montre le nombre de CNV détectées de différentes tailles de CNV pour ces outils. Pour l’axe des abscisses de la Fig. 2a et b, la taille CNV * est une valeur calculée à partir de la taille CNV en divisant la taille CNV par 1000, en calculant le logarithme de base 10 et en arrondissant la valeur. Par exemple, lorsque la taille CNV est de 111 Ko, la taille CNV * est de 3 et lorsque la taille CNV est de 9 Mo, la taille CNV * est de 4.

Fig. 2
 figure2

L’évolution des performances des outils par rapport à la taille du CNV. Les figures a et b montrent l’évolution des sensibilités (TPR) et des spécificités (TNR) de ces outils par rapport à la taille des CNV, et la figure c montre le nombre de CNV détectés dans différentes tailles de CNV pour ces outils.

De la Fig. 2, nous tirons deux conclusions principales: Premièrement, pour tous ces outils, la sensibilité augmente initialement et reste ensuite inchangée ou diminue légèrement avec l’augmentation de la taille du CNV, tandis que la spécificité diminue à mesure que la sensibilité augmente et que le nombre de CNV détectés augmente à mesure que la taille du CNV augmente. Deuxièmement, les performances de ces outils changent avec la taille du CNV et les outils recommandés diffèrent selon les cas. Par exemple, lorsque la taille de CNV ciblée est comprise entre 1 ko et 100 ko, CNVkit surpasse largement les autres outils en termes de sensibilité et de spécificité, alors que lorsque la taille de CNV ciblée est comprise entre 100 ko et 10 Mo, cn.Les VADROUILLES sont les plus performantes en termes de sensibilité et de spécificité.

Après avoir obtenu les sensibilités et spécificités de ces outils pour différentes tailles de VNC, les VNC ciblés pouvant être inconnus, nous avons calculé les sensibilités et spécificités globales de ces outils en faisant la moyenne de leurs sensibilités et spécificités sur différentes tailles de VNC. Les résultats sont présentés dans le tableau 4. Selon les informations contenues dans ce tableau, cn.MOPS est un choix approprié pour la recherche inconnue car sa spécificité et sa sensibilité sont satisfaisantes dans l’ensemble.

Tableau 4 La sensibilité globale et la spécificité globale de quatre outils CNV

Type CNV

Pour déterminer si le type CNV influence ou non la détection CNV, nous avons simulé une série d’ensembles de données dont la couverture est 100X, la taille CNV est aléatoire et les types CNV se produisent à fréquence égale. Ensuite, nous avons utilisé les outils sélectionnés pour détecter les CNV et compté le nombre de CNV détectés de chaque type. Les résultats sont présentés à la Fig. 3.

Fig. 3
 figure3

Le nombre de CNV détectés pour différents types de CNV.

De la Fig. 3, nous concluons ce qui suit: Tout d’abord, tous ces outils peuvent détecter non seulement les insertions de CNV, mais également les suppressions de CNV. Deuxièmement, tous les outils, à l’exception de CoNIFER, fonctionnent mieux pour les suppressions de CNV que pour les insertions de CNV. Troisièmement, bien que CoNIFER fonctionne mieux pour les insertions que pour les suppressions, il peut ne pas être le meilleur parmi tous ces outils pour les insertions, dont la performance dépend également de la distribution de la taille du CNV.

Cohérence de chevauchement

Dans notre étude, pour évaluer la cohérence de ces outils CNV, nous avons effectué des tests de chevauchement sur les données simulées et les données réelles.

Pour les données simulées, nous avons d’abord simulé une série d’ensembles de données, dont la couverture est 100X et la taille et le type de CNV sont aléatoires. Ensuite, nous avons utilisé les quatre outils sélectionnés pour détecter les CNV. Enfin, nous avons dessiné un diagramme de Venn des résultats de détection, qui est illustré à la Fig. 4a.

Fig. 4
 figure4

La cohérence qui se chevauche en résulte. Les figures a et b montrent les données simulées et les données réelles.

Pour les données réelles, nous avons d’abord téléchargé des exemples exome à partir de CNVkit et les avons utilisés comme données d’origine. Ensuite, nous avons converti les données d’origine (au format cnn) dans les formats requis par les trois autres outils CNV: format RPKM pour CoNIFER, format GRange pour exomeCopy et S4 pour cn.VADROUILLE. Enfin, nous avons détecté des CNV et dessiné un diagramme de Venn en suivant la même procédure que pour les données simulées. Le diagramme de Venn est présenté à la Fig. 4b.

Avec les informations de la Fig. 4, nous avons calculé les taux de chevauchement (définis dans la section Critères de comparaison) de ces quatre outils pour quantifier leur cohérence, qui sont énumérés dans le tableau 5.

Tableau 5 Taux de chevauchement de quatre outils CNV

Selon le tableau 5, les taux de chevauchement des conifères, CNVkit et cn.Les VADROUILLES dépassent 90 % pour les données simulées; par conséquent, ils réalisent une cohérence satisfaisante dans la détection des CNV, et leurs résultats sont très fiables. En outre, cn.Les VADROUILLES et les conifères réalisent également une cohérence satisfaisante (86 et 67%) sur la détection des CNV à partir de données réelles.

Cependant, tous ces outils n’obtiennent pas une cohérence satisfaisante. Le taux de chevauchement de l’exomécopie est toujours faible (23% sur les données simulées et 3% sur les données réelles). Pour déterminer la cause de ce phénomène, nous avons examiné de nombreuses autres études et constaté que notre résultat est similaire aux résultats de Tan (22%), selon lesquels le taux de chevauchement de l’exomécopie est associé à ses algorithmes.

De plus, nous avons constaté que les taux de chevauchement des outils pour les données simulées sont plus élevés que ceux des données réelles de notre test. Pour déterminer ce qui a conduit à ce phénomène, nous avons réalisé les diagrammes de Venn de trois des quatre outils, qui ont été sélectionnés au hasard. Les résultats sont présentés à la Fig. 5.

Fig. 5
 figure5

Diagrammes de Venn de trois outils CNV. La figure a est pour les conifères, cn.VADROUILLES et exomécopie, la figure b est pour les conifères, cn.VADROUILLES et CNVkit, Fig c est pour CNVkit, cn.MOPS et exomeCopy, et la figure d est pour CoNIFER, CNVkit et exomeCopy.

Selon la Fig. 5, toutes les combinaisons de trois de ces quatre outils ont des exons communs à l’exception de la combinaison d’exomécopie, cn.VADROUILLES et conifères, ce qui est dû au nombre d’exons détectés par cn.Les VADROUILLES sont trop petites par rapport à celles des autres outils. Cependant, à partir des résultats de détection sur les données simulées, cn.Les MOP ont surpassé la plupart des outils en termes de sensibilité et de spécificité globales, ce qui n’est pas conforme au résultat du chevauchement de la cohérence. Sur la base des résultats des données simulées, nous pensons que les causes sous-jacentes de ce phénomène peuvent être que les tailles de CNV des échantillons ne se concentrent pas sur 10 ko à 1 Mo et que le nombre d’insertions de CNV dépasse le nombre de suppressions de CNV, ce qui peut faire en sorte que le nombre de fausses détections pour exomeCopy et CNVkit soit beaucoup plus grand que ceux pour cn.VADROUILLES et conifères.

Coûts de calcul

Pour évaluer ces outils CNV de manière exhaustive, nous avons également utilisé le coût de calcul comme critère d’évaluation, qui inclut la complexité temporelle et la complexité spatiale. Les résultats sont présentés comme suit.

Complexité temporelle

Dans notre étude, pour déterminer la complexité temporelle de ces outils, nous avons simulé une série d’ensembles de données en entrée, dont la couverture est de 100X et la taille est proche de 11,2 Mo. Ensuite, comme nous ne disposons pas de l’algorithme détaillé de ces outils, nous avons calculé la complexité temporelle de chaque outil en multipliant le temps d’exécution moyen et l’utilisation du processeur. Les résultats sont présentés à la Fig. 6.

Fig. 6
 figure6

Les complexités temporelles de l’exomécopie, du conifère, du CNVkit et du cn.VADROUILLE.

Selon la Fig. 6, cn.MOPS a la complexité temporelle la plus faible; par conséquent, il faudra le temps minimum pour le même traitement des données parmi ces outils. CNVkit a la complexité temporelle la plus élevée, tout en réalisant une sensibilité et une spécificité satisfaisantes.

Complexité de l’espace

Pour déterminer si l’outil CNV affectera d’autres programmes pendant son exécution, nous avons simulé une série d’ensembles de données en entrée, dont la couverture est de 100X et la taille est proche de 11,2 Mo. Ensuite, nous avons utilisé les outils sélectionnés pour détecter les CNV à partir de ces ensembles de données et avons calculé l’occupation moyenne de la mémoire en tant que quantité de caractérisation de la complexité de l’espace. Les résultats sont présentés à la Fig. 7.

Fig. 7
 figure7

Les complexités spatiales de l’exomécopie, du conifère, du CNVkit et du cn.VADROUILLE.

Selon les informations de la Fig. 7, CoNIFER a l’occupation de mémoire la plus faible pour le même traitement de données parmi ces outils; par conséquent, il a les exigences minimales pour le matériel informatique. cn.MOPS a l’occupation de mémoire la plus élevée parmi ces outils, alors qu’il a la complexité temporelle la plus faible, car la complexité temporelle et la complexité spatiale sont mutuellement contraintes.

Laisser un commentaire

Votre adresse e-mail ne sera pas publiée.