Estudio comparativo de herramientas de detección de variación del número de copias basadas en secuenciación de exomas completos

Sensibilidad y especificidad

En nuestro estudio, utilizamos la sensibilidad y la especificidad para evaluar el rendimiento de estas herramientas seleccionadas. En este proceso, dado que la cobertura, tamaño de la CNV y de la CNV tipo de WES datos puede influir en el funcionamiento de las herramientas, hemos simulado tres tipos de datos y estudiado los cambios en la CNV herramientas de las actuaciones con respecto a estos tres factores. Los resultados se presentan a continuación.

Cobertura

Para evaluar el impacto de la cobertura en el rendimiento de detección de CNV de estas herramientas, se consideró una serie de conjuntos de datos WES con coberturas de 3X, 10X, 30X y 100X para los que la probabilidad de inserciones es igual a la probabilidad de eliminaciones. Luego, utilizamos las herramientas seleccionadas para detectar CNVs a partir de estos datos. Los resultados se presentan en la Fig. 1. En las Figuras 1a y b se presentan los cambios en las sensibilidades (TPRs) y especificidades (TNR) de estas herramientas con respecto a la cobertura, y en la Fig. 1c presenta el número de vehículos CNV detectados por estas herramientas con varias coberturas.

Fig. 1
figura 1

Los cambios de rendimiento de las herramientas con respecto a la cobertura. Las figuras a y b describen los cambios en las sensibilidades (TPRs) y especificidades (TNR) de estas herramientas con respecto a la cobertura, y la Figura c describe el número de NVC detectados en diferentes coberturas para estas herramientas.

De La Fig. 1, se obtienen tres conclusiones principales: En primer lugar, la sensibilidad (TPR) aumenta rápidamente y posteriormente se estabiliza con el aumento de la cobertura de los datos, lo que puede ser causado por el efecto techo. En segundo lugar, la especificidad (TNR) disminuye en general con el aumento de la sensibilidad. Finalmente, el número de CNV detectados de cada herramienta aumenta inicialmente y, posteriormente, se mantiene sin cambios con el aumento de la cobertura de los datos. De acuerdo con estos resultados, la cobertura de 100X es suficiente en la práctica, para lo cual las sensibilidades y especificidades de estas herramientas son satisfactorias, y la carga computacional es mucho menor que la de los datos con mayor cobertura.

Tamaño de CNV

Para evaluar la influencia del tamaño de CNV en el rendimiento de detección de CNV, simulamos una serie de conjuntos de datos como entrada, para los cuales los tamaños de CNV se distribuyen en 1 kb–10 kb, 10 kb–100 kb, 100 kb-1 Mb y 1 Mb–10 Mb, mientras que la cobertura es de 100X y cada tipo de CNV (eliminación e inserción) se produce con la misma frecuencia entre ellos. Luego, utilizamos las herramientas seleccionadas para detectar CNVs de estos conjuntos de datos. Los resultados se presentan en la Fig. 2. En las Figuras 2a y b se muestran los cambios de sensibilidad (TPRs) y especificidades (TNR) de estas herramientas con respecto al tamaño del CNV, y en la Fig. 2c muestra el número de CNV detectados de varios tamaños de CNV para estas herramientas. Para el eje de abscisas de la Fig. 2a y b, el tamaño de CNV* es un valor que se calcula a partir del tamaño de CNV dividiendo el tamaño de CNV por 1000, calculando el logaritmo de base 10 y redondeando el valor. Por ejemplo, cuando el tamaño CNV es de 111 kb, el tamaño CNV * es de 3, y cuando el tamaño CNV es de 9 Mb, el tamaño CNV* es de 4.

Fig. 2
figura 2

Los cambios de rendimiento de las herramientas con respecto al tamaño del CNV. Las figuras a y b muestran los cambios en las sensibilidades (TPRs) y especificidades (TNR) de estas herramientas con respecto al tamaño del NVC, y la Figura c muestra el número de NVC detectados en diferentes tamaños de NVC para estas herramientas.

De La Fig. 2, sacamos dos conclusiones principales: En primer lugar, para todas estas herramientas, la sensibilidad aumenta inicialmente y posteriormente permanece sin cambios o disminuye ligeramente con el aumento del tamaño del NVC, mientras que la especificidad disminuye a medida que aumenta la sensibilidad y el número de NVC detectados aumenta a medida que aumenta el tamaño del NVC. En segundo lugar, el rendimiento de estas herramientas cambia con el tamaño del CNV, y las herramientas recomendadas difieren entre los casos. Por ejemplo, cuando el tamaño de CNV objetivo está entre 1 kb y 100 kb, CNVkit supera ampliamente a otras herramientas en términos de sensibilidad y especificidad, mientras que cuando el tamaño de CNV objetivo está entre 100 kb y 10 Mb, cn.MOPS funciona mejor de manera integral en términos de sensibilidad y especificidad.

Después de obtener las sensibilidades y especificidades de estas herramientas para varios tamaños de NVC, ya que los NVC objetivo pueden ser desconocidos, calculamos las sensibilidades y especificidades globales de estas herramientas promediando sus sensibilidades y especificidades sobre varios tamaños de NVC. Los resultados se presentan en la Tabla 4. Según la información de este cuadro, cn.MOPS es una opción adecuada para investigaciones desconocidas, ya que su especificidad y sensibilidad son satisfactorias de manera integral.

Tabla 4 Sensibilidad global y especificidad global de cuatro herramientas de CNV

Tipo CNV

Para determinar si el tipo CNV influye en la detección de CNV o no, simulamos una serie de conjuntos de datos, de los cuales la cobertura es 100X, el tamaño del CNV es aleatorio y los tipos CNV ocurren con la misma frecuencia. Luego, utilizamos las herramientas seleccionadas para detectar CNV y contamos el número de CNV detectados de cada tipo. Los resultados se presentan en la Fig. 3.

Fig. 3
figura 3

El número de detectado la CNV para diferentes CNV tipo.

De La Fig. 3, concluimos lo siguiente: En primer lugar, todas estas herramientas pueden detectar no solo inserciones de CNV, sino también eliminaciones de CNV. En segundo lugar, todas las herramientas, excepto la conífera, funcionan mejor para las eliminaciones de CNV que para las inserciones de CNV. En tercer lugar, aunque la conífera funciona mejor para inserciones que para eliminaciones, es posible que no funcione mejor entre todas estas herramientas para inserciones, de las cuales el rendimiento también depende de la distribución del tamaño del CNV.

Consistencia superpuesta

En nuestro estudio, para evaluar la consistencia de estas herramientas de CNV, realizamos pruebas de superposición de datos simulados y datos reales.

Para los datos simulados, en primer lugar, simulamos una serie de conjuntos de datos, de los cuales la cobertura es 100X y el tamaño y tipo de CNV son aleatorios. Luego, utilizamos las cuatro herramientas seleccionadas para detectar CNVs. Finalmente, dibujamos un diagrama Venn de los resultados de detección, que se muestra en la Fig. 4a.

Fig. 4
figura 4

Los resultados de la consistencia superpuesta. Las figuras a y b muestran los datos simulados y los datos reales.

Para los datos reales, primero, descargamos ejemplos de exome de CNVkit y los usamos como datos originales. Luego, convertimos los datos originales (en formato cnn) en los formatos que requieren las otras tres herramientas de CNV: formato RPKM para CoNIFER, formato GRange para exomeCopy y S4 para cn.FREGONA. Finalmente, detectamos CNVs y dibujamos un diagrama de Venn siguiendo el mismo procedimiento que para los datos simulados. El diagrama de Venn se presenta en la Fig. 4b.

Con la información de la Fig. 4, calculamos las tasas de superposición (definidas en la sección Criterios de Comparación) de estas cuatro herramientas para cuantificar su consistencia, que se enumeran en la Tabla 5.

Tabla 5 Tasas de solapamiento de cuatro herramientas CNV

De acuerdo con la Tabla 5, las tasas de superposición de coníferas, CNVkit y cn.Los trapeadores superan el 90% para los datos simulados; por lo tanto, se dan cuenta de una consistencia satisfactoria en la detección de CNV, y sus resultados son altamente confiables. Además, cn.Las fregonas y las coníferas también obtienen una consistencia satisfactoria (86 y 67%) en la detección de CNV a partir de datos reales.

Sin embargo, no todas estas herramientas tienen una consistencia satisfactoria. La tasa de superposición de exomecopia siempre es baja (23% en datos simulados y 3% en datos reales). Para determinar la causa de este fenómeno, revisamos muchos otros estudios y encontramos que nuestro resultado es similar a los resultados de Tan (22%) , según los cuales la tasa de superposición de exomecopia está asociada con sus algoritmos.

Además, encontramos que las tasas de superposición de las herramientas para datos simulados son más altas que las de los datos reales en nuestra prueba. Para determinar qué condujo a este fenómeno, hicimos los diagramas de Venn de tres de cuatro herramientas, que se seleccionaron aleatoriamente. Los resultados se presentan en la Fig. 5.

Fig. 5
figura 5

Diagramas Venn de tres herramientas CNV. La figura a es para coníferas, cn.FREGONAS y exomecopia, Fig. b es para coníferas, cn.TRAPEADORES y CNVkit, la figura c es para CNVkit, cn.TRAPEADORES y exomecopia, y la figura d es para coníferas, CNVkit y exomecopia.

Según la Fig. 5, todas las combinaciones de tres de estas cuatro herramientas tienen exones comunes, excepto la combinación de exomecopia, cn.TRAPEADORES y coníferas, que se debe al número de exones detectados por cn.Los trapeadores son demasiado pequeños en comparación con los de otras herramientas. Sin embargo, a partir de los resultados de detección en los datos simulados, cn.Los trapeadores superaron a la mayoría de las herramientas en términos de sensibilidad y especificidad globales, lo que no está en línea con el resultado de la consistencia superpuesta. En base a los resultados de los datos simulados, creemos que las causas subyacentes de este fenómeno pueden ser que los tamaños de NVC de las muestras no se centran en 10 kb a 1 Mb y el número de inserciones de NVC excede el número de eliminaciones de NVC, lo que puede causar que el número de detecciones falsas para Exomecopia y CNVkit sea mucho mayor que el de cn.TRAPEADORES y coníferas.

Costos computacionales

Para evaluar estas herramientas de CNV de manera integral, también utilizamos el costo computacional como criterio de evaluación, que incluye la complejidad temporal y la complejidad espacial. Los resultados se presentan a continuación.

Complejidad temporal

En nuestro estudio, para determinar la complejidad temporal de estas herramientas, simulamos una serie de conjuntos de datos como entrada, de los cuales la cobertura es de 100X y el tamaño es cercano a 11,2 MB. Entonces, como no tenemos el algoritmo detallado de estas herramientas, calculamos la complejidad de tiempo de cada herramienta multiplicando el tiempo de ejecución promedio y la utilización de la CPU. Los resultados se presentan en la Fig. 6.

Fig. 6
figura 6

Las complejidades temporales de Exomecopia, CoNIFER, CNVkit y cn.FREGONA.

Según la Fig. 6, cn.Los trapeadores tienen la menor complejidad de tiempo; por lo tanto, requerirán el tiempo mínimo para el mismo procesamiento de datos entre estas herramientas. CNVkit tiene la complejidad de tiempo más alta, mientras que se da cuenta de una sensibilidad y especificidad satisfactorias.

Complejidad de espacio

Para determinar si la herramienta CNV afectará a otros programas mientras se está ejecutando, simulamos una serie de conjuntos de datos como entrada, de los cuales la cobertura es de 100X y el tamaño es cercano a 11,2 MB. Luego, utilizamos las herramientas seleccionadas para detectar CNVs a partir de estos conjuntos de datos y calculamos la ocupación media de memoria como una cantidad de caracterización de la complejidad del espacio. Los resultados se presentan en la Fig. 7.

Fig. 7
figura 7

Las complejidades espaciales de exomeCopy, CoNIFER, CNVkit y cn.FREGONA.

De acuerdo con la información de la Fig. 7, CoNIFER tiene la ocupación de memoria más baja para el mismo procesamiento de datos entre estas herramientas; por lo tanto, tiene los requisitos mínimos para el hardware de la computadora. cn.MOPS tiene la mayor ocupación de memoria entre estas herramientas, mientras que tiene la menor complejidad de tiempo, y esto se debe a que la complejidad de tiempo y la complejidad de espacio están mutuamente restringidas.

Deja una respuesta

Tu dirección de correo electrónico no será publicada.