estudo Comparativo de toda a exome sequenciamento de cópia com base no número de variação de ferramentas de detecção

Sensibilidade e especificidade

Em nosso estudo, utilizamos a sensibilidade e a especificidade para avaliar as performances destas ferramentas selecionadas. Neste processo, uma vez que a cobertura, tamanho CNV e tipo CNV dos dados WES podem influenciar o desempenho das ferramentas, simulamos três tipos de dados e estudamos as mudanças no desempenho das ferramentas CNV em relação a estes três fatores. Os resultados são apresentados da seguinte forma.

Cobertura

Para avaliar o impacto da cobertura da CNV detecção de performances dessas ferramentas, foram consideradas uma série de WES conjuntos de dados com coberturas de 3X, 10X, 30X e 100X para o qual a probabilidade de inserção é igual à probabilidade de exclusões. Então, nós usamos as ferramentas selecionadas para detectar CNVs a partir desses dados. Os resultados são apresentados na Fig. 1. A figura 1a E b apresentam as alterações das sensibilidades e especificidades destas ferramentas (TPRs) no que diz respeito à cobertura e à Fig. 1c apresenta os números de CNV detectados por estas ferramentas com várias coberturas.

Fig. 1
Figura 1

as mudanças de desempenho das ferramentas no que diz respeito à cobertura. A figura a e b descrevem as alterações das sensibilidades e especificidades destas ferramentas (TPRs) no que diz respeito à cobertura, e a Figura C descreve o número de CNV detectados em diferentes coberturas para estas ferramentas.

Da Fig. 1, obtemos três conclusões principais: em primeiro lugar, a sensibilidade (TPR) aumenta rapidamente e, posteriormente, estabiliza com o aumento da cobertura dos dados, o que pode ser causado pelo efeito limite. Em segundo lugar, a especificidade (TNR) diminui globalmente com o aumento da sensibilidade. Por último, o número de CNV detectados de cada ferramenta aumenta inicialmente e subseqüentemente permanece inalterado com o aumento da cobertura dos dados. De acordo com estes resultados, a cobertura de 100X é suficiente na prática, para a qual as sensibilidades e especificidades destas ferramentas são satisfatórias, e o fardo computacional é muito menor do que o dos dados com maior cobertura.

CNV tamanho

avaliar a influência da CNV tamanho no CNV desempenho de detecção, simulamos uma série de conjuntos de dados como entrada, para que a CNV tamanhos são distribuídos em 1 kb 10 kb 10 kb–100 kb, 100 kb, 1 Mb e 1 Mb, 10 Mb, enquanto a cobertura é de 100X e cada CNV (tipo de exclusão e de inserção) ocorre com igual freqüência entre eles. Então, nós usamos as ferramentas selecionadas para detectar CNVs a partir desses conjuntos de dados. Os resultados são apresentados na Fig. 2. As figuras 2a e b mostram as alterações das sensibilidades (TPRs) e das especificidades (TNRs) destas ferramentas no que diz respeito ao tamanho do CNV, e Fig. 2c mostra o número de CNV detectados de vários tamanhos de CNV para estas ferramentas. Para o eixo de abcissa da Fig. 2a e b, A dimensão do CNV* é um valor calculado a partir da dimensão do CNV dividindo a dimensão do CNV por 1000, calculando o logaritmo de base 10 e arredondando o valor. Por exemplo, quando o tamanho do CNV é 111 kb, o tamanho do CNV* é 3, e quando o tamanho do CNV é 9 Mb, O tamanho do CNV* é 4.

Fig. 2
Figura 2

as alterações dos desempenhos das ferramentas em relação ao tamanho do CNV. A figura a e b mostram as alterações das sensibilidades e especificidades destas ferramentas (TPRs) no que diz respeito ao tamanho do CNV, e a Figura c mostra o número de CNV detectados em diferentes tamanhos do CNV para estas ferramentas.

Da Fig. 2, tiramos duas conclusões principais: Em primeiro lugar, por todas essas ferramentas, a sensibilidade aumenta inicialmente e, posteriormente, permanece inalterado ou diminui ligeiramente com o aumento da CNV tamanho, enquanto a especificidade diminui à medida que a sensibilidade aumenta, e o número de detectado CNVs aumenta à medida que a CNV aumenta de tamanho. Em segundo lugar, as performances destas ferramentas mudam com o tamanho CNV, e as ferramentas recomendadas diferem entre os casos. Por exemplo, quando o tamanho do CNV-alvo está entre 1 kb e 100 kb, o CNVkit supera de forma abrangente Outras ferramentas em termos de sensibilidade e especificidade, enquanto que quando o tamanho do CNV-alvo está entre 100 kb e 10 Mb, cn.As MOPS apresentam o melhor desempenho em termos de sensibilidade e especificidade.

depois de termos obtido as sensibilidades e especificidades destas ferramentas para vários tamanhos de CNV, uma vez que os CNV-alvo podem ser desconhecidos, calculámos as sensibilidades e especificidades globais destas ferramentas através da média das suas sensibilidades e especificidades sobre vários tamanhos de CNV. Os resultados são apresentados na Tabela 4. De acordo com as informações deste quadro, NC.Os esfregões são uma escolha adequada para pesquisas desconhecidas, uma vez que sua especificidade e sensibilidade são satisfatórias de forma abrangente.

Tabela 4 global de sensibilidade e global especificidade de quatro CNV ferramentas

CNV tipo

Para determinar se a CNV tipo de influências a CNV de detecção ou não, simulamos uma série de conjuntos de dados, de que a cobertura é de 100X, a CNV tamanho é aleatória e a CNV tipos ocorrem com igual frequência. Então, usamos as ferramentas selecionadas para detectar CNVs e contamos o número de CNV detectados de cada tipo. Os resultados são apresentados na Fig. 3.

Fig. 3
Figura 3

o número de CNV detectados para diferentes tipos de CNV.

Da Fig. 3, concluímos o seguinte: em primeiro lugar, todas estas ferramentas podem detectar não só inserções CNV, mas também supressões CNV. Em segundo lugar, todas as ferramentas, exceto CoNIFER, apresentam melhor desempenho para supressões de CNV do que para inserções de CNV. Em terceiro lugar, embora CoNIFER tenha melhor desempenho para inserções do que para supressões, pode não ter o melhor desempenho entre todas estas ferramentas para inserções, das quais o desempenho também depende da distribuição do tamanho CNV.

consistência sobreposta

em nosso estudo, para avaliar a consistência destas ferramentas CNV, realizamos testes sobrepostos nos dados simulados e dados reais.

para os dados simulados, primeiro, simulamos uma série de conjuntos de dados, dos quais a cobertura é de 100X e o tamanho e tipo do CNV são aleatórios. Então, usamos as quatro ferramentas selecionadas para detectar CNVs. Finalmente, desenhamos um diagrama Venn dos resultados de detecção, que é mostrado na Fig. 4a.

Fig. 4
Figura 4

os resultados de consistência sobreposta. A figura a e b mostram os dados simulados e os dados reais.

para os dados reais, primeiro, baixamos exemplos exome do CNVkit e os usamos como os dados originais. Em seguida, convertemos os dados originais (em formato cnn) nos formatos que são exigidos pelas outras três ferramentas CNV: formato RPKM para CoNIFER, formato GRange para exomeCopy e S4 para cn.PATACA. Finalmente, detectamos CNVs e desenhamos um diagrama Venn seguindo o mesmo procedimento que para os dados simulados. O diagrama de Venn é apresentado na Fig. 4b.

com a informação na Fig. 4, calculamos as taxas de sobreposição (definidas em critérios de comparação de seção) destas quatro ferramentas para quantificar sua consistência, que são listadas no quadro 5.

Quadro 5 taxas de sobreposição de quatro ferramentas CNV

de acordo com o quadro 5, as taxas de sobreposição de CoNIFER, CNVkit e cn.Os pop excedem 90% para os dados simulados; assim, eles percebem consistência satisfatória na detecção de CNVs, e seus resultados são altamente confiáveis. Além disso, cn.Os pop e a CoNIFER também têm uma consistência satisfatória (86% e 67%) na detecção de CNVs a partir de dados reais.

no entanto, nem todas estas ferramentas percebem consistência satisfatória. A taxa de sobreposição da exomecopia é sempre baixa (23% em dados simulados e 3% em dados reais). Para determinar a causa deste fenômeno, revisamos muitos outros estudos e descobrimos que nosso resultado é semelhante aos resultados do Tan (22%) , de acordo com o qual a taxa de sobreposição da exomecopia está associada com seus algoritmos.

in addition, we found that the tools’ overlap rates for simulated data are higher than those for real data in our test. Para determinar o que levou a este fenômeno, fizemos os diagramas Venn de três de quatro ferramentas, que foram selecionadas aleatoriamente. Os resultados são apresentados na Fig. 5.

Fig. 5
Figura 5

diagramas Venn de três ferramentas CNV. Figo a é para CoNIFER, cn.Esfregonas e excomecopia, a Fig. B é para coníferas, NC.MOPS e CNVkit, Fig c é para CNVkit, cn.Os esfregões e a excomecopia, bem como a Figo d, destinam-se à Conífera, ao CNVkit e àdomecopia.

de acordo com a Fig. 5, todas as combinações de três dessas quatro ferramentas têm exons comuns, exceto a combinação de exomecopia, cn.Esfregonas e coníferas, ou seja, o número de exões detectados pela NC.As esfregonas são muito pequenas em relação às de outras ferramentas. No entanto, a partir dos resultados de detecção dos dados simulados, cn.Os MOPS superaram a maioria das ferramentas em termos de sensibilidade global e especificidade, o que não está em consonância com o resultado da sobreposição de consistência. Com base nos resultados dos dados simulados, pensamos que as causas subjacentes deste fenômeno podem ser que os tamanhos do CNV das amostras não se concentram em 10 kb a 1 Mb e o número de inserções do CNV excede o número de supressões do CNV, o que pode fazer com que os números de deteções falsas para a exomecopia e CNVkit sejam muito maiores do que os da NC.Esfregonas e coníferas.

custos computacionais

para avaliar estas ferramentas CNV de forma abrangente, nós também usamos o custo computacional como um critério de avaliação, que inclui a complexidade do tempo e a complexidade do espaço. Os resultados são apresentados da seguinte forma.

Tempo de complexidade

Em nosso estudo, para determinar o tempo de complexidades destas ferramentas, simulamos uma série de conjuntos de dados como entrada, de que a cobertura é de 100X e o tamanho é próximo 11.2 MB. Então, como não temos o algoritmo detalhado dessas ferramentas, calculamos a complexidade de tempo de cada ferramenta multiplicando o tempo médio de execução e a utilização da CPU. Os resultados são apresentados na Fig. 6.

Fig. 6
Figura 6

as complexidades do tempo de exomecopia, Conífera, CNVkit e cn.PATACA.

de acordo com a Fig. 6, cn.Os MOPS têm a menor complexidade de tempo; portanto, ele vai exigir o tempo mínimo para o mesmo processamento de dados entre essas ferramentas. CNVkit tem a maior complexidade de tempo, enquanto realiza sensibilidade satisfatória e especificidade.

complexidade espacial

para determinar se a ferramenta CNV afetará outros programas enquanto estiver em execução, simulamos uma série de conjuntos de dados como entrada, dos quais a cobertura é de 100X e o tamanho é próximo de 11,2 MB. Então, nós usamos as ferramentas selecionadas para detectar CNVs a partir desses conjuntos de dados e calculamos a ocupação média da memória como uma quantidade de caracterização da complexidade do espaço. Os resultados são apresentados na Fig. 7.

Fig. 7
Figura 7

as complexidades espaciais de exomecopia, Conífera, CNVkit e cn.PATACA.

de acordo com a informação na Fig. 7, CoNIFER tem a menor ocupação de memória para o mesmo processamento de dados entre essas ferramentas; portanto, ele tem os requisitos mínimos para hardware de computador. cn.MOPS tem a mais alta ocupação de memória entre essas ferramentas, enquanto tem a menor complexidade de tempo, e isso é porque a complexidade de tempo e a complexidade de espaço são mutuamente constrangidos.

Deixe uma resposta

O seu endereço de email não será publicado.