badanie porównawcze całych narzędzi do wykrywania zmienności liczby kopii w oparciu o sekwencjonowanie egzomu

czułość i swoistość

w naszym badaniu wykorzystaliśmy czułość i swoistość do oceny wydajności tych wybranych narzędzi. W tym procesie, ponieważ zakres, Rozmiar CNV i typ CNV danych WES mogą wpływać na wydajność narzędzi, przeprowadziliśmy symulację trzech rodzajów danych i zbadaliśmy zmiany w wydajności narzędzi CNV w odniesieniu do tych trzech czynników. Wyniki przedstawiono w następujący sposób.

pokrycie

aby ocenić wpływ pokrycia na wydajność wykrywania CNV tych narzędzi, wzięliśmy pod uwagę serię zbiorów danych WES z pokryciami 3x, 10x, 30X i 100X, dla których prawdopodobieństwo Wstawienia jest równe prawdopodobieństwu usunięcia. Następnie użyliśmy wybranych narzędzi do wykrywania CNV na podstawie tych danych. Wyniki przedstawiono na Rys. 1. Na fig. 1A i b przedstawiono zmiany wrażliwości tych narzędzi (Tprs) i specyficzności (TNRs) w odniesieniu do pokrycia, oraz Fig. 1c przedstawia liczby wykrytych CNV przez te narzędzia z różnymi pokryciami.

Fig. 1
figurka1

zmiany wydajności narzędzi w odniesieniu do pokrycia. Fig a i b opisują zmiany wrażliwości tych narzędzi (Tprs) i specyficzności (TNRs) w odniesieniu do pokrycia, a Fig c opisuje liczbę wykrytych CNV w różnych pokryciach dla tych narzędzi.

Z Fot. 1, otrzymujemy trzy główne wnioski: po pierwsze, czułość (TPR) szybko wzrasta, a następnie stabilizuje się wraz ze wzrostem pokrycia danych, co może być spowodowane efektem sufitu. Po drugie, swoistość (TNR) zmniejsza się ogólnie wraz ze wzrostem czułości. Wreszcie liczba wykrytych CNV każdego narzędzia początkowo wzrasta, a następnie pozostaje niezmieniona wraz ze wzrostem zasięgu danych. Zgodnie z tymi wynikami pokrycie 100X jest wystarczające w praktyce, dla którego wrażliwość i specyficzność tych narzędzi są zadowalające, a obciążenie obliczeniowe jest znacznie niższe niż w przypadku danych o wyższym pokryciu.

rozmiar CNV

aby ocenić wpływ rozmiaru CNV na wydajność wykrywania CNV, symulowaliśmy serię zbiorów danych jako danych wejściowych, dla których rozmiary CNV są dystrybuowane w 1 kb–10 kb, 10 kb–100 kb, 100 kb-1 Mb i 1 Mb–10 Mb, podczas gdy zasięg wynosi 100X, a każdy typ CNV (usuwanie i wstawianie) występuje z równą częstotliwością między nimi. Następnie użyliśmy wybranych narzędzi do wykrywania CNV z tych zbiorów danych. Wyniki przedstawiono na Rys. 2. 2A i b przedstawiają zmiany wrażliwości tych narzędzi (Tprs) i specyficzności (TNRs) w odniesieniu do wielkości CNV i Fig. 2c pokazuje liczbę wykrytych CNV różnych rozmiarów CNV dla tych narzędzi. Dla osi abscissa Fig. 2A i b, Rozmiar CNV* jest wartością obliczaną z rozmiaru CNV przez podzielenie rozmiaru CNV przez 1000, obliczenie logarytmu podstawy 10 i zaokrąglenie wartości. Na przykład, gdy rozmiar CNV wynosi 111 kb, Rozmiar CNV* wynosi 3, A gdy rozmiar CNV wynosi 9 Mb, Rozmiar CNV * wynosi 4.

Fig. 2
figurka2

zmiany wydajności narzędzi w odniesieniu do wielkości CNV. Fig a i b przedstawiają zmiany czułości i specyficzności tych narzędzi w odniesieniu do wielkości CNV, a Fig c przedstawia liczbę wykrytych CNV w różnych rozmiarach CNV dla tych narzędzi.

Z Fot. 2, wyciągamy dwa główne wnioski: Po pierwsze, w przypadku wszystkich tych narzędzi czułość początkowo wzrasta, a następnie pozostaje niezmieniona lub zmniejsza się nieznacznie wraz ze wzrostem wielkości CNV, podczas gdy swoistość zmniejsza się wraz ze wzrostem czułości, a liczba wykrytych CNV zwiększa się wraz ze wzrostem wielkości CNV. Po drugie, wydajność tych narzędzi zmienia się wraz z wielkością CNV, A Zalecane narzędzia różnią się w poszczególnych przypadkach. Na przykład, gdy docelowy rozmiar CNV wynosi od 1 kb do 100 kb, CNVkit kompleksowo przewyższa inne narzędzia pod względem czułości i specyficzności, podczas gdy docelowy rozmiar CNV wynosi od 100 kb do 10 Mb, cn.MOPS sprawdza się najlepiej kompleksowo pod względem czułości i specyficzności.

po uzyskaniu czułości i specyficzności tych narzędzi dla różnych rozmiarów CNV, ponieważ docelowe CNV mogą być nieznane, obliczyliśmy globalną czułość i specyficzność tych narzędzi, uśredniając ich czułość i specyficzność dla różnych rozmiarów CNV. Wyniki przedstawiono w tabeli 4. Zgodnie z informacjami zawartymi w tej tabeli cn.MOPS jest odpowiednim wyborem dla nieznanych badań, ponieważ jego specyfika i wrażliwość są zadowalające kompleksowo.

Tabela 4 Globalna czułość i globalna specyficzność czterech narzędzi CNV

Typ CNV

aby ustalić, czy typ CNV wpływa na wykrywanie CNV, symulowaliśmy serię zbiorów danych, których zasięg wynosi 100X, rozmiar CNV jest losowy, a typy CNV występują z równą częstotliwością. Następnie użyliśmy wybranych narzędzi do wykrywania CNV i policzyliśmy liczbę wykrytych CNV każdego typu. Wyniki przedstawiono na Rys. 3.

Fig. 3
figurka3

liczba wykrytych CNV dla różnych typów CNV.

Z Fot. 3, stwierdzamy, co następuje: po pierwsze, wszystkie te narzędzia mogą wykrywać nie tylko wstawki CNV, ale także delecje CNV. Po drugie, wszystkie narzędzia z wyjątkiem CoNIFER działają lepiej w przypadku delecji CNV niż w przypadku wstawiania CNV. Po trzecie, chociaż CoNIFER lepiej sprawdza się przy wstawianiu niż przy usuwaniu, może nie wykonywać najlepiej spośród wszystkich tych narzędzi do wstawiania, których wydajność zależy również od rozkładu wielkości CNV.

spójność nakładająca się

w naszym badaniu, aby ocenić spójność tych narzędzi CNV, przeprowadziliśmy testy nakładające się na dane symulowane i rzeczywiste.

w przypadku symulowanych danych najpierw symulowaliśmy serię zbiorów danych, których zasięg wynosi 100X, a rozmiar i typ CNV są losowe. Następnie użyliśmy wybranych czterech narzędzi do wykrywania CNV. Na koniec narysowaliśmy diagram Venna z wynikami wykrywania, który pokazano na Fig. 4a.

Fig. 4
figurka4

nakładające się wyniki spójności. Rys. a i b przedstawiają dane symulowane i rzeczywiste.

w przypadku prawdziwych danych najpierw pobraliśmy przykłady exome z CNVkit i wykorzystaliśmy je jako oryginalne dane. Następnie przekonwertowaliśmy oryginalne dane (w formacie cnn) do formatów wymaganych przez pozostałe trzy narzędzia CNV: format RPKM dla CoNIFER, Format GRange dla exomeCopy i S4 dla cn.MOPS. Na koniec wykryliśmy CNVs i narysowaliśmy diagram Venna, postępując zgodnie z tą samą procedurą, co dla symulowanych danych. Diagram Venna przedstawiono na Fig. 4b.

z informacją na Rys. 4, obliczyliśmy współczynniki nakładania się (określone w sekcji kryteria porównawcze) tych czterech narzędzi w celu określenia ich spójności ilościowej, które są wymienione w tabeli 5.

Tabela 5 wskaźniki nakładania się czterech narzędzi CNV

zgodnie z tabelą 5 wskaźniki pokrywania się drzew iglastych, CNVkit i cn.Mopy przekraczają 90% dla symulowanych danych; w związku z tym zdają sobie sprawę z zadowalającej spójności w wykrywaniu CNV, a ich wyniki są wysoce wiarygodne. Ponadto cn.Mopy i Drzewa iglaste osiągają również zadowalającą spójność (86 i 67%) w wykrywaniu CNV na podstawie rzeczywistych danych.

jednak nie wszystkie te narzędzia osiągają zadowalającą spójność. Wskaźnik nakładania się exomeCopy jest zawsze niski (23% W przypadku danych symulowanych i 3% w przypadku danych rzeczywistych). Aby określić przyczynę tego zjawiska, przejrzeliśmy wiele innych badań i stwierdziliśmy, że nasz wynik jest podobny do wyników Tan (22%) , zgodnie z którymi szybkość nakładania się egzomekopy jest powiązana z jej algorytmami.

ponadto odkryliśmy, że wskaźniki nakładania się narzędzi dla symulowanych danych są wyższe niż dla rzeczywistych danych w naszym teście. Aby ustalić, co doprowadziło do tego zjawiska, stworzyliśmy diagramy Venna trzech z czterech narzędzi, które zostały wybrane losowo. Wyniki przedstawiono na Rys. 5.

Fig. 5
figurka5

diagramy Venn trzech narzędzi CNV. Rys. a dotyczy drzewa iglastego, cn.MOPS i exomeCopy, Fig b jest dla drzew iglastych, cn.MOPS i CNVkit, Fig C jest dla CNVkit, cn.MOPS i exomeCopy, a Fig d jest dla CoNIFER, CNVkit i exomeCopy.

zgodnie z Rys. 5, Wszystkie kombinacje trzech z tych czterech narzędzi mają wspólne eksony, z wyjątkiem kombinacji exomeCopy, cn.Mopy i Drzewa iglaste, co wynika z liczby wykrytych eksonów przez cn.MOPS jest zbyt mały w stosunku do tych przez inne narzędzia. Jednakże na podstawie wyników wykrywania na symulowanych danych cn.Mopy przewyższały większość narzędzi pod względem globalnej czułości i specyficzności, co nie jest zgodne z wynikiem nakładania się spójności. Opierając się na wynikach z symulowanych danych, uważamy, że przyczyną tego zjawiska może być to, że rozmiary CNV próbek nie skupiają się na 10 kb do 1 Mb, a liczba wstawek CNV przekracza liczbę usunięć CNV, co może spowodować, że liczba fałszywych detekcji dla exomeCopy i CNVkit będzie znacznie większa niż dla cn.Mopy i Drzewa iglaste.

koszty obliczeniowe

do kompleksowej oceny tych narzędzi CNV wykorzystaliśmy również koszt obliczeniowy jako kryterium oceny, które obejmuje złożoność czasową i złożoność przestrzeni. Wyniki przedstawiono w następujący sposób.

złożoność czasowa

w naszym badaniu, aby określić złożoność czasową tych narzędzi, symulowaliśmy serię zbiorów danych jako danych wejściowych, których zasięg wynosi 100X, a rozmiar jest bliski 11,2 MB. Następnie, ponieważ nie mamy szczegółowego algorytmu tych narzędzi, obliczyliśmy złożoność czasową każdego narzędzia, mnożąc średni czas pracy i wykorzystanie procesora. Wyniki przedstawiono na Rys. 6.

Fig. 6
figurka6

złożoność czasowa exomeCopy, CoNIFER, CNVkit i cn.MOPS.

zgodnie z Rys. 6, cn.MOPS ma najniższą złożoność czasową; w związku z tym będzie wymagał minimalnego czasu na to samo przetwarzanie danych wśród tych narzędzi. CNVkit ma najwyższą złożoność czasową, a jednocześnie realizuje satysfakcjonującą czułość i specyficzność.

złożoność przestrzeni

aby określić, czy narzędzie CNV wpłynie na inne programy podczas jego działania, symulowaliśmy serię zbiorów danych jako danych wejściowych, których zasięg wynosi 100X, a rozmiar jest bliski 11,2 MB. Następnie użyliśmy wybranych narzędzi do wykrywania CNV na podstawie tych zbiorów danych i obliczyliśmy średnie zajętość pamięci jako wielkość charakteryzującą złożoność przestrzeni. Wyniki przedstawiono na Rys. 7.

Fig. 7
figurka7

złożoność przestrzeni exomeCopy, CoNIFER, CNVkit i cn.MOPS.

zgodnie z informacjami na Rys. 7, CoNIFER ma najniższe zajętość pamięci dla tego samego przetwarzania danych wśród tych narzędzi; w związku z tym ma minimalne wymagania dotyczące sprzętu komputerowego. cn.MOPS ma największe zajętość pamięci wśród tych narzędzi, podczas gdy ma najniższą złożoność czasową, a to dlatego, że złożoność czasowa i złożoność przestrzeni są wzajemnie ograniczone.

Dodaj komentarz

Twój adres e-mail nie zostanie opublikowany.