DeepECT: Hluboké Vložené Cluster Tree

Budeme hodnotit naše navrhované metody DeepECT na čtyři běžně používané hluboké učení datových souborů: MNIST, USPS, Módní-MNIST, a Reuters. Tabulka 1 ukazuje statistiky všech datových souborů použitých v experimentech. MNIST a USPS jsou datové sady obrázků obsahující ručně psané číslice. Datová sada Fashion-MNIST obsahuje obrázky módních produktů, jako jsou obrázky oblečení, obuvi a tašek. Datová sada Reuters obsahuje zpravodajské články ve čtyřech hlavních kategoriích, a používáme stejnou reprezentaci, jak je popsáno v .

experimentální nastavení
Metody Hodnocení
Dendrogram Čistota
čistota listů
Výška Stromu Závislost Čistoty Opatření
Hierarchické Shlukování Linií
Flat Clustering Linií
Obecné Výsledky
podrobné vyhodnocení
výsledky MNIST
Reuters Výsledky
Móda-MNIST Výsledky
použitelnost pro Predikční úlohy na MNIST
Experimenty Shrnutí

experimentální nastavení

zaměřujeme naše experimenty na vyhodnocení naší nové shlukovací vrstvy. Proto se zdržujeme používání propracovanějších architektur autoencoderu. Místo toho používáme stejné obecné plně připojené rozvržení autoencoderu pro všechny experimenty, jak se používá . Jak již bylo zmíněno, očekáváme, že všechny metody by získaly stejně ze sofistikovanějších architektur specifických pro doménu. Standardní Architektura autoencoderu však postačuje k prokázání životaschopnosti Deepectu ve srovnání se základními konkurenty. Proto, používáme stejnou obecnou architekturu autoencoderu, jak bylo navrženo a které se také používalo pro účely shlukování vloženého prostoru. Feedforward encoder v této architektuře má rozměry d-500–500–2000–10, a síť dekodéru má zrcadlené rozložení. Používáme Relu aktivace a střední kvadratická chyba rekonstrukce ztráty z Eq. (1).

pro každou datovou sadu předškolujeme deset autoencoderů a pro všechny experimenty a srovnávací metody používáme stejné předem vyškolené sítě. Pomocí těchto pre-vyškoleni autoencoders zajišťuje, že každá metoda má stejné startovní podmínky pro embedded prostor, a že změny v seskupování kvalita nejsou jen pramení z kvalitativně různých autoencoders. Nastavení před tréninkem je podobné nastavení popsanému v . Pre-train autoencoders jako denoising autoencoders s mírou korupce 20%. Nejprve provedeme předtrénink ve vrstvě s výpadkem po každé vrstvě (s rychlostí 20%) a 20 000 kroků na vrstvu. Poté doladíme celou síť na 50 000 kroků bez výpadku. Korupci vstupů používáme pouze pro předškolení a ne pro skutečnou optimalizaci Deepectu a jeho základních metod. Pro všechny experimenty, které používáme Adam (učení ${\h {sazba}}=0.0001$, $\beta _1=0.9, \beta _2=0.999$) jako optimalizační algoritmus a mini-batch velikost 256 vzorků. Pro kombinovanou optimalizaci trénujeme dalších 50 000 iterací, abychom zajistili konvergenci.

Pro DeepECT, naše počáteční experimenty se syntetickými data ukázala, že rozdělení stromu každý 500 optimalizace přináší slibné výsledky a delší krok velikostí neměl dále zvyšovat výkon. Z tohoto důvodu dodržujeme tento plán, aniž bychom jej upravovali pro experimenty na datových sadách v reálném světě. Totéž platí pro prah prořezávání uvedený v sektu. 2.7. Pro MNIST, Fashion-MNIST a USPS pěstujeme stromy, dokud neobsahují dvacet uzlů listů. Pro datovou sadu Reuters jsme nastavili maximální počet uzlů listů na dvanáct, protože má méně klastrů pozemních pravd. Tímto způsobem máme dvakrát a třikrát skutečný počet shluků. Tyto hodnoty považujeme za dostatečné pro zachycení základních struktur vybraných datových souborů pro účely tohoto článku. Pro hierarchické základní metody používáme stejný počet uzlů listů.

Pro image soubory dat, navíc jsme experimentovali s prsou rozšíření DeepECT + Aug. Začínáme se stejnými pre-vyškolenými autoencodery jako v jiných experimentech. Dále se držíme stejného optimalizačního plánu, jak je popsáno výše pro experimenty s rozšířenými verzemi Deepectu. V každé iteraci používáme původní mini-dávku a její rozšířený protějšek k optimalizaci ztrátové funkce v Eq. 9, namísto non-rozšířené ztráty v Eq. 6. Vytváříme rozšířenou verzi každého obrázku mini-šarže, použitím náhodné afinní transformace za běhu. Afinní transformace se náhodně otáčí a stříhá obraz v rozsahu  stupňů. Také se pohybuje číslice náhodně až dva pixely v libovolném směru. Figura 5 ukazuje příklad této augmentace pro MNIST.

Metody Hodnocení

hodnotíme clusteru hierarchie DeepECT s dendrogram čistoty (DP) a list čistoty (LP) opatření. Oba popisujeme níže. Dále vyhodnocujeme shlukový strom proti plochým základním metodám. K tomu používáme známou normalizovanou vzájemnou informaci (NMI) a přesnost shlukování (ACC). Pro úplnost je zahrneme a ukážeme, že DeepECT je také konkurenceschopný ve scénářích, kde člověk očekává plochou strukturu klastru a zná skutečný počet klastrů v datové sadě. Pro určení oddílu klastru k ze stromu klastru použijeme přiřazení k uzlům K, které byly uzly listů po prvním rozdělení $k-1$.

Dendrogram Čistota

dendrogram čistotu opatření mohou být použity k vyhodnocení clusteru strom proti ploché zemi pravdu oddíl. Je to očekávaná čistota sub-stromu daná nejméně společným uzlem předka pro dva náhodně vzorkované datové body stejné třídy. Je 1.0 pouze tehdy, pokud jsou všechny datové body patřící do jedné třídy v zemi pravdy přiřazeny k nějakému čistému sub-stromu a blíží se 0 pro náhodně generované stromy.

explicitní vzorec je definován jako:

$$\begin{aligned} {\text {DP}} = \frac{1}{|{\mathcal {P}}|} \sum _{k=1}^{K}\sum _{\begin{array}{c} x,y \in C_k\\ \wedge x \ne y \end{array}} {\text {pur}}({\text {dan}}({\text {lca}}(x,y)),C_k), \end{aligned}$$

kde $C_1, \dots , C_K$ jsou údaje bod nastaví odpovídající pozemní pravdu tříd, ${\text {lca}}(x,y)$ je nejmenší společný předek uzlu x a y v clusteru strom, ${\text {dan}}(z)$ je sada datových bodů přiřazen k uzlu z clusteru strom, ${\text {pur}}(S,T) = |S \cap T| / | S|$ je čistota opatření, a ${\mathcal {P}} = \{(x,y) \mid \exists C \in \{C_1, \dots , C_K\}: x,y \in C \wedge x \ne y\}$ je množina všech datových bodů dvojice, které patří do stejné třídy. Čistota dendrogramu může být vypočtena efektivně a přesně v rekurzi zdola nahoru na klastrovém stromu.

čistota listů

kromě použití dendrogramové čistoty zavádíme další opatření, které nazýváme čistota listů (LP). Jedná se o váženou průměrnou čistotu uzlů listů w.r. t. k většinové třídě objektů přiřazených uzlu listů, dané vzorcem:

$$\begin{aligned} {\text {LP}} = \frac{1}{|{\mathcal {D}}|}\sum _{L \{{\mathcal {L}}} _{{\mathcal {D}}}} |L| \max _{C \in \{C_1, \dots , C_K\}} {\text {pur}}(L, C), \end{aligned}$$

kde ${{\mathcal {L}}} _{{\mathcal {D}}}$ je sada souborů obsahující data bodů přidělených list uzly.

Výška Stromu Závislost Čistoty Opatření

Srovnání dendrogram a list čistota dva shluk stromů je pouze možné, pokud oba stromy mají stejný počet listových uzlů. Sub-stromy však mohou být vždy sbaleny do uzlů listů, aby splnily tento požadavek. Proto jsme kolaps zdola nahoru vazba-stromy základní metody—v pořadí spojení—pomocí sub-stromy do listové uzly, dokud nebudeme mít stejný počet sloučit kroky odešel jako split-uzly v top-down stromy DeepECT a Půlit-K-means. Tento proces zajišťuje, že obě metody jsou srovnatelné s hierarchickými hodnotícími opatřeními.

Hierarchické Shlukování Linií

Jako základ pro hodnocení hierarchické vlastnosti, jsme clusteru vložené údaje s klasické hierarchické shlukování algoritmy půlit-k-means (AE + Půlit), single linkage (AE + Single) a úplné propojení (AE + Kompletní). Jelikož žádný z těchto klasických algoritmů lze optimalizovat vložené prostor, jsme také prozkoumat jednoduchý nápad zkombinovat s plochou vložené clustering algoritmus IDEC s single-linkage a complete-linkage. IDEC je metoda, která kombinuje shlukovací vrstvu DEC se ztrátou rekonstrukce autoencoderu. Za prvé, jsme se spustit IDEC s počet shluků nastaven na hodnotu vyšší než očekávaný počet shluků—v našem případě jsme stanovili, že se rovná maximální počet listových uzlů používáme pro DeepECT. Pak, domníváme se, že tyto IDEC clusteru centra jako zástupci přiřazené datové body a pokusit se obnovit hierarchické shlukování struktura provedením single-linkage a complete-linkage na cluster centers (IDEC + Jeden a IDEC + Kompletní). Podobná technika je navržena pro klasické, nevložené nastavení s K-prostředky místo IDEC.

Flat Clustering Linií

Jako základ pro hodnocení výkonnosti DeepECT v bytě clustering nastavení, které používáme k-means na vložených dat z pre-vyškoleni autoencoder (AE+k-means) a IDEC . Pokud ignorujeme výhody více doménově specifických a sofistikovanějších architektur autoencoderu, IDEC je v současné době jednou z nejlepších metod vestavěného klastrování. Na rozdíl od Deepectu musíme při optimalizaci pro IDEC a K-means nastavit skutečný počet clusterů v zemi. Dále jsme nastavili hyperparametr IDEC pro ztrátu rekonstrukce na 0,1, jak je popsáno v .

Tabulka č. 1 Statistiky datových souborů používaných v experimentech

Obecné Výsledky

obecné výsledky—v průměru přes deset pre-vyškoleni autoencoders—pro hierarchické vyhodnocení pomocí dendrogram čistoty a list čistotu opatření pro DeepECT a hierarchické základní algoritmy jsou uvedeny v Tabulce 2. DeepECT důsledně produkuje shlukové stromy vysoké kvality a je nejvýkonnějším algoritmem s velkou rezervou. Můžeme také vidět, že rozšíření augmentace dále zlepšuje výsledky pro MNIST a USPS. Výsledky DeepECT s a bez prsou rozšíření pro Módní-datové sady MNIST jsou podobné, protože dataset autoři rozhodli pre-process všechny obrázky tak, že každý módní položka má normalizované zastoupení. Výsledky klasických metod lze vysvětlit jejich neschopností zlepšit vkládání. Hodnoty čistoty listů pro DeepECT naznačují, že metoda je schopna vytvořit homogenní subpopulace. Pokud porovnáme list čistoty hodnoty DeepECT a hierarchické IDEC + Center-propojení varianty na druhou linií’ list čistoty hodnoty, můžeme vidět, že v kombinaci optimalizace shlukování a autoencoder—obou metod—skutečně zlepšuje homogenita místních struktur. Středová vazba IDEC + však také není schopna extrahovat koherentní hierarchickou strukturu.

Tabulka 3 ukazuje experimentální výsledky pro srovnávací metody plochého shlukování založené na stejných předem vyškolených autoencoderech. Protože používáme stejné předem vyškolené autoencodery, můžeme přímo vidět vliv příslušného cíle shlukování. IDEC i DeepECT těží z kombinované optimalizace ve srovnání s K-prostředky, které nemohou optimalizovat vkládání. Tabulka 4 ukazuje výsledky více metod shlukování založených na centroidu převzatých z příslušné publikace. Více informací o těchto metodách lze nalézt v sektu. 4. Vidíme, že DeepECT také funguje dobře ve srovnání s těmito metodami. Můžeme však také vidět, že architektura autoencoderu výrazně ovlivňuje výsledek shlukování. Například DBC se liší od DEC pouze použitím konvolučního autoencoderu, ale dosahuje vynikajících výsledků. Vybraná Architektura autoencoderu je však nezávislá na vybrané vrstvě shlukování.

samozřejmě, toto srovnání plochého shlukování cíle a DeepECT je nespravedlivé vůči druhé, protože konkurenční metody jsou uvedeny skutečný počet shluků během optimalizace, vzhledem k tomu, že pro DeepECT, používáme pouze tyto informace v průběhu hodnocení. Nicméně, můžeme vidět, že běžné verze DeepECT mohou držet krok s těmito metodami, pokud jde o syrové NMI a ACC opatření, a to na prsou rozšíření DeepECT + Aug ukazuje podstatné zlepšení nad výsledky DeepECT, protože to může ignorovat známý invariances v rámci data. Tyto výsledky ukazují, že DeepECT je také konkurenceschopný ve scénářích, kde člověk očekává plochou strukturu klastru, ale nezná počet klastrů a rekurzivně kontroluje strom klastru.

Tabulka 2 Naše experimenty ukazují, že DeepECT je horní-provedení algoritmu z hlediska dendrogram čistoty (DP) a list čistoty (LP)

Tabulka 3 Tato tabulka ukazuje, že DeepECT je i konkurenceschopná ve srovnání s flat clustering metody, které jsou uvedeny skutečný počet shluků během optimalizace, a proto nespravedlivé a nereálné výhodu nad DeepECT

Tabulka 4 Tato tabulka ukazuje, DeepECT v kontextu jiných hluboké metody shlukování pomocí k-means jako flat clustering cílů.

podrobné vyhodnocení

v této části se blíže podíváme na výsledné DeepECT stromy pro výše uvedené datové sady. Vzhledem k tomu, že nálezy datové sady USPS jsou srovnatelné s nálezy MNIST – protože oba představují ručně psané číslice-tyto výsledky vynecháme pro stručnost.

výsledky MNIST

bližší pohled na výsledné DeepECT stromy pro MNIST datové sady ukazuje některé vzrušující vlastnosti různých subpopulací v ručně psaných číslic. Dva ilustrativní příklady jsou uvedeny na obr. 6 a lze je nalézt v běžném a rozšířeném rozšíření DeepECT. Čistota uzlů zobrazených dílčích stromů pro číslici 7 ‘ je 98% a obsahuje téměř všechny instance této třídy. Obsahuje dva listové uzly. Jeden listový uzel ukazuje sedmičky s malým příčníkem, jak je běžně psáno v Evropě, druhý listový uzel ukazuje tuto číslici, jak je běžněji psáno v USA. Druhý podstrom obsahuje téměř všechny instance číslice ” 2 ” s čistotou 97%. Tento podstrom také obsahuje dva listové uzly, každý se specifickými vlastnostmi. První uzel listu obsahuje instance, které jsou kudrnatější a mají ve spodní části výraznou smyčku. Druhý list uzel obsahuje více ‘efektivní’ verze této číslice, vypadající jako znak ‘Z’ zobrazí sub-stromy vytvořit přirozenou hierarchii pro jednotlivé číslice, a jeden může snadno představit, že tyto nálezy mohou být zajímavé pro výzkumníka. Další tvar v závislosti seskupení číslic lze nalézt také v dolní části stromu, například, písemné verze číslice ‘4’ a ‘9’ sdílejí mnoho vlastností. V důsledku toho je často lze nalézt seskupené jako podstrom obsahující pouze tyto dva číselné typy.

Reuters Výsledky

Reuters dataset obsahuje čtyři nevyvážené top kategorie (first-level štítky) s následující třídy distribuce: Spolupracovat/Průmyslové s 44%, Vládní/Sociální s 24%, Trhy s 24%, a Ekonomika s 8%. Tato datová sada je podrobněji vysvětlena v. Kategorie pro každý zpravodajský článek byly vybírány ručně a jsou tedy do jisté míry subjektivní. Kromě toho má každá nejvyšší kategorie několik dalších překrývajících se podkategorií (štítky druhé úrovně)-a podkategorií (štítky třetí úrovně) – s více než 96% článků patřících do dvou nebo více podkategorií. Tabulka 5 ukazuje výsledek DeepECT pro tento datový soubor. Vidíme, že první dvě rozdělení oddělují většinu Government / Social-sub-tree počínaje uzlem 3 – a trhy-sub-tree počínaje uzlem 5—kategorií od ostatních dvou kategorií. Vládní / sociální podstrom se pak dále rozlišuje na témata podkategorií, jako je sport, válka a zločin, domácí a Mezinárodní politika. Kategorie trhů se dále rozlišuje do různých aspektů příslušných podkategorií. Například uzly listů v posledních dvou řádcích se týkají různých podkategorií komoditních trhů podkategorií. Uzly listů uprostřed jsou většinou spojeny s podnikovým / průmyslovým a ekonomickým. Nejsou tak dobře odděleny jako ostatní dva sub-stromy. Přesto i tam můžeme najít zajímavé listové uzly. Například, sedmý list uzel (řádek) z horní akcií, novinové články označené sub-kategorie Výkonnosti (Corporate/Průmyslové) a Ekonomické Výkonnosti (Ekonomie) a zdá se rozumné očekávat, související slova pro tyto dvě sub-sub-kategorií.

Tabulka 5 Tato tabulka ukazuje, cluster tree pro Reuters dataset

Móda-MNIST Výsledky

Módní MNIST obsahuje deset různých tříd, oblečení, boty a tašky, a to tričko/top, kalhoty, svetr, šaty, kabát, sandály, tričko, tenisky, tašky a kotníkové boty. Výsledný klastrový strom naší metody je znázorněn na obr. 7. Uzly listů jsou reprezentovány jako náhodně vzorkované objekty, které jsou k nim přiřazeny. Štítky každého uzlu jsou naše interpretace založená na objektech přiřazených příslušnému uzlu. Vidíme, že DeepECT našel v této datové sadě zcela přirozeně vypadající hierarchii. Nejprve jsou obrázky rozděleny do tří kategorií: oblečení, boty a tašky. Tyto sub-stromy jsme zvýraznili barevnými oblastmi. V každém podstromu najdeme přirozené hierarchie. Kategorie tašek rozlišuje mezi taškami bez viditelného popruhu/rukojeti, taškami s malými držadly a taškami s ramenním popruhem. Pozemní pravda nerozlišuje mezi těmito typy sáčků a přiřazuje je všem stejné třídě. Kategorie oblečení je nejprve rozdělena na kalhoty a oblečení pro horní část těla. Ty jsou pak opět rozděleny na krátké a dlouhé rukávy. Zde je třeba vidět délku rukávu vzhledem k celkové délce příslušného oděvu, protože každá položka je normalizována tak, aby se v obraze objevila stejná velikost, tj., šaty a košile se zdají být stejné velikosti. Kategorie obuvi také vykazuje některé zajímavé vlastnosti. Nejprve se rozlišují menší a větší boty. Menší boty se pak dále dělí na sandály a tenisky. Větší boty mají buď plochou podrážku, malý podpatek, nebo jsou vysoké podpatky. Budování hierarchie založené na těchto vlastnostech běží proti třídám tenisky, sandály, a kotníkové boty. Přesto je to—z pohledu vzhledu-platná a informativní hierarchie obuvi.

použitelnost pro Predikční úlohy na MNIST

vyhodnocujeme také DeepECT v Predikční úloze. Tím udržujeme autoencodery a postup optimalizace clusterů, jak je popsáno výše. Na rozdíl od výše uvedeného experimentálního hodnocení používáme pouze první vzorky 50.000 (tréninková sada) datasetu MNIST během optimalizace klastrového stromu. Po optimalizaci vyhodnocujeme shlukovací výkon klastrového stromu na dosud neviděných, zbývajících 20.000 datových bodech (testovací sada).

v tomto experimentu získáme pro testovací sadu dendrogramovou čistotu $0.73\pm 0,08$ a čistota listů $0,85\pm 0,06$, což je mírný pokles ve srovnání s hodnotami v tabulce 2. Výsledek je však dostatečně robustní, aby umožnil omezené předpovědi dříve neviditelných datových bodů přímo stromem klastru. Ve většině případů bychom však vyškolili klasifikátor založený na nalezených strukturách klastrů. Totéž platí pro samotné vkládání, kde můžeme využít například ztrátu autoencoderu pod dohledem, abychom vylepšili nalezené vkládání.

Experimenty Shrnutí

stručně řečeno, myslíme si, že ukázaly experimenty na čtyřech reálných datových souborů jasně ukazují užitečnost a účinnost DeepECT clusteru strom. Nalezení tohoto druhu struktur a výběr úrovně detailů, které mají být analyzovány, činí DeepECT cennou metodou pro vědce o datech.