DeepECT: a mélyen beágyazott Klaszterfa

a javasolt deepect módszert négy általánosan használt mély tanulási adatkészleten értékeljük: MNIST, USPS, Fashion-MNIST és Reuters. Az 1. táblázat a kísérletekben használt összes adatkészlet statisztikáját mutatja. Az MNIST és az USPS egyaránt kézzel írt számjegyeket tartalmazó képadatkészletek. A Fashion-MNIST adatkészlet divattermékek képeit tartalmazza, például ruhák, cipők és Táskák képeit. A Reuters adatkészlet négy felső kategóriában tartalmaz híreket, és ugyanazt az ábrázolást használjuk, mint a .

kísérleti beállítás

kísérleteinket az új klaszterréteg értékelésére összpontosítjuk. Ezért tartózkodunk a kidolgozottabb autoencoder architektúrák használatától. Ehelyett ugyanazt az Általános, teljesen összekapcsolt autoencoder elrendezést használjuk minden kísérlethez ,mint a. Mint korábban említettük, arra számítunk, hogy minden módszer egyformán nyerne a kifinomultabb és tartományspecifikus architektúrákból. Azonban egy szabványos autoencoder architektúra elegendő ahhoz, hogy megmutassa a deepect életképességét az alapszintű versenytársakhoz képest. Ezért ugyanazt az Általános autoencoder architektúrát használjuk, amelyet a beágyazott tér csoportosítására is javasoltunk. Ebben az architektúrában a feedforward kódoló méretei d-500–500–2000–10, a dekóder hálózat tükrözött elrendezéssel rendelkezik. ReLU aktiválásokat és az EQ-ból származó átlagos négyzetes hiba rekonstrukciós veszteséget használjuk. (1).

minden adatkészlethez tíz autoencodert készítünk elő, és ezeket az előre betanított hálózatokat használjuk minden kísérlethez és összehasonlítási módszerhez. Ezeknek az előre betanított autoencodereknek a használata biztosítja, hogy minden módszer azonos kiindulási feltételekkel rendelkezzen a beágyazott tér számára, és hogy a klaszterezési minőség változásai ne pusztán a minőségileg eltérő autoencoderekből fakadjanak. Az edzés előtti beállítás hasonló a leírtakhoz . Előre kiképezzük az autoencodereket, mint az autoencoderek denoisingjét, 20% – os korrupciós rátával. Először egy rétegenkénti előképzést hajtunk végre, minden réteg után lemorzsolódással (20% – os sebességgel) és rétegenként 20 000 lépéssel. Ezután az egész hálózatot 50 000 lépésre finomhangoljuk lemorzsolódás nélkül. A bemeneti korrupciót csak az előképzéshez használjuk, nem pedig a DeepECT és annak alapmódszereinek tényleges optimalizálásához. Minden kísérlethez Adam (learning \ ({\hbox {rate}}=0.0001\), \(\beta _1=0,9, \ beta _2=0,999\)), mint az optimalizálási algoritmus és a mini-tétel mérete 256 minta. A kombinált optimalizáláshoz további 50 000 iterációt képezünk a konvergencia biztosítása érdekében.

a deepect esetében a szintetikus adatokkal végzett kezdeti kísérleteink azt mutatták, hogy a fa 500 optimalizálási lépésenkénti felosztása ígéretes eredményeket hoz, és a hosszabb lépésméretek nem növelték tovább a teljesítményt. Emiatt megtartjuk ezt az ütemtervet anélkül, hogy a valós adatkészletekkel végzett kísérletekhez igazítanánk. Ugyanez vonatkozik a szekcióban említett metszési küszöbre. 2.7. A MNIST, a Fashion-MNIST és az USPS számára a fákat addig növesztjük, amíg húsz levélcsomópontot nem tartalmaznak. A Reuters adatkészlethez, a levélcsomópontok maximális számát tizenkettőre állítottuk, mert kevesebb földi igazsághalmaza van. Így a klaszterek tényleges számának kétszerese és háromszorosa van. Ezeket az értékeket elegendőnek tartjuk a kiválasztott adatkészletek alapvető struktúráinak rögzítéséhez e cikk alkalmazásában. Ugyanannyi levélcsomópontot használunk a hierarchikus alapmódszerekhez.

Fig. 5
5. ábra

a parcellákon az eredeti MNIST számjegyek mintája, valamint egy véletlenszerűen kibővített változat látható

a képadatkészletekhez emellett kísérleteztünk a deepect + Aug augmentációs kiterjesztéssel. Ugyanazokkal az előre kiképzett autoencoderekkel kezdjük, mint a többi kísérletben. Továbbá ragaszkodunk a fent leírt optimalizálási ütemtervhez a DeepECT nem kibővített verzióival végzett kísérletekhez. Minden iterációban az eredeti mini-batch-et és annak kibővített megfelelőjét használjuk a veszteségfüggvény optimalizálására az Eq-ban. 9, Az Eq nem kibővített vesztesége helyett. 6. Mi hozza létre a kibővített változata minden kép egy mini-batch, alkalmazásával on-the-fly véletlenszerű Affin transzformáció. Az Affin transzformáció véletlenszerűen elforgatja és levágja a képet a \(\) fok tartományban. Ezenkívül véletlenszerűen mozgatja a számjegyet két pixelig bármely irányba. Az 5. ábra egy példát mutat erre a bővítésre az MNIST számára.

értékelési módszerek

a deepect klaszter hierarchiáját a dendrogram purity (DP) és a leaf purity (LP) méréssel értékeljük. Az alábbiakban mindkettőt leírjuk. Továbbá értékeljük a klaszterfát a lapos alapvonal módszereivel szemben. Ehhez a jól ismert normalizált kölcsönös információ (normalized mutual information, NMI) és fürtözési pontosság (clustering accurity, ACC). Ezeket a teljesség kedvéért belefoglaljuk, és megmutatjuk, hogy a DeepECT versenyképes olyan forgatókönyvekben is, ahol lapos klaszterstruktúrára számítunk, és ismerjük az adatkészletben lévő klaszterek tényleges számát. A fürtfából származó k fürt partíció meghatározásához a hozzárendeléseket használjuk azoknak a k csomópontoknak, amelyek levélcsomópontok voltak az első \(k-1\) hasadások után.

Dendrogram tisztaság

a dendrogram tisztasági mérőeszköz használható a klaszterfa sík földi igazságpartícióval szembeni értékelésére. Ez az alfa várható tisztasága, amelyet a legkevésbé közös őscsomópont ad meg ugyanazon osztály két véletlenszerűen mintavételezett adatpontjára. Ez 1.0 akkor és csak akkor, ha a földi igazság egy osztályához tartozó összes adatpont egy tiszta alfához van rendelve, és a véletlenszerűen generált fák esetében megközelíti a 0-t.

az explicit képletet a következőképpen definiáljuk:

$$\kezdő{igazított} {\text {DP}} = \ frac{1} {/{\mathcal {P}}/} \ sum _ {k=1}^{K} \ sum _ {\begin{tömb}{c} x, y \ in C_k \ \ \ wedge x \ ne y \ end{tömb}} {\text {PUR}} ({\text {dan}} ({\text {lca}} (x, y)), C_k), \ end{igazított}$$

ahol \(C_1, \ dots, C_K\) a ground truth osztályoknak megfelelő adatponthalmazok, \({\text {lca}} (x, y)\) az X és y legkisebb közös őscsomópontja a fürtfában, \({\text {dan}} (z)\) A fürtfában A Z csomóponthoz rendelt adatpontok halmaza, \({\text {pur}} (S, T) = / S \ cap T / / / S/\) a tisztaság mértéke, és \({\mathcal {P}} = \ {(x,y) \mid \létezik C \in \{c_1, \dots , C_K\}: x,y \in C \wedge x \ne y\}\) az összes adatpontpár halmaza, amelyek ugyanabba az osztályba tartoznak. A dendrogram tisztasága hatékonyan és pontosan kiszámítható a klaszterfa alulról felfelé történő rekurziójában.

levél tisztaság

a dendrogram tisztaságának használata mellett bevezetünk egy másik mérést, amelyet levél tisztaságnak (LP) nevezünk. Ez a levélcsomópontok súlyozott átlagos tisztasága w. r. t. a levélcsomóponthoz rendelt objektumok többségi osztályához, amelyet a képlet ad meg:

$$\kezdő{igazított} {\text {LP}} = \ frac{1} {/{\mathcal {D}}/}\sum _ {L \ in {{\mathcal {L}}} _ {{\mathcal {D}}}} / L / \ max _ {C \ in \ {c_1, \ pontok, C_K\}} {\text {pur}}(L, C), \ end{igazított}$$

ahol \({{\mathcal {L}}} _ {{\mathcal {D}}}\) A levélcsomópontokhoz rendelt adatpontokat tartalmazó halmazok halmaza.

fa Magasságfüggése tisztasági mérések

két fürtfa dendrogramjának és levéltisztaságának összehasonlítása csak akkor lehetséges közvetlenül, ha mindkét fának azonos számú levélcsomópontja van. Ennek a követelménynek a teljesítése érdekében azonban az alfákat mindig levélcsomópontokba lehet összeomlani. Ezért a kiindulási módszerek alulról felfelé mutató kapcsolatfáit-a kapcsolódás sorrendjében-összecsukjuk úgy, hogy az alfákat levélcsomópontokká tömörítjük, amíg ugyanannyi egyesítési lépés marad, mint a deepect és a Kettéválasztó-K-eszközök felülről lefelé eső fáiban. Ez a folyamat biztosítja, hogy mindkét módszer összehasonlítható legyen a hierarchikus értékelési intézkedésekkel.

hierarchikus fürtözési alapvonalak

a hierarchikus tulajdonságok értékelésének alapjaként a beágyazott adatokat a klasszikus hierarchikus fürtözési algoritmusokkal csoportosítjuk fel-K-means (AE + Bisecting), single-linkage (ae + Single) és complete-linkage (ae + Complete). Mivel ezen klasszikus algoritmusok egyike sem képes optimalizálni a beágyazott teret, megvizsgáljuk azt az egyszerű ötletet is, hogy az IDEC lapos beágyazott fürtözési algoritmust egy-és teljes összekapcsolással kombinálják. Az IDEC egy olyan módszer, amely ötvözi a DEC klaszterrétegét az autoencoder rekonstrukciós veszteségével. Először az IDEC—t futtatjuk úgy, hogy a klaszterek száma magasabb értékre van állítva, mint a várt klaszterek száma-esetünkben a deepect számára használt levélcsomópontok maximális számával állítjuk be. Ezután ezeket az IDEC klaszterközpontokat a hozzárendelt adatpontok képviselőinek tekintjük, és megpróbáljuk helyreállítani a hierarchikus klaszterstruktúrát a klaszterközpontokon (IDEC + Single és IDEC + Complete) egy-és teljes összekapcsolás végrehajtásával. Hasonló technikát javasolnak a klasszikus, nem beágyazott beállításoknál k-eszközökkel az IDEC helyett.

lapos fürtözési alapvonalak

a deepect teljesítményének sík fürtözési környezetben történő értékeléséhez alapértékként k-eszközöket használunk az előre betanított autoencoder (AE+k-means) és IDEC beágyazott adatain . Ha figyelmen kívül hagyjuk a tartományspecifikus és kifinomultabb autoencoder architektúrák előnyeit, akkor az IDEC jelenleg az egyik legjobb beágyazott klaszterezési módszer. A DeepECT – tel ellentétben az IDEC és a k-means optimalizálása során be kell állítanunk a klaszterek tényleges számát A földi igazságban. Továbbá az IDEC hiperparaméterét a rekonstrukciós veszteségre 0,1-re állítottuk a .

1. táblázat a kísérletekben használt adatkészletek statisztikája

Általános eredmények

a hierarchikus értékelés általános eredményeit—a tíz előre betanított autoencoderre átlagolva-a deepect és a hierarchikus alapvonal algoritmusok dendrogram tisztasági és levéltisztasági méréseit használva a 2.táblázatban mutatjuk be. A deepect következetesen kiváló minőségű fürtfákat állít elő, és széles körben a legjobban teljesítő algoritmus. Azt is láthatjuk, hogy az augmentációs kiterjesztés tovább javítja az eredményeket jelentősen MNIST és USPS. A Deepect eredményei a Fashion-MNIST adatkészlet augmentációs kiterjesztésével vagy anélkül hasonlóak, mert az adatkészlet szerzői úgy döntöttek, hogy az összes képet előzetesen feldolgozzák úgy, hogy minden divatcikk normalizált ábrázolással rendelkezzen. A klasszikus módszerek eredményei azzal magyarázhatók, hogy nem képesek fokozni a beágyazást. A deepect levéltisztasági értékei azt jelzik, hogy a módszer képes homogén alpopulációk létrehozására. Ha összehasonlítjuk a deepect levéltisztasági értékeit és a hierarchikus IDEC + Center-linkage variánsokat a többi alapvonal levéltisztasági értékével, akkor láthatjuk, hogy a klaszterezés és az autoencoder kombinált optimalizálása—mindkét módszer esetében—valóban javítja a helyi struktúrák homogenitását. Az IDEC + Center-linkage azonban nem képes koherens hierarchikus struktúrát kivonni.

a 3. táblázat mutatja az ugyanazon előre kiképzett autoencodereken alapuló lapos klaszterezési összehasonlító módszerek kísérleti eredményeit. Mivel ugyanazokat az előre kiképzett autoencodereket használjuk, közvetlenül láthatjuk az adott csoportosítási cél hatását. Mind az IDEC, mind a DeepECT profitál a kombinált optimalizálásból a k-means-hez képest, amely nem tudja optimalizálni a beágyazást. A 4. táblázat az adott kiadványból vett centroid alapú klaszterezési módszerek eredményeit mutatja be. További részletek ezekről a módszerekről a szekcióban találhatók. 4. Láthatjuk, hogy a DeepECT is jól teljesít ezekhez a módszerekhez képest. Ugyanakkor azt is láthatjuk, hogy az autoencoder architektúra jelentősen befolyásolja a klaszterezés eredményét. Például a DBC csak a konvolúciós autoencoder használatával különbözik a DEC-től, de kiváló eredményeket ér el. A kiválasztott autoencoder architektúra azonban független a kiválasztott fürtözési rétegtől.

természetesen a lapos klaszterezési célok és a DeepECT összehasonlítása igazságtalan az utóbbival szemben, mivel a Versengő módszerek az optimalizálás során a klaszterek valós számát adják meg, míg a DeepECT esetében ezt az információt csak az értékelés során használjuk fel. Mindazonáltal láthatjuk, hogy a DeepECT szokásos verziója képes lépést tartani ezekkel a módszerekkel a nyers NMI és ACC intézkedések szempontjából, és hogy a deepect + Aug bővítési kiterjesztés jelentős javulást mutat a DeepECT eredményeihez képest, mert figyelmen kívül hagyhatja az adatokon belüli ismert invarianciákat. Ezek az eredmények azt mutatják, hogy a deepect olyan forgatókönyvekben is versenyképes, ahol az ember lapos klaszterszerkezetet vár, de nem ismeri a klaszterek számát, és rekurzív módon ellenőrzi a klaszterfát.

2. táblázat kísérleteink azt mutatják, hogy a deepect a legjobban teljesítő algoritmus a dendrogram tisztasága (DP) és a levél tisztasága (LP)
3. táblázat ez a táblázat azt mutatja, hogy a deepect még versenyképes a lapos klaszterezési módszerekhez képest, amelyek az optimalizálás során a klaszterek valódi számát adják meg, ezért tisztességtelen és irreális előnnyel rendelkeznek a DeepECT-szel szemben
táblázat 4 Ez a táblázat a DeepECT-et más mély klaszterezési módszerek összefüggésében mutatja be k-eszközökkel, például lapos klaszterezési célokkal.

részletes értékelés

ebben a részben közelebbről megvizsgáljuk a kapott DeepECT-fákat a fenti adatkészletekhez. Mivel az USPS adatkészlet megállapításai összehasonlíthatók az MNIST eredményeivel—mivel mindkettő kézzel írt számjegyeket képvisel -, ezeket az eredményeket rövidség céljából kihagyjuk.

MNIST eredmények

az MNIST adatkészlet kapott DeepECT-fáinak közelebbi áttekintése a kézzel írt számjegyeken belüli különböző alpopulációk izgalmas tulajdonságait mutatja. Két szemléltető példát mutat be az ábra. 6 és megtalálható a deepect szokásos és kibővített kiterjesztésében. Az ábrázolt Alfák csomópont-tisztasága a 7′ számjegynél 98% , és ennek az osztálynak szinte minden példányát tartalmazza. Két levélcsomópontot tartalmaz. Az egyik levélcsomópont heteseket mutat egy kis keresztléccel, amint azt Európában általában írják, a másik levélcsomópont ezt a számjegyet mutatja, mivel az USA-ban gyakrabban írják. A második alfa a ‘2’ számjegy szinte minden példányát tartalmazza, 97% – os tisztasággal. Ez az alfa két levélcsomópontot is tartalmaz, amelyek mindegyike sajátos jellemzőkkel rendelkezik. Az első levélcsomópont göndörebb példányokat tartalmaz, amelyek alsó részén jellegzetes hurok található. A második levélcsomópont ennek a számjegynek egy egyszerűbb változatát tartalmazza, úgy néz ki, mint a ‘Z’ karakter.a bemutatott Alfák természetes hierarchiát építenek az adott számjegyhez, és könnyen elképzelhető, hogy ezek a megállapítások érdekesek lehetnek egy kutató számára. Más alaktól függő számjegycsoportok is megtalálhatók a fa alsó részeiben, például a ‘4’ és a ‘9’ számjegyek írott változatai sok jellemzővel rendelkeznek. Következésképpen gyakran megtalálhatók alfaként csoportosítva, amely csak ezt a két számjegyű típust tartalmazza.

Fig. 6
6. ábra

a telkek két kivont alfát mutatnak a DEEPECT által talált MNIST adatkészlet érdekes alcsoportjaiból. Ezek a hét számjegy (középső keresztléccel és anélkül) és kettő (göndör és áramvonalas változat, inkább a ‘Z’ karakterre hasonlít). A bemutatott számjegyek véletlenszerűen kerülnek mintavételre

Reuters eredmények

a Reuters adatkészlet négy kiegyensúlyozatlan felső kategóriát tartalmaz (első szintű címkék) a következő osztályelosztással: együttműködés/ipari 44%-kal, kormányzati/szociális 24% – kal, piacok 24% – kal, közgazdaságtan pedig 8% – kal. Ezt az adatkészletet részletesebben a . Az egyes hírcikkek kategóriáit kézzel választották ki, ezért bizonyos mértékig szubjektívek. Ezenkívül minden felső kategóriának több további, egymást átfedő alkategóriája van (második szintű címkék)-és alkategóriája (harmadik szintű címkék)—, a cikkek több mint 96%-a két vagy több alkategóriához tartozik. Az 5. táblázat ennek az adatkészletnek a DeepECT eredményét mutatja. Láthatjuk, hogy az első két felosztás elválasztja a 3 csomóponttól kezdődő kormányzati/társadalmi alfa nagy részét—és az 5 csomóponttól kezdődő piacok-alfa—kategóriákat a másik két kategóriától. A kormány / társadalmi alfa ezután tovább differenciálja az alkategóriák témáit, mint például a sport, a háború és a bűnözés, a hazai és a nemzetközi politika. A piacok kategóriája az egyes alkategóriák különböző aspektusaira is kiterjed. Például az utolsó két sor levélcsomópontjai az árupiacok alkategóriájának különböző alkategóriáival foglalkoznak. A középső levélcsomópontok többnyire a vállalati / ipari és gazdasági kapcsolatokhoz kapcsolódnak. Nem olyan jól vannak elválasztva, mint a másik két alfa. Mégis, még ott is találhatunk érdekes levélcsomópontokat. Például a hetedik levélcsomópont (sor) a felső részről olyan híreket oszt meg, amelyek a teljesítmény (vállalati/ipari) és a gazdasági teljesítmény (közgazdaságtan) alkategóriákkal vannak ellátva, és ésszerűnek tűnik a két alkategória kapcsolódó szavainak elvárása.

5. táblázat ez a táblázat a Reuters adatkészlet fürtfáját mutatja

Divat-MNIST eredmények

Fig. 7
alak7

az ábra egy klaszterfát mutat a Fashion-MNIST adatkészlethez. Minden levélcsomópont véletlenszerűen kiválasztott objektumokat mutat hozzá. A címkék a szerzők értelmezései. A színes területek kiemelik a három domináns alfát, amelyek az adatkészletben található három típusú tárgyat ábrázolják: táskák, ruhák, cipő

A Divat-MNIST tartalmaz tíz különböző osztályok ruhák, cipők és Táskák, nevezetesen póló/top, nadrág, pulóver, ruha, kabát, szandál, ing, cipő, táska, és bokacsizma. A kapott klaszter fa a módszer ábrán látható. 7. A levélcsomópontok véletlenszerűen kiválasztott objektumokként vannak ábrázolva. Az egyes csomópontok címkéi értelmezésünk az adott csomóponthoz rendelt objektumok alapján történik. Láthatjuk, hogy a DeepECT teljesen természetes megjelenésű hierarchiát talált ezen az adatkészleten belül. Először is, a képek három kategóriába sorolhatók: ruhák, cipők és Táskák. Kiemeltük ezeket az alfákat színes területekkel. Minden alfán belül megtalálhatjuk a természetes hierarchiákat. A táskák kategóriája megkülönbözteti a látható heveder/fogantyú nélküli táskákat, a kis fogantyúval ellátott táskákat és a vállpánttal ellátott táskákat. Az alapigazság nem tesz különbséget az ilyen típusú táskák között, és mindegyiket ugyanabba az osztályba sorolja. A ruhakategóriát először a felsőtest nadrágjaira és ruháira osztják. Ezeket ismét rövid és hosszú ujjakra osztják. Itt a hüvely hosszát az adott ruhadarab teljes hosszához viszonyítva kell látni, mivel minden elem normalizálódik, hogy a képen azonos méretű legyen, azaz. a ruhák és az ingek azonos méretűek. A cipő Kategória néhány érdekes tulajdonságot is mutat. Először is, a kisebb és nagyobb cipők megkülönböztethetők. A kisebb cipőket ezután szandálokra és cipőkre osztják. A nagyobb cipőknek vagy lapos talpuk van, egy kis sarka, vagy magas sarkú. A hierarchia felépítése ezen tulajdonságok alapján a cipők, szandálok és bokacsizma földi igazságosztályaival szemben áll. Ennek ellenére-a megjelenés szempontjából-érvényes és informatív hierarchia a cipők számára.

alkalmazhatóság előrejelzési feladatok MNIST

is értékeljük DeepECT egy előrejelzési feladat. Ezáltal megtartjuk az autoencodereket és a klaszterezés optimalizálási eljárását a fent leírtak szerint. A fenti kísérleti kiértékeléssel ellentétben csak az MNIST adatkészlet első 50.000 mintáját (képzési készletét) használjuk a klaszterfa optimalizálás során. Az optimalizálás után kiértékeljük a fürtfa fürtözési teljesítményét a korábban nem látott, fennmaradó 20.000 adatponton (tesztkészlet).

ebben a kísérletben a tesztkészlethez \ (0 dendrogram tisztaságot kapunk.73 \ pm 0.08\) és a levél tisztasága \(0.85 \ pm 0.06\), ami enyhe csökkenés a 2.táblázatban szereplő értékekhez képest. Ennek ellenére az eredmény elég robusztus ahhoz, hogy lehetővé tegye a korábban nem látott adatpontok korlátozott címkével történő előrejelzését közvetlenül a fürtfa által. A legtöbb esetben azonban osztályozót képeznénk a talált klaszterszerkezetek alapján. Ugyanez vonatkozik magára a beágyazásra is, ahol például a felügyelt autoencoder veszteséget felhasználhatjuk a megtalált beágyazás javítására.

kísérletek összefoglalása

összefoglalva, úgy gondoljuk, hogy a bemutatott kísérletek négy valós adathalmazon világosan mutatják a deepect klaszterfa hasznosságát és hatékonyságát. Az ilyen struktúrák megtalálása és az elemzendő részletesség kiválasztása a deepect-et értékes módszerré teszi az adatkutatók számára.

Vélemény, hozzászólás?

Az e-mail-címet nem tesszük közzé.