DeepECT: the Deep Embedded Cluster Tree

we evaluate our proposed method DeepECT on four commonly used deep learning datasets: MNIST, USPS, Fashion-MNIST, and Reuters. O quadro 1 apresenta as estatísticas de todos os conjuntos de dados utilizados nas experiências. MNIST e USPS são ambos conjuntos de dados de imagem contendo dígitos manuscritos. O conjunto de dados Fashion-MNIST contém imagens de produtos de moda, tais como imagens de roupas, sapatos e sacos. O conjunto de dados da Reuters contém artigos de notícias em quatro categorias principais, e nós usamos a mesma representação como descrito em .

configuração Experimental
Evaluation Methods
Dendrogram Purity
pureza das folhas
a dependência da altura das árvores das medidas de pureza
linhas de Base de Clustering hierárquicas
linhas de Base de Clustering planas
Resultados Gerais
avaliação detalhada
MNIST Results
Reuters Resultados
Moda-MNIST Resultados
Applicability for Prediction Tasks on MNIST
Experiments Summary

configuração Experimental

focamos as nossas experiências na avaliação da nossa nova camada de aglomeração. Portanto, nós nos abstemos de usar arquiteturas de autoencoder mais elaboradas. Em vez disso, usamos o mesmo layout Genérico totalmente conectado autoencoder para todos os experimentos, como usado em . Como mencionado anteriormente, esperamos que todos os métodos ganhariam igualmente com arquiteturas mais sofisticadas e específicas ao Domínio. No entanto, uma arquitectura normalizada de autoencoder é suficiente para demonstrar a viabilidade da DeepECT em comparação com os concorrentes de base. Assim, nós usamos a mesma arquitetura genérica de autoencoder, como proposto em e que também usado para o propósito de agrupar o espaço embutido. O codificador feedforward nesta arquitectura tem as dimensões d-500–500–2000–10 e a rede descodificadora tem um layout espelhado. Usamos as ativações ReLU e a perda média de reconstrução de erro quadrado do Eq. (1).

pré-treinamos dez auto-codificadores para cada conjunto de dados e usamos essas mesmas redes pré-treinadas para todas as experiências e métodos de comparação. Usando estes autoencoders pré-treinados garante que cada método tem as mesmas condições de partida para o espaço embutido e que as variações na qualidade de clustering não derivam meramente de autoencoders qualitativamente diferentes. A configuração pré-treinamento é semelhante à descrita em . Nós pré-treinamos os autoencoders como denoising autoencoders com uma taxa de corrupção de 20%. Em primeiro lugar, executamos um pré-treinamento em nível com dropout após cada camada (com uma taxa de 20%) e 20.000 passos por camada. Depois, ajustamos toda a rede para 50 mil passos sem desistência. Nós usamos corrupção de entrada apenas para o pré-treinamento e não para a otimização real do DeepECT e seus métodos de base. Para todas as experiências, utilizamos o Adam (learning $taxa de aprendizagem)}}=0.0001$, $\ beta _1=0.9, \ beta _2=0.999$) como o algoritmo de otimização e um tamanho mini-lote de 256 amostras. Para a otimização combinada, treinamos para mais 50.000 iterações para garantir a convergência.

para o DeepECT, os nossos experimentos iniciais com dados sintéticos mostraram que dividir a árvore a cada 500 etapas de otimização produz resultados promissores e tamanhos de etapas mais alargados não aumentaram ainda mais o desempenho. Por esta razão, mantemos este cronograma sem ajustá-lo para as experiências em conjuntos de dados do mundo real. O mesmo se aplica ao limiar de Poda mencionado na seita. 2.7. Para MNIST, Fashion-MNIST, e USP, nós crescemos as árvores até que contenham vinte nós folha. Para o conjunto de dados Reuters, nós definimos o número máximo de nós de folhas para doze porque tem menos clusters de verdade do solo. Desta forma, temos duas vezes e três vezes o número real de aglomerados. Consideramos estes valores suficientes para capturar estruturas essenciais dos conjuntos de dados selecionados para o propósito deste artigo. Usamos o mesmo número de nós de folhas para os métodos hierárquicos de referência.

Para os conjuntos de dados de imagens, também experimentou com o aumento da extensão DeepECT + Ago. Começamos com os mesmos auto-codificadores pré-treinados como nas outras experiências. Além disso, mantemos o mesmo cronograma de otimização descrito acima para os experimentos com as versões não aumentadas do DeepECT. Em cada iteração, usamos o mini-lote original e sua contraparte aumentada para otimizar a função de perda em Eq. 9, em vez da perda Não aumentada de nQ. 6. Nós criamos a versão aumentada de cada imagem de um mini-lote, aplicando on-the-fly uma transformação afinada aleatória. A transformação afim gira aleatoriamente e desloca a imagem no intervalo de  graus. Além disso, ele move o dígito aleatoriamente até dois pixels em qualquer direção. A figura 5 mostra um exemplo deste aumento para MNIST.

Evaluation Methods

we evaluate the cluster hierarchy of DeepECT with the dendrogram purity (DP) and leaf purity (LP) measure. Descrevemos ambos abaixo. Além disso, avaliamos a árvore de aglomerado com métodos de Base plana. Para isso, usamos a conhecida informação mútua normalizada (NMI) e precisão de agrupamento (ACC). Incluímos estes para completude e para mostrar que o DeepECT também é competitivo em cenários, onde se espera uma estrutura de cluster plana e conhece o número real de clusters no conjunto de dados. Para determinar uma partição de cluster k a partir de uma árvore de cluster, usamos as atribuições para os nós k que eram nós de folha após a primeira divisão $k-1$.

Dendrogram Purity

the dendrogram purity measure can be used to evaluate the cluster tree against a flat ground truth partition. É a pureza esperada da sub-árvore dada pelo nó ancestral menos comum para dois pontos de dados aleatoriamente amostrados da mesma classe. É 1.0 se e somente se todos os pontos de dados pertencentes a uma classe na verdade do solo forem atribuídos a alguma sub-árvore pura, e se aproximarem de 0 para árvores geradas aleatoriamente.

a fórmula explícita é definida em::

$$\begin{alinhado} {\text {DP}} = \frac{1}{|{\mathcal {P}}|} \sum _{k=1}^{K}\sum _{\begin{array}{c} (x,y) \in C_k\\ \cunha x \ne y \end{array}} {\text {pur}}({\text {dan}}({\text {lca}}(x,y)),C_k), \end{alinhado}$$

onde $C_1, \dots , C_K$ são os dados de conjuntos de pontos correspondente ao chão verdade classes ${\text {lca}}(x,y)$ é o menos comum, ancestral nó de x e y no cluster árvore, ${\text {dan}}(z)$ é o conjunto de dados de pontos atribuídos para o nó z no cluster árvore, ${\text {pur}}(S,T) = |S \cap T| / S|$ é a medida de pureza, e ${\mathcal {P}} = \{(x, y) \mid \existe C \in \{C_1,\ dots , C_K\}: x,y \in C \wedge x\ ne y\}$ é o conjunto de todos os pares de pontos de dados que pertencem à mesma classe. A pureza do dendrograma pode ser computada de forma eficiente e precisa em uma recursão bottom-up na árvore de aglomerados.

pureza das folhas

além de usar a pureza dos dendrogramas, introduzimos outra medida que chamamos de pureza das folhas (LP). É a pureza média ponderada dos nós de folha w.r.t. para a classe maioritária dos objetos atribuídos a um nó de folha, dada pela fórmula:

$$\begin{alinhado} {\text {LP}} = \frac{1}{|{\mathcal {D}}|}\sum _{L \em {{\mathcal {L}}} _{{\mathcal {D}}}} |L| \max _{C \in \{C_1, \dots , C_K\}} {\text {pur}}(L, C), \end{alinhado}$$

onde ${{\mathcal {L}}} _{{\mathcal {D}}}$ é o conjunto dos conjuntos que contém os dados de pontos atribuídos aos nós folha.

a dependência da altura das árvores das medidas de pureza

a comparação entre o dendrograma e a pureza das folhas de dois aglomerados de árvores só é directamente possível se ambas as árvores tiverem o mesmo número de nós de folhas. No entanto, as sub-árvores podem sempre ser colapsadas em nós de folhas para cumprir esta exigência. Portanto, nós colapsamos a ligação de baixo para cima-árvores dos métodos de base – na ordem de ligação-comprimindo sub-árvores em nós de folhas até que tenhamos o mesmo número de passos de junção deixados como nós divididos nas árvores de cima para baixo de de profundidade e bissecção-K-means. Este processo garante que ambos os métodos são comparáveis com as medidas hierárquicas de avaliação.

linhas de Base de Clustering hierárquicas

como base para avaliar as propriedades hierárquicas, agrupamos os dados incorporados com os algoritmos de clustering hierárquicos clássicos bissectando-k-means (AE + Bissecting), ligação única (AE + Single) e ligação completa (AE + Complete). Uma vez que nenhum destes algoritmos clássicos pode otimizar o espaço embutido, também exploramos a ideia simples de combinar o algoritmo de agrupamento embutido plano IDEC com uma única ligação e uma ligação completa. IDEC é um método que combina a camada de agrupamento de DEC com a perda de reconstrução do autoencoder. Em primeiro lugar, executamos o IDEC com o número de aglomerados definido para um valor maior do que o número esperado de aglomerados—no nosso caso, definimo-lo igual ao número máximo de nós de folhas que usamos para o DeepECT. Em seguida, consideramos estes centros de cluster IDEC como representantes dos pontos de dados atribuídos e tentar recuperar uma estrutura hierárquica de clustering, realizando uma única ligação e ligação completa nos centros de cluster (IDEC + Single e IDEC + completo). Uma técnica similar é proposta para configurações clássicas, não-embutidas com K-means em vez de IDEC.

linhas de Base de Clustering planas

como base para avaliar o desempenho do DeepECT numa configuração de clustering Plata, utilizamos k-means nos dados incorporados do auto-codificador pré-treinado (AE+k-means) e do IDEC . Se ignorarmos as vantagens de arquiteturas auto-codificadoras mais específicas e sofisticadas do domínio, o IDEC é atualmente um dos melhores métodos de agrupamento incorporado. Em contraste com o DeepECT, temos que definir o número real de clusters na verdade do solo durante a otimização para IDEC e k-means. Além disso, definimos o hiperparâmetro do IDEC para a perda de reconstrução para 0,1 como descrito em .

Tabela 1 Estatísticas de conjuntos de dados utilizados nos experimentos

Resultados Gerais

geral resultados, calculados sobre dez pré-formados autoencoders—para o hierárquicos de avaliação usando o dendrograma pureza e a folha de pureza medidas para DeepECT e hierárquica de linha de base algoritmos são apresentados na Tabela 2. DeepECT produz consistentemente clusters de alta qualidade e é o algoritmo de melhor desempenho por uma larga margem. Podemos também ver que a extensão aumentada melhora ainda mais os resultados consideravelmente para MNIST e USPS. Os resultados do DeepECT com e sem a extensão de aumento para o conjunto de dados Fashion-MNIST são semelhantes porque os autores do conjunto de dados escolheram pré-processar todas as imagens de modo que cada item de moda tenha uma representação normalizada. Os resultados dos métodos clássicos podem ser explicados por sua incapacidade de melhorar a incorporação. Os valores de pureza das folhas para DeepECT indicam que o método é capaz de criar sub-populações homogêneas. Se compararmos os valores de pureza das folhas do DeepECT e as variantes hierárquicas IDEC + Center-linkage com os valores de pureza das folhas das outras linhas de base, podemos ver que a optimização combinada do clustering e do autoencoder—de ambos os métodos—melhora de facto a homogeneidade das estruturas locais. No entanto, a ligação central IDEC + também é incapaz de extrair uma estrutura hierárquica coerente.

A Tabela 3 mostra os resultados experimentais para os métodos de comparação de clusters planos baseados nos mesmos auto-codificadores pré-treinados. Uma vez que usamos os mesmos auto-codificadores pré-treinados, podemos ver diretamente a influência do respectivo objetivo de agrupamento. Tanto o IDEC quanto o DeepECT se beneficiam da otimização combinada em comparação com o k-means, que não podem otimizar a incorporação. O quadro 4 mostra os resultados de métodos de agrupamento baseados em centroid extraídos da respectiva publicação. Mais detalhes sobre estes métodos podem ser encontrados na Sect. 4. Podemos ver que o DeepECT também tem um bom desempenho em comparação com estes métodos. No entanto, também podemos ver que a arquitetura autoencoder influencia consideravelmente o resultado de agrupamento. Por exemplo, o DBC difere do DEC apenas pelo uso de um autoencoder convolucional, mas atinge resultados superiores. No entanto, a arquitetura de autoencoder selecionada é independente da camada de agrupamento selecionada.

é claro que esta comparação de objetivos de agrupamento lisos e DeepECT é injusta para este último, porque os métodos concorrentes são dados o número verdadeiro de clusters durante a otimização, enquanto para DeepECT, nós só usamos esta informação durante a avaliação. No entanto, podemos ver que a versão comum do DeepECT pode acompanhar estes métodos em termos de medidas NMI e ACC raw e que a extensão aumentada DeepECT + ago mostra melhorias substanciais sobre os resultados do DeepECT, porque ele pode ignorar invariâncias conhecidas dentro dos dados. Estes resultados mostram que DeepECT também é competitivo em cenários, onde se espera uma estrutura de clusters planos, mas não sabe o número de clusters e inspeciona a árvore de clusters recursivamente.

Tabela 2 Nossos experimentos mostram que DeepECT é o melhor desempenho do algoritmo em termos de dendrograma pureza (DP) e a folha de pureza (LP)

Tabela 3. Esta tabela mostra que DeepECT é mesmo competitivos, quando comparados com televisão de cluster de métodos que são dado o verdadeiro número de clusters durante a otimização e, portanto, injusto e irreal vantagem sobre DeepECT

Tabela 4. Esta tabela mostra DeepECT no contexto de profunda métodos de clustering k-means, como televisões de clustering objetivos.

avaliação detalhada

nesta secção, analisamos mais de perto as árvores de profundidade resultantes para os conjuntos de dados acima. Uma vez que os achados do dataset da USPS são comparáveis ao do MNIST—como ambos representam dígitos manuscritos—omitimos estes resultados para a brevidade.

MNIST Results

A closer look at the resulting DeepECT-trees for the MNIST dataset shows some exciting properties of different subpopulations within the handwritten digits. Dois exemplos ilustrativos são apresentados na Fig. 6 e pode ser encontrado na extensão comum e aumentada de DeepECT. A pureza do nó das sub-árvores representadas para o algarismo 7′ é de 98% e contém quase todas as instâncias desta classe. Contém dois nós de folhas. Um nó de folha mostra setes com uma pequena barra cruzada como é comumente escrito na Europa, o outro nó de folha mostra este dígito como é mais comumente escrito nos EUA. A segunda sub-árvore contém quase todas as instâncias do algarismo ” 2 ” com uma pureza de 97%. Esta sub-árvore também contém dois nós de folhas, cada um com características específicas. O nó da primeira folha contém instâncias que são mais encaracoladas e têm um laço distintivo na parte inferior. O nó da segunda folha contém uma versão mais ‘simplificada’ deste dígito, parecendo com o personagem ‘Z.’ as sub-árvores mostradas constroem uma hierarquia natural para o respectivo dígito, e pode-se facilmente imaginar que esses achados podem ser de interesse para um pesquisador. Outras formas dependendo agrupamentos de dígitos também podem ser encontrados em partes inferiores da árvore, por exemplo, as versões escritas dos dígitos ‘4’ e ‘9’ compartilham muitas características. Consequentemente, muitas vezes eles podem ser encontrados agrupados como uma sub-árvore contendo apenas estes dois tipos de dígitos.

Reuters Resultados

Reuters conjunto de dados contém quatro desequilibrado categorias principais (de primeiro nível (etiquetas) com a seguinte distribuição: Cooperar/Industrial, com 44%, o Governo/Social com 24%, Mercados com 24%, e a Economia, com 8%. Este conjunto de dados é explicado em mais detalhes . As categorias para cada artigo de notícia foram escolhidas à mão e são, portanto, em certa medida subjetivas. Além disso, cada categoria superior tem várias subcategorias sobrepostas adicionais (etiquetas de segundo nível)-e subcategorias (etiquetas de terceiro nível)-com mais de 96% dos artigos pertencentes a duas ou mais subcategorias. A tabela 5 mostra um resultado profundo para este conjunto de dados. Podemos ver que as duas primeiras divisões separam a maior parte do Governo/sub—árvore Social começando no nó 3-e mercados—sub—árvore começando no nó 5-categorias das outras duas categorias. O governo / sub-árvore Social, em seguida, diferencia mais em tópicos das sub-categorias, tais como esportes, guerra e crime, política interna e internacional. A categoria “mercados” distingue-se igualmente em diferentes aspectos das respectivas subcategorias. Por exemplo, os nós de folhas das duas últimas linhas dizem respeito a subcategorias diferentes dos mercados de mercadorias da subcategoria. Os nós de folhas no meio são principalmente relacionados a Corporate / Industrial e economia. Eles não estão tão bem separados como as outras duas sub-árvores. No entanto, mesmo lá, podemos encontrar nós de folhas interessantes. Por exemplo, o nó da sétima Folha (linha) das melhores partes de artigos de notícias rotulados com as sub-categorias desempenho (da empresa/Industrial) e o desempenho econômico (da economia) e parece razoável esperar palavras relacionadas para essas duas sub-categorias.

Tabela 5. Esta tabela mostra um cluster de árvore para o conjunto de dados Reuters

Moda-MNIST Resultados

Moda-MNIST contém dez classes diferentes de roupas, sapatos e bolsas, nomeadamente T-shirt/top, calças, camisola, vestido, casaco, sandália, camiseta, sapatilha, bolsa, e ankle boot. Uma árvore resultante do nosso método é mostrada na figura. 7. Os nós folha são representados como objetos aleatoriamente amostrados atribuídos a ele. As etiquetas de cada nó são a nossa interpretação baseada nos objetos atribuídos ao respectivo nó. Podemos ver que DeepECT encontrou uma hierarquia totalmente natural dentro deste conjunto de dados. Primeiro, as imagens são divididas em três categorias: roupas, sapatos e sacos. Destacamos estas sub-árvores com áreas coloridas. Dentro de cada sub-árvore, podemos encontrar hierarquias naturais. A categoria de sacos distingue entre sacos Sem Alça/Alça visível, sacos com alças pequenas e sacos com alça de ombro. A verdade do solo não distingue entre estes tipos de sacos e atribui-os todos para a mesma classe. A categoria de roupas é primeiramente dividida em calças e roupas para a parte superior do corpo. Estes são então novamente divididos em mangas curtas e longas. Aqui, o comprimento da manga deve ser visto em relação ao comprimento total da respectiva peça de vestuário porque cada item é normalizado para aparecer do mesmo tamanho dentro da imagem, i.e., vestidos e camisas parecem ser do mesmo tamanho. A categoria do sapato também mostra algumas características interessantes. Em primeiro lugar, distinguem-se os sapatos mais pequenos e maiores. Os sapatos menores são então divididos em sandálias e tênis. Os sapatos maiores têm uma sola plana, um calcanhar pequeno, ou são de salto alto. Construir a hierarquia com base nestas características corre contra as classes de verdade de tênis, sandálias e botas de tornozelo. No entanto, é—do ponto de vista da aparência-uma hierarquia válida e informativa para sapatos.

Applicability for Prediction Tasks on MNIST

we also evaluate DeepECT in a prediction task. Assim, mantemos os autoencoders e o procedimento de otimização de clustering como descrito acima. Em contraste com a avaliação experimental acima, nós só usamos as primeiras 50.000 amostras (conjunto de treinamento) do conjunto de dados MNIST durante a otimização da árvore de cluster. Após a otimização, avaliamos o desempenho de agrupamento da árvore de clusters no anteriormente invisível, permanecendo 20.000 pontos de dados (Conjunto de testes).

neste experimento, obtemos para o teste um conjunto de pureza dendrograma de $0.73\pm 0,08$ e uma pureza da folha de $0,85\pm 0,06$, que é uma ligeira queda em comparação com os valores do quadro 2. No entanto, o resultado é suficientemente robusto para permitir a previsão limitada de rótulos de pontos de dados anteriormente invisíveis diretamente pela árvore de cluster. No entanto, na maioria dos casos, treinaríamos um classificador baseado nas estruturas de aglomerados encontrados. O mesmo se aplica, para a incorporação em si, onde podemos utilizar, por exemplo, a perda supervisionada autoencoder para melhorar a incorporação encontrada.

Experiments Summary

In summary, we think that the shown experiments on four real-world datasets show clearly the utility and effectiveness of the DeepECT cluster tree. Encontrar esse tipo de estruturas e selecionar o nível de detalhe a ser analisado fazem do DeepECT um método valioso para cientistas de dados.