딥펙트:딥 임베디드 클러스터 트리

우리는 일반적으로 사용되는 네 가지 딥 러닝 데이터 세트에 대한 제안 된 방법 딥펙트를 평가합니다. 표 1 은 실험에 사용된 모든 데이터 집합의 통계를 보여줍니다. 손글씨 숫자를 포함하는 이미지 데이터 세트입니다. 패션 매니스트 데이터 세트에는 의류,신발 및 가방 이미지와 같은 패션 제품의 이미지가 포함되어 있습니다. 로이터 데이터 세트는 네 개의 상위 범주의 뉴스 기사를 포함,에 설명 된대로 우리는 같은 표현을 사용.

실험 설정
덴드로그램 순도
잎 순도
순도의 트리 높이 의존성 측정
계층적 클러스터링 기준선
일반 결과
자세한 평가
최종 결과
로이터 결과
패션-엠니스트 결과
예측 작업에 대한 적용 가능성
실험 요약

실험 설정

우리는 우리의 새로운 클러스터링 계층의 평가에 우리의 실험을 집중. 따라서 우리는 더 정교한 오토 인코더 아키텍처를 사용하지 않습니다. 대신,우리는 사용 된 것처럼 모든 실험에 대해 동일한 일반 완전히 연결된 자동 인코더 레이아웃을 사용합니다. 앞서 언급했듯이,우리는 모든 방법이보다 정교하고 도메인 별 아키텍처에서 동등하게 얻을 것으로 기대합니다. 그러나 표준 오토인코더 아키텍처는 기준 경쟁사에 비해 디펙트의 실행 가능성을 보여주기에 충분하다. 따라서 우리는 제안 된 것과 동일한 일반 오토 엔코더 아키텍처를 사용하며 임베디드 공간을 클러스터링하기 위해 사용됩니다. 이 아키텍처의 피드포워드 인코더에는 차원이 있습니다.-500–500–2000–10,디코더 네트워크는 미러링 된 레이아웃을 가지고 있습니다. 우리는 렐루 활성화와 식에서 평균 제곱 오류 재구성 손실을 사용합니다. (1).

우리는 각 데이터 세트에 대해 10 개의 자동 인코더를 사전 훈련하고 모든 실험 및 비교 방법에 대해 동일한 사전 훈련 된 네트워크를 사용합니다. 이러한 사전 훈련 된 자동 인코더를 사용하면 각 방법이 임베디드 공간에 대해 동일한 시작 조건을 가지며 클러스터링 품질의 변화가 질적으로 다른 자동 인코더에서 비롯된 것이 아닙니다. 사전 교육 설정은 에 설명 된 것과 유사합니다. 우리는 오토 엔코더를 20%의 부패율을 가진 노이즈 제거 오토 엔코더로 사전 훈련합니다. 먼저 각 레이어(20%의 비율)및 레이어 당 20,000 단계 후에 드롭 아웃을 사용하여 레이어 별 사전 교육을 수행합니다. 그런 다음 드롭 아웃없이 50,000 단계에 대해 전체 네트워크를 미세 조정합니다. 우리는 사전 교육에만 입력 손상을 사용하고 딥펙트와 그 기준 방법의 실제 최적화에는 사용하지 않습니다. 모든 실험에 대해 우리는 아담을 사용합니다.}}=0.0001\), $\베타 _1=0.9,\베타 _2=0.999$)최적화 알고리즘 및 256 샘플의 미니 배치 크기로. 결합 된 최적화를 위해 수렴을 보장하기 위해 추가 50,000 회 반복을 훈련합니다.

디펙트의 경우,합성 데이터를 사용한 초기 실험에서는 최적화 단계 500 개마다 트리를 분할하는 것이 유망한 결과를 가져오고 더 확장된 단계 크기가 성능을 더 향상시키지 않는다는 것을 보여 주었다. 이러한 이유로 우리는 실제 데이터 집합에 대한 실험에 맞게 조정하지 않고 이 일정을 유지합니다. 동일은 분파에 언급 된 가지 치기 임계 값에 적용. 2.7. 그들은 스물 잎 노드를 포함 할 때까지 우리는 나무를 성장. 로이터 데이터 세트의 경우 지상 진실 클러스터가 적기 때문에 리프 노드의 최대 수를 12 로 설정합니다. 이 방법으로 실제 클러스터 수의 두 배와 세 배를 갖습니다. 우리는이 백서의 목적을 위해 선택한 데이터 세트의 필수 구조를 캡처하기에 충분한 이러한 값을 고려. 우리는 계층 적 기준선 방법에 대해 동일한 수의 리프 노드를 사용합니다.

이미지 데이터 세트의 경우,우리는 또한 확대 확장 딥텍+8 월 2018 실험. 우리는 다른 실험에서와 동일한 사전 훈련 된 자동 인코더로 시작합니다. 또한,우리는 디펙트의 비 증강 버전 실험에 대해 위에서 설명한 것과 동일한 최적화 일정에 충실. 각 반복에서,우리는 원래 미니 배치 및 식의 손실 함수를 최적화하기 위해 증강 대응을 사용합니다. 9,대신 식의 비 증강 손실. 6. 우리는 즉시 임의의 아핀 변환을 적용하여,미니 배치의 각 이미지의 증강 버전을 만들 수 있습니다. 아핀 변환은 무작위로 이미지를도 범위에서 회전하고 가위로 자릅니다. 또한 숫자를 임의의 방향으로 최대 2 픽셀로 무작위로 이동합니다. 그림 5 는 이러한 확대의 예를 보여줍니다.1085>

딥펙트의 클러스터 계층 구조를 덴드로그램 순도 측정과 잎 순도 측정으로 평가한다. 우리는 아래에 둘 다 설명합니다. 또한,우리는 평면 기준 방법에 대 한 클러스터 트리를 평가 합니다. 이를 위해 우리는 잘 알려진 정규화 된 상호 정보를 사용합니다. 우리는 완전성 및 딥펙트는 하나의 평면 클러스터 구조를 기대하고 데이터 집합의 클러스터의 실제 수를 알고 시나리오에서도 경쟁력이 있음을 보여주기 위해 다음을 포함한다. 클러스터 트리에서 케이 클러스터 파티션을 확인하려면 첫 번째$케이-1$분할 후 리프 노드였던 케이 노드에 대한 할당을 사용합니다.

덴드로그램 순도

덴드로그램 순도 측정을 사용하여 평평한 접지 진실 파티션에 대해 클러스터 트리를 평가할 수 있습니다. 동일한 클래스의 무작위로 샘플링 된 두 개의 데이터 포인트에 대해 최소 공통 조상 노드에 의해 주어진 하위 트리의 예상 순도입니다. 그것은 1 입니다.0 지상 진실의 한 클래스에 속하는 모든 데이터 포인트가 일부 순수한 하위 트리에 할당되고 무작위로 생성 된 트리에 대해 0 에 접근하는 경우에만.

명시적 수식은 다음과 같이 정의됩니다:

$$\(2018 년 12 월 15 일).(2018 년 12 월 15 일).(2018 년 12 월 15 일).(2018 년 12 월 15 일).(2018 년 12 월 15 일).(2018 년 12 월 15 일).(2018 년 12 월 15 일).(2018 년 12 월 15 일).(2018 년 12 월 15 일).(2018 년 12 월 15 일).(2018 년 12 월 15 일).(2018 년 12 월 15 일).(2018 년 12 월 15 일).(2018 년 12 월}$$

여기서$씨 _1,\점,씨_케이)는 지상 진리 클래스에 해당하는 데이터 포인트 세트이며,\(텍스트{0}}(엑스,와이)$는 최소 공통 조상 노드 엑스 과 와이 클러스터 트리에서,$텍스트{0}}(지)$는 노드에 할당 된 데이터 포인트 세트 지 클러스터 트리에서,$텍스트{0},티)=|에스 캡 티|/|에스|$는 순도 측정 값이며,클러스터 트리에서 노드에 할당 된 데이터 포인트 집합입니다. ${\mathcal{P}}=\{(x,y)\mid\존재 C\\에서{C_1,\점,C_K\}x,y\C\웨지 x\ne y\}$은 모든 데이터의 포인트 쌍에 속하는 동일한 클래스입니다. 덴드로그램 순도는 클러스터 트리의 상향식 재귀에서 효율적이고 정확하게 계산할 수 있습니다.

잎 순도

덴드로그램 순도 사용 외에도 잎 순도라고 부르는 또 다른 측정법을 소개합니다. 이는 리프 노드에 할당된 개체의 과반수 클래스에 대한 리프 노드의 가중 평균 순도입니다.:

$$\시작{정렬}{\text{LP}}=\frac{1}{|{\mathcal{D}}|}\sum_{L\에서{{\mathcal{L}}}_{{\mathcal{D}}}}|L|\max_{C\\에서{C_1,\점,C_K\}}{\text{pur}}(L,C),\끝{정렬}$$

어디${{\mathcal{L}}}_{{\mathcal{D}}}$는 설정의 세트를 포함하는 데이터 포인트에 할당된 리소스가 사용됩니다.

순도의 트리 높이 의존성 측정

두 클러스터 트리의 덴드로그램과 리프 순도를 비교하는 것은 두 트리가 동일한 수의 리프 노드를 갖는 경우에만 직접 가능합니다. 그러나이 요구 사항을 충족시키기 위해 하위 트리를 항상 리프 노드로 축소 할 수 있습니다. 따라서 하위 트리를 리프 노드로 압축하여 기본 메서드의 상향식 링크 트리를 링키지 순서대로 축소합니다. 이 프로세스는 두 방법 모두 계층 적 평가 측정과 비교할 수 있도록합니다.

계층적 클러스터링 기준선

계층적 특성을 평가하기 위한 기준선으로서,우리는 임베디드 데이터를 이등분하는 고전적인 계층적 클러스터링 알고리즘으로 클러스터링한다. 이러한 고전적인 알고리즘 중 어느 것도 임베디드 공간을 최적화 할 수 없기 때문에 플랫 임베디드 클러스터링 알고리즘을 단일 링크 및 완전 링키지와 결합하는 간단한 아이디어를 탐구합니다. 이 메서드는 12 월의 클러스터링 계층과 오토인코더의 재구성 손실을 결합하는 방법입니다. 이 경우 딥펙트에 사용하는 리프 노드의 최대 개수와 동일하게 설정합니다. 그런 다음 이덱 클러스터 센터를 할당된 데이터 포인트의 대표자로 간주하고 클러스터 센터에서 단일 링크 및 전체 링크(이덱+단일 및 이덱+완료)를 수행하여 계층적 클러스터링 구조를 복구하려고 합니다. 이 프로그램은 자바 바이트코드 프로그램의 갯수를 카운트하고,스크립트의 메인 형식을 합계냅니다,그리고 확인되지 않은 실행 텍스트 파일을 찾습니다..이 경우,디펙트의 성능을 평가하기위해 사전 훈련된 오토인코더의 내장 데이터에 케이-평균을 사용합니다. 우리는 더 많은 도메인 별 정교한 오토 엔코더 아키텍처의 장점을 무시하는 경우,아이덱은 현재 최고의 임베디드 클러스터링 방법 중 하나입니다. 딥펙트와는 달리,우리는 이덱 및 케이-평균에 대한 최적화 동안 지상 진리에 클러스터의 실제 수를 설정해야 합니다. 또한,우리는 0.1 에 설명 된 대로 재구성 손실에 대 한 아이덱의 하이퍼 매개 변수를 설정 합니다.

표 1 실험에 사용 된 데이터 세트의 통계

일반 결과

딥펙트에 대한 덴드로그램 순도 및 리프 순도 측정값 및 계층적 기준 알고리즘을 사용한 계층적 평가에 대한 일반 결과—사전 훈련된 10 개의 자동 엔코더에 대한 평균값이 표 2 에 나와 있습니다. 디펙트는 지속적으로 높은 품질의 클러스터 트리를 생산하고 넓은 여백에 의해 최고 성능의 알고리즘이다. 우리는 또한 증대 확장이 국회 의사당과 국회 의사당에 대한 결과를 상당히 향상 시킨다는 것을 알 수 있습니다. 데이터 집합 작성자가 각 패션 아이템이 정규화된 표현을 갖도록 모든 이미지를 사전 처리하기로 선택했기 때문에 패션 관련 데이터 집합에 대한 확대 확장이 있거나없는 딥펙트의 결과는 유사합니다. 고전적인 방법의 결과는 임베딩을 향상시킬 수 없기 때문에 설명 할 수 있습니다. 딥펙트의 잎 순도 값은 이 방법이 동질적인 하위 집단을 생성할 수 있음을 나타냅니다. 딥펙트의 리프 순도 값과 계층적 아이덱+센터-링크 변형을 다른 베이스라인의 리프 순도 값과 비교하면,클러스터링과 오토인코더의 결합된 최적화가 실제로 로컬 구조의 동질성을 향상 시킨다는 것을 알 수 있습니다. 그러나,아이덱+센터-링크도 일관된 계층 구조를 추출 할 수 없습니다.

표 3 은 동일한 사전 훈련 된 자동 인코더를 기반으로 한 플랫 클러스터링 비교 방법에 대한 실험 결과를 보여줍니다. 우리는 동일한 사전 훈련 된 자동 인코더를 사용하기 때문에 각각의 클러스터링 목표의 영향을 직접 볼 수 있습니다. 이것은 수학적으로 정확한 유형 계층구조인,강력한 타입을 정의합니다. 표 4 는 각 게시에서 가져온 더 많은 중심 기반 클러스터링 방법의 결과를 보여줍니다. 이러한 방법에 대한 자세한 내용은 종파에서 찾을 수 있습니다. 4. 우리는 딥펙트도 이러한 방법에 비해 잘 수행 볼 수 있습니다. 그러나 우리는 또한 오토 엔코더 아키텍처가 클러스터링 결과에 상당히 영향을 미친다는 것을 알 수 있습니다. 예를 들어,디비씨코더는 컨볼루션 오토인코더의 사용에 의해서만 12 월과 다르지만,우수한 결과를 얻을 수 있다. 그러나,선택된 오토인코더 아키텍처는 선택된 클러스터링 계층에 독립적이다.

물론,플랫 클러스터링 목표와 디펙트의 비교는 후자에 대한 불공평,경쟁 방법은 최적화 동안 클러스터의 실제 수를 부여하기 때문에,디펙트의 경우,우리는 평가시에이 정보를 사용하는 반면. 디펙트+8 월 확장은 데이터 내에서 알려진 불변성을 무시할 수 있기 때문에 디펙트의 결과에 비해 상당한 개선을 보여줍니다. 이러한 결과는 딥펙트가 평평한 클러스터 구조를 기대하지만 클러스터 수를 알지 못하고 클러스터 트리를 재귀적으로 검사하는 시나리오에서도 경쟁력이 있음을 보여줍니다.

표 2 우리의 실험은 딥펙트가 덴드로그램 순도와 잎 순도면에서 최고 성능의 알고리즘임을 보여줍니다.)

표 3 이 표는 최적화 중에 실제 클러스터 수가 주어지며 따라서 딥펙트에 비해 불공정하고 비현실적인 이점을 갖는 플랫 클러스터링 방법과 비교할 때 딥펙트가 경쟁력이 있음을 보여줍니다

표 4 이 표는 케이-플랫 클러스터링 목표와 같은 수단을 사용하는 다른 딥 클러스터링 방법의 맥락에서 딥텍트를 보여줍니다.

자세한 평가

이 섹션에서는 위의 데이터 세트에 대한 결과 딥텍 트리에 대해 자세히 살펴 봅니다. 이러한 결과는 간결함을 위해 생략합니다.

최종 결과

최종 결과 데이터 집합에 대한 결과 디펙트 트리를 자세히 살펴보면 손으로 쓴 숫자 내의 여러 하위 집단에 대한 몇 가지 흥미로운 속성이 표시됩니다. 두 예시적인 예는 도 1 에 도시된다. 6 및 디펙트의 일반 및 증강 확장에서 찾을 수 있습니다. 숫자 7’에 대한 묘사 된 하위 트리의 노드 순도는 98%이며이 클래스의 거의 모든 인스턴스를 포함합니다. 두 개의 리프 노드가 포함되어 있습니다. 하나의 리프 노드는 일반적으로 유럽에서 쓰여지는 것처럼 작은 크로스바가있는 7 을 표시하고 다른 리프 노드는 미국에서 더 일반적으로 쓰여지는 것처럼 이 숫자를 표시합니다. 두 번째 하위 트리에는 순도가 97%인 숫자’2’의 거의 모든 인스턴스가 포함되어 있습니다. 이 하위 트리에는 각각 특정 특성을 가진 두 개의 리프 노드도 포함됩니다. 첫 번째 리프 노드에는 더 곱슬 곱슬하고 맨 아래 부분에 고유 한 루프가 있는 인스턴스가 포함됩니다. 두 번째 리프 노드는이 숫자의 더 간소화 된 버전을 포함,문자처럼 보이는’지.’표시된 하위 나무는 각각의 숫자에 대한 자연 계층 구조를 구축,하나는 쉽게 이러한 결과는 연구자에게 관심이 될 수 있다는 것을 상상할 수있다. 예를 들어 숫자’4’와’9’의 서면 버전은 많은 특성을 공유합니다. 따라서 이러한 두 자리 유형 만 포함하는 하위 트리로 그룹화되는 경우가 많습니다.

로이터 결과

로이터 데이터 세트에는 4 개의 불균형 상위 카테고리(첫 번째 수준 레이블)가 포함되어 있으며 44%의 협력/산업,24%의 정부/사회,24%의 시장,8%의 경제. 이 데이터 세트는 더 자세히 설명되어 있습니다. 각 뉴스 기사에 대한 범주는 어느 정도 주관적,따라서,손으로 선택하고 있었다. 또한 각 상위 카테고리에는 두 개 이상의 하위 카테고리에 속하는 기사의 96%이상이 포함 된 몇 가지 추가 중복 하위 카테고리(두 번째 수준 레이블)및 하위 하위 카테고리(세 번째 수준 레이블)가 있습니다. 표 5 에서는 이 데이터 집합에 대한 딥텍트 결과를 보여 줍니다. 우리는 처음 두 분할이 노드 3 에서 시작하는 정부/사회 하위 트리와 노드 5 에서 시작하는 시장 하위 트리의 대부분을 다른 두 범주와 분리한다는 것을 알 수 있습니다. 그런 다음 정부/사회 하위 트리는 스포츠,전쟁 및 범죄,국내 및 국제 정치와 같은 하위 범주의 주제로 더욱 차별화됩니다. 시장 범주는 또한 각각의 하위 범주의 다른 측면으로 더욱 차별화됩니다. 예를 들어,마지막 두 행의 리프 노드는 하위 범주 상품 시장의 다른 하위 하위 범주와 관련이 있습니다. 중간에있는 리프 노드는 대부분 기업/산업 및 경제와 관련이 있습니다. 그들은 다른 두 개의 하위 나무만큼 잘 분리되어 있지 않습니다. 그러나 거기에서도 흥미로운 리프 노드를 찾을 수 있습니다. 예를 들어,상위 공유 뉴스 기사에서 일곱 번째 잎 노드(행)(기업/산업)의 하위 범주 성능 및(경제)의 경제 성과와 그 두 하위 하위 범주에 대한 관련 단어를 기대하는 것이 합리적 보인다.

표 5 이 표는 로이터 데이터 세트의 클러스터 트리를 보여줍니다

패션-엠니스트 결과

패션 매니스트에는 티셔츠/탑,바지,풀오버,드레스,코트,샌들,셔츠,운동화,가방 및 발목 부츠와 같은 10 가지 종류의 옷,신발 및 가방이 포함되어 있습니다. 우리의 방법의 결과 클러스터 트리는 그림 1 에 나와 있습니다. 7. 리프 노드는 할당된 랜덤하게 샘플링된 개체로 표시됩니다. 각 노드의 레이블은 각 노드에 할당된 개체를 기반으로 해석합니다. 우리는 딥펙트가 이 데이터세트에서 완전히 자연스러운 계층 구조를 발견했다는 것을 알 수 있습니다. 먼저 이미지는 옷,신발 및 가방의 세 가지 범주로 나뉩니다. 우리는 색깔이있는 영역이 하위 트리를 강조 표시했습니다. 각 하위 트리 내에서 자연 계층을 찾을 수 있습니다. 가방 카테고리는 눈에 보이는 스트랩/손잡이가없는 가방,작은 손잡이가있는 가방 및 어깨 끈이 달린 가방을 구별합니다. 지상 진실은 가방의 이러한 유형을 구분하고 같은 클래스에 모두 할당하지 않습니다. 옷 카테고리는 먼저 상체 용 바지와 옷으로 나뉩니다. 그런 다음 다시 짧은 소매와 긴 소매로 분할됩니다. 여기서,슬리브의 길이는 각 아이템이 이미지 내에서 동일한 크기로 나타나도록 정규화되기 때문에,즉 각각의 의류의 전체 길이에 대하여 보여져야 한다. 드레스와 셔츠는 같은 크기로 보인다. 신발 카테고리는 또한 몇 가지 흥미로운 특성을 보여줍니다. 첫째,더 작고 큰 신발이 구별됩니다. 작은 신발은 샌들과 운동화로 더 나뉩니다. 더 큰 신발은 플랫 솔,작은 발 뒤꿈치 또는 하이힐이 있습니다. 이러한 기능을 기반으로 계층 구조를 구축하는 것은 운동화,샌들 및 발목 부츠의 지상 진실 클래스에 대해 실행됩니다. 그럼에도 불구하고 그것은 외관의 관점에서 볼 때 신발에 대한 유효하고 유익한 계층 구조입니다.

예측 작업에 대한 적용 가능성

우리는 또한 예측 작업에서 디펙트를 평가합니다. 따라서 위에서 설명한 바와 같이 자동 인코더 및 클러스터링 최적화 절차를 유지합니다. 위의 실험 평가와는 달리 클러스터 트리 최적화 중에 데이터 집합의 첫 번째 50.000 샘플(학습 세트)만 사용합니다. 최적화 후 이전에는 볼 수 없었던 나머지 20.000 데이터 포인트(테스트 세트)에서 클러스터 트리의 클러스터링 성능을 평가합니다.

이 실험에서는 테스트 세트에 대해 덴드로그램 순도를$0.73\오후 0.08$및 잎 순도$0.85\오후 0.06$는 표 2 의 값에 비해 약간 떨어집니다. 그럼에도 불구하고 결과는 클러스터 트리에 의해 이전에 보이지 않는 데이터 요소에 대한 제한된 레이블 예측을 허용 할만큼 강력합니다. 그러나 대부분의 경우 발견 된 클러스터 구조를 기반으로 분류기를 훈련합니다. 같은 우리가 활용할 수있는 삽입 자체에 대해,적용,예를 들어,감독 오토 코더 손실은 발견 임베딩을 향상시킬 수 있습니다.

실험 요약

요약하면,우리는 4 개의 실제 데이터 세트에 표시된 실험이 디펙트 클러스터 트리의 유용성과 효과를 명확하게 보여준다고 생각합니다. 이러한 종류의 구조를 찾고 분석 할 세부 수준을 선택하면 딥펙트를 데이터 과학자에게 가치있는 방법으로 만들 수 있습니다.