연구 프로그래밍의 분류:개념을 마스터 할 수있는 모든 하나의 튜토리얼!
이 튜토리얼에서는 분류를 철저히 연구 할 것입니다. 우리는 또한 의사 결정 트리를 다룰 것입니다,노나 베 베이 즈 분류 및 지원 벡터 기계. 최선의 방법으로 그것을 이해하기 위해,우리는 이미지와 실시간 예제를 사용합니다.
최신 기술 동향으로 업데이트 유지
전보에 데이터 플라이어에 가입하세요!!
분류 소개
우리는 날씨와 같은 범주 형 클래스 레이블을 예측하는 데 사용합니다:비가 오는 날씨,맑은 날씨,흐린 날씨 또는 눈.
분류 중요 사항
다양한 분류자를 사용할 수 있습니다.:
- 의사 결정 트리-이 트리 구조에서 질문과 답변 세트의 형태로 구성되어 있습니다.
- 나이브 베이즈 분류자-분류에 사용되는 확률 론적 기계 학습 모델.
- 케이-윈 분류기–거리와 같은 유사성 측정을 기반으로 새로운 사례를 분류합니다.
- 지원 벡터 머신-사례를 두 범주 중 하나로 분류하는 모델을 작성하는 비 확률 이진 선형 분류기입니다.
지원 벡터 머신을 통한 분류의 예는 분류()기능의 사용이다:
대기! 클러스터링에 대한 자습서를 완료했습니까?:
1. 이 객체는 열차의 객체입니다.
2. 클래스 레이블-변수 이름(예:”유형”)으로 이 집합 객체에 저장되고 있습니다.
3. 이 예제에서는 유효성 검사 객체라고 합니다.
4. 이 매개 변수의 값은 다음과 같습니다. 또한 기본값은 5 접기입니다. “화장실”또는”화장실”우리가 수행해야 할 휴가 한 아웃 교차 검증을 설정하여.
5. 커널-분류 분석에서 우리는 커널 유형을 사용합니다. 기본 커널은”선형”입니다.
6. 클래스-기차 세트의 레이블.
7. 이 경우 유효성 검사 집합의 레이블이 지정됩니다.
8. 프리드블–분류 분석에 따라 예측된 레이블로 정의됩니다.
의사 결정 트리 아르 자형
감독 학습 알고리즘의 한 유형입니다. 우리는 분류 문제를 위해 그것을 사용합니다. 그것은 입력 및 출력 변수의 두 가지 유형에 대해 작동합니다. 이 기술에서 우리는 인구를 두 개 이상의 균질 세트로 분할합니다. 또한 입력 변수에서 가장 중요한 스플리터/차별화 요소를 기반으로합니다.
의사 결정 트리는 강력한 비선형 분류기입니다. 의사 결정 트리는 트리와 같은 구조를 사용하여 다양한 기능과 잠재적 결과 간의 관계를 생성합니다. 분기 결정을 핵심 구조로 사용합니다.
데이터 분류에서 의사 결정 트리는 아래에 언급 된 단계를 따릅니다:
- 그것은 루트에 모든 교육 예제를 넣습니다.
- 선택한 다양한 특성에 따라 의사 결정 트리는 이러한 학습 예제를 나눕니다.
- 그런 다음 몇 가지 통계적 측정 값을 사용하여 속성을 선택합니다.
- 재귀 분할은 학습 예제가 남아 있지 않을 때까지 계속됩니다.
의사 결정 트리와 관련된 중요한 용어
- 루트 노드:전체 모집단 또는 샘플을 나타냅니다. 또한 두 개 이상의 균질 세트로 나뉩니다.
- 분할: 이,우리는 두 개 이상의 하위 노드로 노드의 분할을 수행.
- 의사 결정 트리:하위 노드가 추가 하위 노드로 분할 될 때 생성됩니다.
- 리프/터미널 노드:분할하지 않는 노드를 리프 또는 터미널 노드라고합니다.
- 가지 치기:의사 결정 노드의 하위 노드를 제거 할 때이 프로세스를 가지 치기라고합니다. 그것은 분열의 반대 과정입니다.
- 분기/하위 트리:전체 트리의 하위 섹션을 분기 또는 하위 트리라고합니다.
- 부모 및 자식 노드: 하위 노드로 분할 된 노드를 하위 노드의 부모 노드라고 부르는 반면 하위 노드는 부모 노드의 자식입니다.
의사 결정 트리 유형
- 범주형(분류)변수 의사 결정 트리:범주형 대상 변수가 있는 의사 결정 트리입니다.
- 연속(회귀)변수 의사 결정 트리:의사 결정 트리에 연속 대상 변수가 있습니다.
범주형(분류)트리 대 연속형(회귀형)트리
회귀형 트리는 종속 변수가 연속형일 때 사용되고,종속 변수가 범주형일 때 분류 트리가 사용됩니다.
연속에서 얻어진 값은 관찰의 평균 반응이다.
분류에서 터미널 노드에서 얻은 값은 관측 모드입니다.
두 경우 모두 하나의 유사성이 있습니다. 이 기준을 중지에 도달 할 때까지 분할 과정은 성장 나무에 결과를 계속합니다. 그러나 성장한 나무는 데이터가 과도하게 적합하여 보이지 않는 데이터에 대한 정확성이 떨어집니다. 이것은’가지 치기’를 가져옵니다. 가지 치기는 태클을 과도하게 사용하는 기술 중 하나입니다.
에서 의사 결정 트리의 장점
- 이해하기 쉽다:그것들을 읽고 해석하는 데 통계적 지식이 필요하지 않다. 그래픽 표현은 매우 직관적이며 사용자는 가설을 연관시킬 수 있습니다.
- 데이터 정리 필요 감소: 다른 모델링 기법에 비해 데이터가 더 적게 필요합니다.
- 데이터 유형은 제약 조건이 아니며 숫자 변수와 범주 형 변수를 모두 처리 할 수 있습니다.
- 이해하고 해석하기 쉽습니다.
- 데이터 준비가 거의 필요하지 않습니다.
- 숫자 및 범주 형 데이터와 함께 작동합니다.
- 비선형성을 처리합니다.
- 통계 테스트를 사용하여 모델을 확인할 수 있습니다.
- 그것은 강력합니다. 그것은 당신이 가정에서 벗어나는 경우에도 잘 수행합니다.
- 빅 데이터로 확장됩니다.
당신은 확실히 탐구해야 아르 자형 비선형 회귀 분석
아르 자형 의사 결정 트리의 단점
- 과적합:그것은 의사 결정 트리 모델에 대한 가장 실제적인 어려움 중 하나입니다. 모델 매개 변수 및 가지 치기에 대한 제약 조건을 설정함으로써,우리는이 문제를 해결할 수 있습니다
- 연속 변수에 적합하지 않음:연속 숫자 변수를 사용할 때. 다른 범주의 변수를 분류 할 때마다 의사 결정 트리는 정보를 잃습니다.
- 전 세계적으로 최적의 트리를 배우는 것은 순이익-하드,알고는 욕심 검색에 의존하고 있습니다.
- 피처 간의 복잡한”만약 그렇다면”관계는 트리 크기를 팽창시킵니다. 예를 들면 다음과 같습니다.
소개
우리는 베이즈의 정리를 사용하여 예측을합니다. 그것은 사전 지식과 현재의 증거를 기반으로합니다.
베이즈 정리는 다음 방정식으로 표현됩니다:
P(A)P(B)확률의 이벤트 A 및 B 없이 관련됩니다.
지원 벡터 머신 소개
지원 벡터 머신이란 무엇입니까?
우리는 최적의 초평면(2 차원 선,3 차원 평면 및 3 차원 이상의 초평면)을 찾는 데 사용합니다. 두 클래스 사이의 여백을 최대화하는 데 도움이됩니다. 지지 벡터는 양쪽의 초평면을 지지하는 관측치입니다.
선형 최적화 문제를 해결하는 데 도움이됩니다. 또한 가장 큰 마진을 가진 초평면을 찾는 데 도움이됩니다. 우리는”커널 트릭”을 사용하여 분리 할 수없는 인스턴스를 분리합니다.
왜 초평면인가?
는 2 차원 선이고 3 차원 평면입니다.더 높은 차원(3 차원 이상)에서는 초평면이라고합니다. 또한 두 클래스를 분리 할 수있는 초평면을 찾는 데 도움이됩니다.
여백은 무엇입니까?
초평면과 가장 가까운 데이터 포인트 사이의 거리를 여백이라고 합니다. 그러나 만약 우리가 그것을 두배로 하고 싶다면,그것은 여백과 같을 것입니다.
최적의 초평면을 찾는 방법은 무엇입니까?
먼저 두 개의 초평면을 선택해야합니다. 그들은 그들 사이에 포인트없이 데이터를 분리해야합니다. 그런 다음이 두 초평면 사이의 거리를 최대화하십시오. 여기의 거리는’여백’입니다.
커널은 무엇입니까?
비선형 분리 가능한 데이터 포인트의 경우,실행 하는 데 도움이 되는 메서드입니다. 우리는 커널 함수를 사용하여 데이터를 더 높은 차원의 특징 공간으로 변환합니다. 또한 그것의 도움으로 선형 분리를 수행하십시오.
다른 커널
1. 선형:유’*
2. 다항식:(감마*유*공동 0)^도
3. 이 경우,방사형 기준(-감마*|유-에|^2)은 일반적으로 가장 많이 사용되는 방사형 기준(-감마*유-에/^2)입니다.
어떻게 작동합니까?
- 마진을 최대화하는 최적의 초평면을 선택합니다.1615>
- 오분류에 대한 위약금이 적용됩니다.
- 비선형 분리 데이터 포인트 경우. 그런 다음 데이터를 고차원 공간으로 변환합니다. 선형 결정 표면의 도움으로 쉽게 분류하기 위해 수행됩니다.
간의 개념을 마스터 데이터 시각화에서 R
의 장점 SVM R
- 만약 우리가 사용하는 커널에 속의 경우에는 비선형 분리할 수 있는 데이터는 다음을 수행합니다.
- 고차원 공간 및 텍스트 또는 이미지 분류의 경우 잘 작동합니다.
- 그것은 다 공선성 문제를 겪지 않습니다.큰 데이터 집합에 더 많은 시간이 걸립니다.
- 확률 추정치를 반환하지 않습니다.
- 선형 적으로 분리 가능한 데이터의 경우 이는 로지스틱 회귀와 거의 같습니다.
지원 벡터 머신–회귀
- 예,종속 변수 또는 대상 변수가 연속 인 회귀 문제에 사용할 수 있습니다.
- 가장 큰 마진을 찾을 수 있습니다.
에서 분류 응용
- 병원의 응급실은 새로 입원 한 환자의 17 변수를 측정합니다. 혈압,나이 및 더 많은 같은 변수. 또한 환자가 중환자 실에 입원해야하는 경우 신중한 결정을 내려야합니다. 중환자 실 비용이 높기 때문에 한 달 이상 생존 할 수있는 환자에게 우선 순위가 높습니다. 또한,문제는 고위험 환자를 예측하는 것입니다. 그리고,저 위험 환자에서 그들을 차별합니다.
- 신용 회사는 새로운 카드를 위해 수천 수백 신청을 받는다. 응용 프로그램에는 여러 가지 속성에 대한 정보가 포함되어 있습니다. 또한,문제는 좋은 신용,나쁜 신용 또는 회색 영역에 해당 하는 사람들을 분류 하는.
- 천문학 자들은 긴 노출 이미지를 사용하여 하늘의 먼 물체를 분류 해 왔습니다. 따라서,표시 될 필요가 있는 개체는 별,은하 등. 데이터는 잡음이,그리고 이미지가 매우 희미,따라서,카탈로그를 완료하는 데 수십 년이 걸릴 수 있습니다.
요약
우리는 그 용도 및 장단점과 함께 분류에 대해 연구했습니다. 우리는 또한 더 나은 방법으로 분류를 배우는 데 도움이 실시간 예제를 배웠습니다.
다음 튜토리얼에서 우리의 R DataFlair 리–e1071 패키지|SVM 훈련 및 테스트델 R