Classificação na programação R: O tudo em um tutorial para dominar o conceito!

neste tutorial, vamos estudar a classificação em R completamente. Nós também cobriremos a árvore de decisão, a ingênua classificação Bayes e a máquina de suporte vetorial. Para compreendê-lo da melhor maneira, usaremos imagens e exemplos em tempo real.

classificação em R

Mantenha-se atualizado com as últimas tendências de tecnologia
Join DataFlair on Telegram!!

Introduction to Classification in R
pontos Importantes de Classificação em R
Árvore de decisão em R
Types of Decision Tree
Categórica (classificação) Árvores vs Contínua (regressão) Árvores
desvantagens da árvore de decisão R
Introduction to Naïve Bayes Classification
Introduction to Support Vector Machines
What is Support Vector Machine?
terminologias relacionadas com R SVM
vantagens da SVM em R
desvantagens da MVM em R
suporte regressão a máquina vetorial
aplicações de classificação em R
resumo

Introduction to Classification in R

We use it to predict a categorical class label, such as weather: rainy, sunny, cloudy or snowy.

pontos Importantes de Classificação em R

Existem vários classificadores disponíveis:

Árvores de Decisão – Estes são organizados na forma de conjuntos de perguntas e respostas na estrutura de árvore.
classificadores ingênuos de Bayes-um modelo probabilístico de aprendizagem de máquinas que é usado para a classificação.
classificadores K-NN-com base em medidas de semelhança como a distância, classifica novos processos.
suporte máquinas Vectoras-é um classificador linear binário não probabilístico que constrói um modelo para classificar um caso em uma das duas categorias.

Um exemplo de classificação no R através de Máquina de Vetor de Suporte é o uso de classificação() função:

classificação(trExemplObj,classLabels,valExemplObj=NULL,kf=5,kernel=”linear”)

Aguarde! Já completou o tutorial sobre agrupamento em R

argumentos:

1. trExemplObj-é um objeto exemplar da ESET.

2. classLabels – ele está sendo armazenado no objeto eSet como nome variável e. g. “type”.

3. valExemplObj-é conhecido como objeto ESET de validação exemplar.

4. kf-é denominado como o valor K-folds do parâmetro de validação cruzada. Além disso, o valor padrão é de 5 dobras. Ao definir “Loo” ou ” LOO ” uma validação cruzada de saída que temos de realizar.

5. kernel-em análise de classificação, nós usamos um tipo de Kernel. O kernel padrão é”linear”.

6. classL-os rótulos do conjunto de comboios.

7. valClassL-é denominado como os rótulos do conjunto de validação se não nulo.

8. predLbls-é definido como as etiquetas previstas de acordo com a análise de classificação.

Árvore de decisão em R

é um tipo de algoritmo de aprendizagem supervisionado. Usamos para problemas de classificação. Ele funciona para ambos os tipos de variáveis de entrada e saída. Nesta técnica, dividimos a população em dois ou mais conjuntos homogêneos. Além disso, é baseado no divisor/diferenciador mais significativo em variáveis de entrada.

a árvore de decisão é um poderoso classificador não linear. Uma árvore de decisão faz uso de uma estrutura semelhante a uma árvore para gerar relação entre as várias características e resultados potenciais. Faz uso das decisões de ramificação como sua estrutura central.

árvore de decisão em R

na Classificação dos dados, a árvore de decisão segue os passos mencionados abaixo:

coloca todos os exemplos de treinamento em uma raiz.

com Base nos vários atributos selecionados, uma Árvore de Decisão divide estes exemplos de treinamento.

então ele selecionará atributos usando algumas medidas estatísticas.

o particionamento recursivo continua até que nenhum exemplo de treinamento permanece.Terminologias importantes relacionadas com a árvore de decisão
- nó raiz: representa toda a população ou amostra. Além disso, divide-se em dois ou mais conjuntos homogêneos.
- Repartição: Neste, realizamos a divisão de um nó em dois ou mais sub-nós.
- Árvore de decisão: é produzida quando um sub-nó se divide em outros sub-nós.
- nó Leaf/Terminal: nós que não se dividem são chamados de nó Leaf ou terminal.
- poda: quando removemos sub-nós de um nó de decisão, este processo é chamado de Poda. É o processo oposto de divisão.
- ramo / sub-árvore: uma subsecção de toda a árvore é chamada ramo ou sub-árvore.
- nó pai e filho: Um nó, que é dividido em sub-nós é chamado de nó pai de sub-nós, enquanto sub-nós são filhos de um nó pai.
Types of Decision Tree
- Categorical(classification) Variable Decision Tree: Decision Tree which has a categorical target variable.
- Árvore de decisão variável contínua(regressão): a árvore de decisão tem uma variável-alvo contínua.
não se esqueça de verificar para fora a R de Árvores de Decisão em detalhes

Categórica (classificação) Árvores vs Contínua (regressão) Árvores

Regressão árvores são utilizados quando a variável dependente é contínua, enquanto a classificação de árvores são utilizados quando a variável dependente é categórica.

em contínuo, um valor obtido é uma resposta média da observação.

na Classificação, um valor obtido por um nó terminal é um modo de observação.Há uma semelhança em ambos os casos. O processo de divisão continua resultando em árvores crescidas até chegar aos critérios de parada. Mas, a árvore cultivada é provável que sobrecarregue os dados, levando a pouca precisão em dados não vistos. Isto traz “poda”. A poda é uma das técnicas que utiliza a Sobredotação.Vantagens da árvore de decisão em R
- fácil de entender: não precisa de qualquer conhecimento estatístico para lê-los e interpretá-los. Sua representação gráfica é muito intuitiva e os usuários podem relacionar suas hipóteses.
- menos limpeza de dados necessária: Comparado com outras técnicas de modelagem, requer menos dados.
- data type is not a constraint: It can handle both numerical and categorical variables.
- simples de compreender e interpretar.
- requer pouca preparação de dados.
- funciona com dados numéricos e categóricos.
- lida com a não linearidade.
- possível confirmar um modelo através de testes estatísticos.
- é robusto. Tem um bom desempenho, mesmo que se desvie das suposições.
- ele balança para grandes dados.
deve definitivamente explorar a análise de regressão não linear

desvantagens da árvore de decisão R
- sobrestimação: é uma das dificuldades mais práticas para os modelos de árvore de decisão. Ao definir restrições nos parâmetros do modelo e poda, podemos resolver este problema em R.
- não se adequar a variáveis contínuas: no momento de usar variáveis numéricas contínuas. Sempre que categoriza variáveis em diferentes categorias, a árvore de decisão perde informação.
- para aprender que a árvore ideal globalmente é NP-dura, As algas dependem da pesquisa gananciosa.
- relações complexas “if-then” entre as características inflam o tamanho da árvore. Exemplo-porta XOR, multiplexor.
Introduction to Naïve Bayes Classification

we use Bayes ‘ theorem to make the prediction. Baseia-se no conhecimento prévio e nas provas actuais.

o teorema de Bayes é expresso pela seguinte equação::

em que P(A) E P(B) são a probabilidade dos acontecimentos a e B sem se referirem uns aos outros. P(A|B) is the probability of a conditional on B and P (B|A) is the probability of B conditional on A.

Introduction to Support Vector Machines

What is Support Vector Machine?

usamo-lo para encontrar o hiperplano ideal (linha em 2D, um plano em 3D e hiperplano em mais de 3 dimensões). O que ajuda a maximizar a margem entre duas classes. Vetores de suporte são observações que suportam hiperplano em ambos os lados.Ajuda a resolver um problema de otimização linear. Ele também ajuda a encontrar o hiperplano com a maior margem. Usamos o “truque do Kernel” para separar instâncias que são inseparáveis.

terminologias relacionadas com R SVM

porquê Hyperplane?

é uma linha em 2D e plano em 3D.em dimensões mais altas (mais do que 3D), é chamado de hiperplano. Além disso, a SVM nos ajuda a encontrar um hiperplano que pode separar duas classes.

o que é a margem?

uma distância entre o hiperplano e o ponto de dados mais próximo é chamada de margem. Mas se quisermos duplicá-lo, então será igual à margem.

como encontrar o hiperplano ideal?

primeiro, temos que selecionar dois hiperplanos. Devem separar os dados sem pontos entre eles. Em seguida, maximizar a distância entre estes dois hiperplanos. A distância aqui é “margem”.

o que é o Kernel?

It is a method which helps to make SVM run, in case of non-linear separable data points. Nós usamos uma função de kernel para transformar os dados em um espaço de recursos dimensionais mais elevados. E também com a ajuda dele, realizar a separação linear.Núcleos Diferentes

1. linear: u’ * v
2. polinomial: (gama * u ‘ * v + coef0)^grau
3. radial base (RBF) : exp(-gama*|u-v|^2)sigmóide : tanh(gama*u*v + coef0)

RBF é geralmente o mais popular.

como funciona a SVM?
1. escolha um hiperplano ideal que maximize a margem.
2. aplica uma penalização por erros de classificação (parâmetro de ajuste ” C ” do custo).
3. se os pontos de dados não separáveis linearmente. Então transforme os dados para o espaço dimensional elevado. É feito para classificá-lo facilmente com a ajuda de superfícies de decisão lineares.
tempo para dominar o conceito de visualização de dados em R

vantagens da SVM em R
- se estamos a usar o truque do Kernel em caso de dados separáveis não-lineares, então ele funciona muito bem.
- a SVM funciona bem no espaço dimensional elevado e no caso de classificação de texto ou imagem.
- não sofre de um problema de multicolinearidade.
desvantagens da MVM em R
- demora mais tempo em conjuntos de dados de grande dimensão.
- a SVM não devolve estimativas de probabilidade.
- no caso de dados separáveis linearmente, isto é quase como regressão logística.
suporte regressão a máquina vetorial
- Sim, podemos usá-lo para um problema de regressão, em que a variável dependente ou alvo é contínua.
- o objectivo da regressão SVM é o mesmo que o problema da classificação, ou seja, encontrar a maior margem.
aplicações de classificação em R
- uma sala de emergência num hospital medidas 17 variáveis de doentes recém-admitidos. Variáveis, como pressão arterial, idade e muito mais. Além disso, deve ser tomada uma decisão cuidadosa se o doente tiver de ser admitido na UCI. Devido ao alto custo da UCI, os pacientes que podem sobreviver mais de um mês têm alta prioridade. Além disso, o problema é prever pacientes de alto risco. E discriminá-los de pacientes de baixo risco.
- uma empresa de crédito recebe centenas de milhares de pedidos de novos cartões. A aplicação contém informações sobre vários atributos diferentes. Além disso, o problema é classificar aqueles que têm bom crédito, mau crédito ou cair em uma área cinzenta.
- astrônomos têm catalogado objetos distantes no céu usando imagens de longo alcance de C. C. D. Assim, o objeto que precisa ser rotulado é uma estrela, galáxia, etc. Os dados são ruidosos, e as imagens são muito fracas, portanto, a catalogação pode levar décadas para completar.
resumo

estudámos a classificação em R, juntamente com os seus usos e prós e contras. Também aprendemos exemplos em tempo real que ajudam a aprender melhor a classificação.Tutorial seguinte da nossa série de tutoriais R DataFlair-e1071 Package | SVM Training and Testing Models in r

Classificação na programação R: O tudo em um tutorial para dominar o conceito!

Introduction to Classification in R

pontos Importantes de Classificação em R

Árvore de decisão em R

Types of Decision Tree

Categórica (classificação) Árvores vs Contínua (regressão) Árvores

desvantagens da árvore de decisão R

Introduction to Naïve Bayes Classification

Introduction to Support Vector Machines

What is Support Vector Machine?

terminologias relacionadas com R SVM

vantagens da SVM em R

desvantagens da MVM em R

suporte regressão a máquina vetorial

aplicações de classificação em R

resumo

Published by admin

Deixe uma resposta Cancelar resposta