Classificação na programação R: O tudo em um tutorial para dominar o conceito!
neste tutorial, vamos estudar a classificação em R completamente. Nós também cobriremos a árvore de decisão, a ingênua classificação Bayes e a máquina de suporte vetorial. Para compreendê-lo da melhor maneira, usaremos imagens e exemplos em tempo real.
Mantenha-se atualizado com as últimas tendências de tecnologia
Join DataFlair on Telegram!!
- Introduction to Classification in R
- pontos Importantes de Classificação em R
- Árvore de decisão em R
- Types of Decision Tree
- Categórica (classificação) Árvores vs Contínua (regressão) Árvores
- desvantagens da árvore de decisão R
- Introduction to Naïve Bayes Classification
- Introduction to Support Vector Machines
- What is Support Vector Machine?
- terminologias relacionadas com R SVM
- vantagens da SVM em R
- desvantagens da MVM em R
- suporte regressão a máquina vetorial
- aplicações de classificação em R
- resumo
Introduction to Classification in R
We use it to predict a categorical class label, such as weather: rainy, sunny, cloudy or snowy.
pontos Importantes de Classificação em R
Existem vários classificadores disponíveis:
- Árvores de Decisão – Estes são organizados na forma de conjuntos de perguntas e respostas na estrutura de árvore.
- classificadores ingênuos de Bayes-um modelo probabilístico de aprendizagem de máquinas que é usado para a classificação.
- classificadores K-NN-com base em medidas de semelhança como a distância, classifica novos processos.
- suporte máquinas Vectoras-é um classificador linear binário não probabilístico que constrói um modelo para classificar um caso em uma das duas categorias.
Um exemplo de classificação no R através de Máquina de Vetor de Suporte é o uso de classificação() função:
classificação(trExemplObj,classLabels,valExemplObj=NULL,kf=5,kernel=”linear”)
Aguarde! Já completou o tutorial sobre agrupamento em R
argumentos:
1. trExemplObj-é um objeto exemplar da ESET.
2. classLabels – ele está sendo armazenado no objeto eSet como nome variável e. g. “type”.
3. valExemplObj-é conhecido como objeto ESET de validação exemplar.
4. kf-é denominado como o valor K-folds do parâmetro de validação cruzada. Além disso, o valor padrão é de 5 dobras. Ao definir “Loo” ou ” LOO ” uma validação cruzada de saída que temos de realizar.
5. kernel-em análise de classificação, nós usamos um tipo de Kernel. O kernel padrão é”linear”.
6. classL-os rótulos do conjunto de comboios.
7. valClassL-é denominado como os rótulos do conjunto de validação se não nulo.
8. predLbls-é definido como as etiquetas previstas de acordo com a análise de classificação.
Árvore de decisão em R
é um tipo de algoritmo de aprendizagem supervisionado. Usamos para problemas de classificação. Ele funciona para ambos os tipos de variáveis de entrada e saída. Nesta técnica, dividimos a população em dois ou mais conjuntos homogêneos. Além disso, é baseado no divisor/diferenciador mais significativo em variáveis de entrada.
a árvore de decisão é um poderoso classificador não linear. Uma árvore de decisão faz uso de uma estrutura semelhante a uma árvore para gerar relação entre as várias características e resultados potenciais. Faz uso das decisões de ramificação como sua estrutura central.
na Classificação dos dados, a árvore de decisão segue os passos mencionados abaixo:
- coloca todos os exemplos de treinamento em uma raiz.
- com Base nos vários atributos selecionados, uma Árvore de Decisão divide estes exemplos de treinamento.
- então ele selecionará atributos usando algumas medidas estatísticas.
- o particionamento recursivo continua até que nenhum exemplo de treinamento permanece.Terminologias importantes relacionadas com a árvore de decisão
- nó raiz: representa toda a população ou amostra. Além disso, divide-se em dois ou mais conjuntos homogêneos.
- Repartição: Neste, realizamos a divisão de um nó em dois ou mais sub-nós.
- Árvore de decisão: é produzida quando um sub-nó se divide em outros sub-nós.
- nó Leaf/Terminal: nós que não se dividem são chamados de nó Leaf ou terminal.
- poda: quando removemos sub-nós de um nó de decisão, este processo é chamado de Poda. É o processo oposto de divisão.
- ramo / sub-árvore: uma subsecção de toda a árvore é chamada ramo ou sub-árvore.
- nó pai e filho: Um nó, que é dividido em sub-nós é chamado de nó pai de sub-nós, enquanto sub-nós são filhos de um nó pai.
Types of Decision Tree
- Categorical(classification) Variable Decision Tree: Decision Tree which has a categorical target variable.
- Árvore de decisão variável contínua(regressão): a árvore de decisão tem uma variável-alvo contínua.
não se esqueça de verificar para fora a R de Árvores de Decisão em detalhes
Categórica (classificação) Árvores vs Contínua (regressão) Árvores
Regressão árvores são utilizados quando a variável dependente é contínua, enquanto a classificação de árvores são utilizados quando a variável dependente é categórica.
em contínuo, um valor obtido é uma resposta média da observação.
na Classificação, um valor obtido por um nó terminal é um modo de observação.Há uma semelhança em ambos os casos. O processo de divisão continua resultando em árvores crescidas até chegar aos critérios de parada. Mas, a árvore cultivada é provável que sobrecarregue os dados, levando a pouca precisão em dados não vistos. Isto traz “poda”. A poda é uma das técnicas que utiliza a Sobredotação.Vantagens da árvore de decisão em R
- fácil de entender: não precisa de qualquer conhecimento estatístico para lê-los e interpretá-los. Sua representação gráfica é muito intuitiva e os usuários podem relacionar suas hipóteses.
- menos limpeza de dados necessária: Comparado com outras técnicas de modelagem, requer menos dados.
- data type is not a constraint: It can handle both numerical and categorical variables.
- simples de compreender e interpretar.
- requer pouca preparação de dados.
- funciona com dados numéricos e categóricos.
- lida com a não linearidade.
- possível confirmar um modelo através de testes estatísticos.
- é robusto. Tem um bom desempenho, mesmo que se desvie das suposições.
- ele balança para grandes dados.
deve definitivamente explorar a análise de regressão não linear
desvantagens da árvore de decisão R
- sobrestimação: é uma das dificuldades mais práticas para os modelos de árvore de decisão. Ao definir restrições nos parâmetros do modelo e poda, podemos resolver este problema em R.
- não se adequar a variáveis contínuas: no momento de usar variáveis numéricas contínuas. Sempre que categoriza variáveis em diferentes categorias, a árvore de decisão perde informação.
- para aprender que a árvore ideal globalmente é NP-dura, As algas dependem da pesquisa gananciosa.
- relações complexas “if-then” entre as características inflam o tamanho da árvore. Exemplo-porta XOR, multiplexor.
Introduction to Naïve Bayes Classification
we use Bayes ‘ theorem to make the prediction. Baseia-se no conhecimento prévio e nas provas actuais.
o teorema de Bayes é expresso pela seguinte equação::
em que P(A) E P(B) são a probabilidade dos acontecimentos a e B sem se referirem uns aos outros. P(A|B) is the probability of a conditional on B and P (B|A) is the probability of B conditional on A.
Introduction to Support Vector Machines
What is Support Vector Machine?
usamo-lo para encontrar o hiperplano ideal (linha em 2D, um plano em 3D e hiperplano em mais de 3 dimensões). O que ajuda a maximizar a margem entre duas classes. Vetores de suporte são observações que suportam hiperplano em ambos os lados.Ajuda a resolver um problema de otimização linear. Ele também ajuda a encontrar o hiperplano com a maior margem. Usamos o “truque do Kernel” para separar instâncias que são inseparáveis.
terminologias relacionadas com R SVM
porquê Hyperplane?
é uma linha em 2D e plano em 3D.em dimensões mais altas (mais do que 3D), é chamado de hiperplano. Além disso, a SVM nos ajuda a encontrar um hiperplano que pode separar duas classes.
o que é a margem?
uma distância entre o hiperplano e o ponto de dados mais próximo é chamada de margem. Mas se quisermos duplicá-lo, então será igual à margem.
como encontrar o hiperplano ideal?
primeiro, temos que selecionar dois hiperplanos. Devem separar os dados sem pontos entre eles. Em seguida, maximizar a distância entre estes dois hiperplanos. A distância aqui é “margem”.
o que é o Kernel?
It is a method which helps to make SVM run, in case of non-linear separable data points. Nós usamos uma função de kernel para transformar os dados em um espaço de recursos dimensionais mais elevados. E também com a ajuda dele, realizar a separação linear.Núcleos Diferentes
1. linear: u’ * v
2. polinomial: (gama * u ‘ * v + coef0)^grau
3. radial base (RBF) : exp(-gama*|u-v|^2)sigmóide : tanh(gama*u*v + coef0)RBF é geralmente o mais popular.
como funciona a SVM?
- escolha um hiperplano ideal que maximize a margem.
- aplica uma penalização por erros de classificação (parâmetro de ajuste ” C ” do custo).
- se os pontos de dados não separáveis linearmente. Então transforme os dados para o espaço dimensional elevado. É feito para classificá-lo facilmente com a ajuda de superfícies de decisão lineares.
tempo para dominar o conceito de visualização de dados em R
vantagens da SVM em R
- se estamos a usar o truque do Kernel em caso de dados separáveis não-lineares, então ele funciona muito bem.
- a SVM funciona bem no espaço dimensional elevado e no caso de classificação de texto ou imagem.
- não sofre de um problema de multicolinearidade.
desvantagens da MVM em R
- demora mais tempo em conjuntos de dados de grande dimensão.
- a SVM não devolve estimativas de probabilidade.
- no caso de dados separáveis linearmente, isto é quase como regressão logística.
suporte regressão a máquina vetorial
- Sim, podemos usá-lo para um problema de regressão, em que a variável dependente ou alvo é contínua.
- o objectivo da regressão SVM é o mesmo que o problema da classificação, ou seja, encontrar a maior margem.
aplicações de classificação em R
- uma sala de emergência num hospital medidas 17 variáveis de doentes recém-admitidos. Variáveis, como pressão arterial, idade e muito mais. Além disso, deve ser tomada uma decisão cuidadosa se o doente tiver de ser admitido na UCI. Devido ao alto custo da UCI, os pacientes que podem sobreviver mais de um mês têm alta prioridade. Além disso, o problema é prever pacientes de alto risco. E discriminá-los de pacientes de baixo risco.
- uma empresa de crédito recebe centenas de milhares de pedidos de novos cartões. A aplicação contém informações sobre vários atributos diferentes. Além disso, o problema é classificar aqueles que têm bom crédito, mau crédito ou cair em uma área cinzenta.
- astrônomos têm catalogado objetos distantes no céu usando imagens de longo alcance de C. C. D. Assim, o objeto que precisa ser rotulado é uma estrela, galáxia, etc. Os dados são ruidosos, e as imagens são muito fracas, portanto, a catalogação pode levar décadas para completar.
resumo
estudámos a classificação em R, juntamente com os seus usos e prós e contras. Também aprendemos exemplos em tempo real que ajudam a aprender melhor a classificação.Tutorial seguinte da nossa série de tutoriais R DataFlair-e1071 Package | SVM Training and Testing Models in r