Classificação na programação R: O tudo em um tutorial para dominar o conceito!

neste tutorial, vamos estudar a classificação em R completamente. Nós também cobriremos a árvore de decisão, a ingênua classificação Bayes e a máquina de suporte vetorial. Para compreendê-lo da melhor maneira, usaremos imagens e exemplos em tempo real.

classificação em R

Mantenha-se atualizado com as últimas tendências de tecnologia
Join DataFlair on Telegram!!

Introduction to Classification in R

We use it to predict a categorical class label, such as weather: rainy, sunny, cloudy or snowy.

pontos Importantes de Classificação em R

Existem vários classificadores disponíveis:

  • Árvores de Decisão – Estes são organizados na forma de conjuntos de perguntas e respostas na estrutura de árvore.
  • classificadores ingênuos de Bayes-um modelo probabilístico de aprendizagem de máquinas que é usado para a classificação.
  • classificadores K-NN-com base em medidas de semelhança como a distância, classifica novos processos.
  • suporte máquinas Vectoras-é um classificador linear binário não probabilístico que constrói um modelo para classificar um caso em uma das duas categorias.

Um exemplo de classificação no R através de Máquina de Vetor de Suporte é o uso de classificação() função:

classificação(trExemplObj,classLabels,valExemplObj=NULL,kf=5,kernel=”linear”)

Aguarde! Já completou o tutorial sobre agrupamento em R

argumentos:

1. trExemplObj-é um objeto exemplar da ESET.

2. classLabels – ele está sendo armazenado no objeto eSet como nome variável e. g. “type”.

3. valExemplObj-é conhecido como objeto ESET de validação exemplar.

4. kf-é denominado como o valor K-folds do parâmetro de validação cruzada. Além disso, o valor padrão é de 5 dobras. Ao definir “Loo” ou ” LOO ” uma validação cruzada de saída que temos de realizar.

5. kernel-em análise de classificação, nós usamos um tipo de Kernel. O kernel padrão é”linear”.

6. classL-os rótulos do conjunto de comboios.

7. valClassL-é denominado como os rótulos do conjunto de validação se não nulo.

8. predLbls-é definido como as etiquetas previstas de acordo com a análise de classificação.

Árvore de decisão em R

é um tipo de algoritmo de aprendizagem supervisionado. Usamos para problemas de classificação. Ele funciona para ambos os tipos de variáveis de entrada e saída. Nesta técnica, dividimos a população em dois ou mais conjuntos homogêneos. Além disso, é baseado no divisor/diferenciador mais significativo em variáveis de entrada.

a árvore de decisão é um poderoso classificador não linear. Uma árvore de decisão faz uso de uma estrutura semelhante a uma árvore para gerar relação entre as várias características e resultados potenciais. Faz uso das decisões de ramificação como sua estrutura central.

árvore de decisão em R

na Classificação dos dados, a árvore de decisão segue os passos mencionados abaixo:

  • coloca todos os exemplos de treinamento em uma raiz.
  • com Base nos vários atributos selecionados, uma Árvore de Decisão divide estes exemplos de treinamento.
  • então ele selecionará atributos usando algumas medidas estatísticas.
  • o particionamento recursivo continua até que nenhum exemplo de treinamento permanece.Terminologias importantes relacionadas com a árvore de decisão
    • nó raiz: representa toda a população ou amostra. Além disso, divide-se em dois ou mais conjuntos homogêneos.

    nó raiz na árvore de decisões

    • Repartição: Neste, realizamos a divisão de um nó em dois ou mais sub-nós.
    • Árvore de decisão: é produzida quando um sub-nó se divide em outros sub-nós.
    • nó Leaf/Terminal: nós que não se dividem são chamados de nó Leaf ou terminal.
    • poda: quando removemos sub-nós de um nó de decisão, este processo é chamado de Poda. É o processo oposto de divisão.
    • ramo / sub-árvore: uma subsecção de toda a árvore é chamada ramo ou sub-árvore.
    • nó pai e filho: Um nó, que é dividido em sub-nós é chamado de nó pai de sub-nós, enquanto sub-nós são filhos de um nó pai.

    Types of Decision Tree

    • Categorical(classification) Variable Decision Tree: Decision Tree which has a categorical target variable.
    • Árvore de decisão variável contínua(regressão): a árvore de decisão tem uma variável-alvo contínua.

    não se esqueça de verificar para fora a R de Árvores de Decisão em detalhes

    Categórica (classificação) Árvores vs Contínua (regressão) Árvores

    Regressão árvores são utilizados quando a variável dependente é contínua, enquanto a classificação de árvores são utilizados quando a variável dependente é categórica.

    em contínuo, um valor obtido é uma resposta média da observação.

    na Classificação, um valor obtido por um nó terminal é um modo de observação.Há uma semelhança em ambos os casos. O processo de divisão continua resultando em árvores crescidas até chegar aos critérios de parada. Mas, a árvore cultivada é provável que sobrecarregue os dados, levando a pouca precisão em dados não vistos. Isto traz “poda”. A poda é uma das técnicas que utiliza a Sobredotação.Vantagens da árvore de decisão em R

    • fácil de entender: não precisa de qualquer conhecimento estatístico para lê-los e interpretá-los. Sua representação gráfica é muito intuitiva e os usuários podem relacionar suas hipóteses.
    • menos limpeza de dados necessária: Comparado com outras técnicas de modelagem, requer menos dados.
    • data type is not a constraint: It can handle both numerical and categorical variables.
    • simples de compreender e interpretar.
    • requer pouca preparação de dados.
    • funciona com dados numéricos e categóricos.
    • lida com a não linearidade.
    • possível confirmar um modelo através de testes estatísticos.
    • é robusto. Tem um bom desempenho, mesmo que se desvie das suposições.
    • ele balança para grandes dados.

    deve definitivamente explorar a análise de regressão não linear

    desvantagens da árvore de decisão R

    • sobrestimação: é uma das dificuldades mais práticas para os modelos de árvore de decisão. Ao definir restrições nos parâmetros do modelo e poda, podemos resolver este problema em R.
    • não se adequar a variáveis contínuas: no momento de usar variáveis numéricas contínuas. Sempre que categoriza variáveis em diferentes categorias, a árvore de decisão perde informação.
    • para aprender que a árvore ideal globalmente é NP-dura, As algas dependem da pesquisa gananciosa.
    • relações complexas “if-then” entre as características inflam o tamanho da árvore. Exemplo-porta XOR, multiplexor.

    Introduction to Naïve Bayes Classification

    we use Bayes ‘ theorem to make the prediction. Baseia-se no conhecimento prévio e nas provas actuais.

    o teorema de Bayes é expresso pela seguinte equação::

    P classificação AB - Naïve Bayes

    em que P(A) E P(B) são a probabilidade dos acontecimentos a e B sem se referirem uns aos outros. P(A|B) is the probability of a conditional on B and P (B|A) is the probability of B conditional on A.

    Introduction to Support Vector Machines

    What is Support Vector Machine?

    usamo-lo para encontrar o hiperplano ideal (linha em 2D, um plano em 3D e hiperplano em mais de 3 dimensões). O que ajuda a maximizar a margem entre duas classes. Vetores de suporte são observações que suportam hiperplano em ambos os lados.Ajuda a resolver um problema de otimização linear. Ele também ajuda a encontrar o hiperplano com a maior margem. Usamos o “truque do Kernel” para separar instâncias que são inseparáveis.

    terminologias relacionadas com R SVM

    porquê Hyperplane?

    é uma linha em 2D e plano em 3D.em dimensões mais altas (mais do que 3D), é chamado de hiperplano. Além disso, a SVM nos ajuda a encontrar um hiperplano que pode separar duas classes.

    o que é a margem?

    uma distância entre o hiperplano e o ponto de dados mais próximo é chamada de margem. Mas se quisermos duplicá-lo, então será igual à margem.

    como encontrar o hiperplano ideal?

    primeiro, temos que selecionar dois hiperplanos. Devem separar os dados sem pontos entre eles. Em seguida, maximizar a distância entre estes dois hiperplanos. A distância aqui é “margem”.

    o que é o Kernel?

    It is a method which helps to make SVM run, in case of non-linear separable data points. Nós usamos uma função de kernel para transformar os dados em um espaço de recursos dimensionais mais elevados. E também com a ajuda dele, realizar a separação linear.Núcleos Diferentes

    1. linear: u’ * v
    2. polinomial: (gama * u ‘ * v + coef0)^grau
    3. radial base (RBF) : exp(-gama*|u-v|^2)sigmóide : tanh(gama*u*v + coef0)

    RBF é geralmente o mais popular.

    como funciona a SVM?

    1. escolha um hiperplano ideal que maximize a margem.
    2. aplica uma penalização por erros de classificação (parâmetro de ajuste ” C ” do custo).
    3. se os pontos de dados não separáveis linearmente. Então transforme os dados para o espaço dimensional elevado. É feito para classificá-lo facilmente com a ajuda de superfícies de decisão lineares.

    tempo para dominar o conceito de visualização de dados em R

    vantagens da SVM em R

    • se estamos a usar o truque do Kernel em caso de dados separáveis não-lineares, então ele funciona muito bem.
    • a SVM funciona bem no espaço dimensional elevado e no caso de classificação de texto ou imagem.
    • não sofre de um problema de multicolinearidade.

    desvantagens da MVM em R

    • demora mais tempo em conjuntos de dados de grande dimensão.
    • a SVM não devolve estimativas de probabilidade.
    • no caso de dados separáveis linearmente, isto é quase como regressão logística.

    suporte regressão a máquina vetorial

    • Sim, podemos usá-lo para um problema de regressão, em que a variável dependente ou alvo é contínua.
    • o objectivo da regressão SVM é o mesmo que o problema da classificação, ou seja, encontrar a maior margem.

    aplicações de classificação em R

    • uma sala de emergência num hospital medidas 17 variáveis de doentes recém-admitidos. Variáveis, como pressão arterial, idade e muito mais. Além disso, deve ser tomada uma decisão cuidadosa se o doente tiver de ser admitido na UCI. Devido ao alto custo da UCI, os pacientes que podem sobreviver mais de um mês têm alta prioridade. Além disso, o problema é prever pacientes de alto risco. E discriminá-los de pacientes de baixo risco.
    • uma empresa de crédito recebe centenas de milhares de pedidos de novos cartões. A aplicação contém informações sobre vários atributos diferentes. Além disso, o problema é classificar aqueles que têm bom crédito, mau crédito ou cair em uma área cinzenta.
    • astrônomos têm catalogado objetos distantes no céu usando imagens de longo alcance de C. C. D. Assim, o objeto que precisa ser rotulado é uma estrela, galáxia, etc. Os dados são ruidosos, e as imagens são muito fracas, portanto, a catalogação pode levar décadas para completar.

    resumo

    estudámos a classificação em R, juntamente com os seus usos e prós e contras. Também aprendemos exemplos em tempo real que ajudam a aprender melhor a classificação.Tutorial seguinte da nossa série de tutoriais R DataFlair-e1071 Package | SVM Training and Testing Models in r

Deixe uma resposta

O seu endereço de email não será publicado.