Como criar um modelo de R Classification Predictive Analytics

Você deseja criar um modelo de análise preditiva que você possa avaliar com resultados conhecidos. Para fazer isso, dividir o sementes dataset em dois conjuntos: um para treinamento do modelo e um para testar o modelo. Uma 70/30 divisão entre treinamento e teste conjuntos de dados será suficiente. As próximas duas linhas de calcular código e armazenar os tamanhos de cada conjunto de dados:

> trainSize lt; - round (nrow (sementes) * 0,7)> testSize lt; - nrow (sementes) - trainSize

Para fornecer os valores, digite o nome da variável que você usou para armazenar o valor e pressione Enter. Aqui está a saída:

> TrainSize [1] 147> testSize [1] 63

Este código determina os tamanhos para os conjuntos de dados de treinamento e teste. Você não tem realmente criou os conjuntos ainda. Além disso, você não quer apenas as primeiras 147 observações para ser o conjunto de treinamento e os últimos 63 observações para ser o conjunto de teste. Isso criaria um modelo ruim, porque o sementes dataset é ordenado na coluna rótulo.

Assim você tem que fazer tanto o conjunto de treinamento eo representante conjunto de teste de todo o conjunto de dados. Uma maneira de fazer isso é criar o conjunto de treinamento de uma seleção aleatória de todo o conjunto de dados.

Além disso, você quer fazer este teste reproduzível para que você possa aprender com o mesmo exemplo. Você pode fazer isso definindo o conjunto de dados para o gerador aleatório para que você tenha o mesmo conjunto de treinamento "aleatório", como este:

> set.seed (123)> training_indices lt; - amostra (seq_len (nrow (sementes)),
size = trainSize)> composição lt; - sementes [training_indices,]> testSet lt; - sementes [-training_indices,]

O conjunto de treino que você começa a partir deste código contém 147 observações, juntamente com um resultado (seedType) De cada observação. Ao criar o modelo, você dirá o algoritmo que variável é o resultado. O algoritmo de classificação usa esses resultados para treinar o modelo de olhar para as relações entre as variáveis ​​de previsão (nenhum dos sete atributos) e o rótulo (seedType).

O conjunto de teste contém o resto dos dados, isto é, todos os dados não estão incluídos no conjunto de treino. Note-se que o dispositivo de ensaio também inclui a etiqueta (seedType). Quando você usa o prever função (do modelo) com o conjunto de teste, ele ignora o rótulo e utiliza apenas as variáveis ​​de previsão, desde que os nomes de coluna são as mesmas que eles estão no conjunto de treinamento.

o festa pacote é um dos vários pacotes em R que criam árvores de decisão. (Outros pacotes common-árvore de decisão incluem rpart, árvore, e Floresta aleatória.) O próximo passo é usar o pacote para criar um modelo de árvore de decisão, utilizando seedType como a variável-alvo e todas as outras variáveis ​​como variáveis ​​de previsão. O primeiro passo nesse processo é instalar o pacote e carregá-lo em nossa sessão R.

Digite as seguintes linhas de código para instalar e carregar o festa pacote:

> Install.packages ( "partido")> biblioteca (festa)

Agora você está pronto para treinar o modelo. Digite a seguinte linha de código:

> modelo lt; - ctree (. seedType ~, data = composição)

Para fazer previsões com novos dados, você simplesmente usar a função om uma lista dos sete valores de atributos. O código a seguir faz isso:

> newPrediction lt; - prever (, lista de modelos (área = 11,
perímetro = 13, compacidade = 0,855, comprimento = 5,
largura = 2,8, assimetria = 6,5, length2 = 5),
interval = "prever", nível = .95)

Este é o código de saída e do novo valor de predição.

> NewPrediction [1] 3levels: 1 2 3

A previsão era de sementes do tipo 3, o que não é surpreendente, porque os valores foram deliberadamente escolhido que estavam perto de observação # 165.

menu