Selecione as opções para Descobrir o melhor modelo (Resposta binária)

Módulo de análise preditiva > Aprendizado de máquina automatizado > Descobrir o melhor modelo (Resposta binária) > Opções
Observação

Este comando está disponível com o Módulo de análise preditiva. Clique aqui saber mais sobre como ativar o módulo.

Selecione os critérios para determinar o melhor modelo e especifique opções para os diferentes tipos de modelos. Você também pode especificar uma base para o gerador de números aleatórios e quando atribuir uma previsão à classe de eventos.

Critério para selecionar o melhor modelo

Escolha o método para gerar seu modelo ótimo. Você pode comparar os resultados de vários métodos para determinar a melhor escolha para sua aplicação.
  • Log-verossimilhança máximo: O método da máxima verossimilhança encontra o máximo das funções de verossimilhança para os dados.
  • Área máxima sob curva ROC: O método da área máxima sob a curva ROC funciona bem em muitas aplicações. A área sob a curva ROC indica se o modelo classifica bem as linhas da mais propensa a produzir um evento à menos propensa a produzir um evento.
  • Taxa mínima de classificação errada: Selecione esta opção para exibir resultados para o modelo que minimiza o taxa de classificação errada. A taxa de classificação errada baseia-se na simples contagem de quantas vezes o modelo prediz um caso corretamente ou incorretamente.

Opções para modelos de classificação TreeNet®

Especifique opções para o modelo TreeNet®.

Número de árvores
Insira um valor entre 1 e 5000, para indicar o número de árvores a serem construídas. O valor padrão de 300 produz resultados iniciais úteis.
Se o modelo inicial selecionado estiver próximo do número de árvores especificadas, pondere sobre o aumento do número de árvores para procurar um modelo melhor.
Máximo de nós terminais por árvore E o Profundidade máxima da árvore
Você também pode limitar o tamanho das árvores. Escolha uma das seguintes opções para limitar o tamanho das árvores.
  • Máximo de nós terminais por árvore: Digite um valor entre 2 e 2000 para representar o número máximo de nós terminais de uma árvore. Normalmente, o valor padrão de 6 proporciona um bom equilíbrio entre a velocidade de cálculo e a investigação das interações entre as variáveis. Um valor de 2 elimina a investigação das interações.
  • Profundidade máxima da árvore: Digite um valor entre 2 e 1000 para representar a profundidade máxima de uma árvore. O nó raiz corresponde a uma profundidade de 1. A profundidade padrão é 4. Em muitas aplicações, profundidades de 4 a 6 dão modelos razoavelmente bons.
Taxa de aprendizado
Especifique até 10 taxas de aprendizado.
Por padrão, a análise avalia 3 taxas de aprendizagem. A análise geralmente sintoniza os hiperparmetros com 3 valores de K: 0,001, 0,1 e máximo (0,01, 0,1 * min(1.0, N/10000)), onde N = número de linhas na coluna de resposta. Se max (0,01, 0,1 * min (1.0, N/10000)) = 0,001 ou 0,1, então a análise sintoniza os hiperparmetros com 0,001, 0,01 e 0,1.
Fração da subamostra
Especifique até 10 frações de subsample. A cada iteração, o procedimento seleciona um subconjunto diferente que contém esta fração dos dados para construir uma árvore. A subsamtração protege da superequipamento. Insira um número maior que 0 e menor que ou igual a 1. Os valores comuns são 0,5 e 0,7.
Número de preditores para divisão do nó
Especifique o número de preditores a serem considerados para cada divisão de nó. Normalmente, a análise funciona bem quando você considera todos os preditores em cada nó. No entanto, alguns conjuntos de dados têm associações entre os preditores que levam a um melhor desempenho do modelo quando a análise leva em conta um subconjunto aleatório diferente de preditores em cada nó. Para tais casos, a raiz quadrada do número total de preditores é um ponto de partida típico. Depois de usar a raiz quadrada e visualizar o modelo, você pode considerar se deve especificar um número maior ou menor de preditores com uma porcentagem do total.
  • Número total de preditores: Selecione para usar todos os preditores para dividir nós.
  • Raiz quadrada do número total de preditores: Selecione para usar a raiz quadrada do número total de preditores para dividir os nós.
  • K por cento do número total de preditores; K =: Selecione para usar uma porcentagem de preditores para dividir os nós.

Opções para modelos de classificação Random Forests®

Especifique opções para o modelo Random Forests®.

Número de amostras por bootstrap para cultivar árvores
Insira um valor para determinar o número de amostras por bootstrap e o número de árvores produzidas pela análise. Insira um valor entre 3 e 3000.
Especifique um tamanho amostral de Bootstrap menor que o tamanho dos dados de treinamento
Selecione para inserir um valor que define o tamanho da amostra por bootstrap. Insira um valor maior que ou igual a 5. Se você inserir um tamanho maior do que o tamanho dos dados de treinamento, o Minitab usará um tamanho de amostra igual ao tamanho dos dados de treinamento.
Número de preditores para divisão do nó
Especifique o número de preditores a serem considerados para cada divisão de nó. Normalmente, a análise funciona bem quando você considera a raiz quadrada do número total de preditores. No entanto, alguns conjuntos de dados têm associações entre os preditores que levam a um melhor desempenho do modelo quando a análise considera um número maior ou menor de preditores para cada nó. Depois de usar a raiz quadrada e visualizar o modelo, verifique se deve alterar o número de preditores para tentar melhorar o desempenho do modelo.
  • Número total de preditores: Selecione para usar todos os preditores para dividir nós. A floresta criada por essa opção é chamada de floresta de bootstrap.
  • Raiz quadrada do número total de preditores: Selecione para usar a raiz quadrada do número total de preditores para dividir os nós.
  • K por cento do número total de preditores; K =: Selecione para usar uma porcentagem de preditores para dividir os nós.
Número mínimo de casos para dividir um nó interno
Especifique de 1 a 3 números mínimos. Por padrão, a análise avalia 2, 5 e 8. O padrão é 2, de modo que todos os nós podem ser divididos em nós menores até que outra divisão seja impossível. Se o desempenho do modelo for inadequado, pondere sobre alterar esse valor para ver o efeito sobre o desempenho.

Opções para modelos de classificação CART®

Especifique opções para o modelo CART®.

Método de divisão de nós
Escolha o método de divisão para gerar sua árvore de decisão. Você pode comparar os resultados de vários métodos de divisão para determinar a melhor escolha para sua aplicação.
  • Gini: O método Gini é o método padrão. O método Gini funciona bem em muitas aplicações. O método Gini geralmente gera árvores que incluem nós pequenos com alta concentração da resposta de interesse.
  • Entropia: O método de Entropia é proporcional ao máximo de determinadas funções de verossimilhança para o nó.
Critério para seleção da árvore ótima
Escolha entre os seguintes critérios para selecionar a árvore nos resultados. Você pode comparar os resultados de diferentes árvores para determinar a melhor escolha para sua aplicação.
  • Custo mínimo de classificação errada: Selecione esta opção para exibir resultados para a árvore que minimiza o custo de classificação errada.
  • Dentro de K erros padrão do custo mínimo de classificação errada; K =: Selecione esta opção para exibir os resultados para a menor árvore com um custo de classificação errada dentro dos erros padrão de K do custo mínimo de classificação errada.
Número mínimo de casos para dividir um nó interno
Digite o número mínimo de casos que um nó pode ter e ainda ser dividido em mais nós. O padrão é 10. Com tamanhos amostrais maiores, você pode querer aumentar esse número mínimo. Por exemplo, se um nó interno tiver 10 ou mais casos, o Minitab tenta realizar uma divisão. Se o nó interno tiver 9 casos ou menos, o Minitab não tenta realizar uma divisão.
O limite de nó interno só é relevante quando o valor é pelo menos o dobro do limite do nó terminal. Os limites internos do nó de pelo menos 3 vezes os limites do nó terminal permitem um número razoável de divisores. Normalmente, limites maiores são razoáveis para conjuntos de dados maiores.
Número mínimo de casos permitidos para um nó terminal
Digite o número mínimo de casos que podem estar em um nó terminal. O padrão é 3. Com tamanhos amostrais maiores, você pode querer aumentar esse número mínimo. Por exemplo, se uma divisão criar um nó com menos de 3 casos, o Minitab não realiza uma divisão.

Base para o gerador de números aleatórios

Você pode especificar uma base para o gerador de números aleatórios a fim de selecionar aleatoriamente as subamostras e o subconjunto de preditores. Normalmente, você não precisa mudar a base. Você pode alterar a base para explorar o grau de sensibilidade dos resultados em relação às seleções aleatórias ou para garantir a mesma seleção aleatória para análises repetidas.

Atribuir classe de evento

Especifique a probabilidade mínima predita de atribuir um caso à classe de eventos. Essa opção afeta modelos TreeNet® e modelos binários de regressão logística.

  • A probabilidade de evento excede o valor especificado: Especifique a probabilidade mínima predita de atribuir um caso à classe de eventos. Por exemplo, um valor de 0,5 significa que o Minitab atribui um caso à classe de eventos quando a probabilidade do evento é maior que 0,5.
  • A probabilidade de evento excede a taxa de evento amostral: Determine o uso da taxa de evento de amostra oriundos dos dados de treinamento como o limite para atribuir a classe predita para um caso. Quando a taxa de evento amostral é superior a 0,50, essa opção torna os eventos menos propensos a serem classificados como o evento e mais propensos a serem classificados como não evento. Normalmente, essa opção deve ser analisada quando você quer equilibrar as taxas de classificação errada dos eventos e não eventos em comparação com o resultado que eles apresentariam com um limite de 0,50.