Escolha o método para gerar seu modelo ótimo. Você pode comparar os resultados de vários métodos para determinar a melhor escolha para sua aplicação.
Log-verossimilhança máximo: O método da máxima verossimilhança encontra o máximo das funções de verossimilhança para os dados. Este é o padrão com uma resposta binária.
Área máxima sob
curva ROC: O método da área máxima sob a curva ROC funciona bem em muitas aplicações. A área sob a curva ROC indica se o modelo classifica bem as linhas da mais propensa a produzir um evento à menos propensa a produzir um evento. Esta opção está disponível com uma resposta binária.
Taxa
mínima de classificação errada: Selecione esta opção para exibir resultados para o modelo que minimiza o taxa de classificação errada. A taxa de classificação errada baseia-se na simples contagem de quantas vezes o modelo prediz um caso corretamente ou incorretamente. Este é o padrão com uma resposta multinomial.
Insira um valor entre 1 e 5000, para indicar o número de árvores a serem construídas. O valor padrão de 300 produz resultados iniciais úteis.
Se o modelo inicial selecionado estiver próximo do número de árvores especificadas, pondere sobre o aumento do número de árvores para procurar um modelo melhor.
Máximo de
nós terminais por árvore E o Profundidade
máxima da árvore
Você também pode limitar o tamanho das árvores. Escolha uma das seguintes opções para limitar o tamanho das árvores.
Máximo de
nós terminais por árvore: Digite um valor entre 2 e 2000 para representar o número máximo de nós terminais de uma árvore. Normalmente, o valor padrão de 6 proporciona um bom equilíbrio entre a velocidade de cálculo e a investigação das interações entre as variáveis. Um valor de 2 elimina a investigação das interações.
Profundidade
máxima da árvore: Digite um valor entre 2 e 1000 para representar a profundidade máxima de uma árvore. O nó raiz corresponde a uma profundidade de 1. A profundidade padrão é 4. Em muitas aplicações, profundidades de 4 a 6 dão modelos razoavelmente bons.
Número
mínimo de casos permitidos para um nó terminal
Insira o número mínimo de casos para um nó terminal. Por exemplo, se o tamanho mínimo é 3 uma divisão criar um nó com menos de 3 casos, o Minitab não realiza uma divisão.
Proteção contra
sobreajuste
Use as seguintes opções para minimizar o sobreajuste do modelo.
Taxa de
aprendizado
A taxa de aprendizado é um dos dois hiperparâmetros extremamente importantes que você pode ajustar para identificar um modelo ótimo para seus dados.
Por padrão, se o número de casos em seus dados de treinamento for de 1000 ou menos, o Minitab usa 0,01 como taxa de aprendizado. Para conjuntos de dados com mais de 1000 casos, a taxa de aprendizado padrão é max[0,01, 0,1 * min(1,0, N/10000)]. Por exemplo, quando o conjunto de dados tem 9000 respostas, então a taxa de aprendizado = 0,09.
Se o modelo inicial não predisser bem seus dados, pondere sobre o aumento ou diminuição da taxa de aprendizado em 5 ou 10 vezes para ver se você pode obter um modelo melhor.
Randomizar seleção de subamostras
Determine se irá construir cada árvore na análise a partir de uma subamostragem de todo o conjunto de dados de treinamento ou a partir de subamostras dentro de cada nível de resposta.
Dentro de
todo o conjunto de dados: Selecione uma amostra aleatória de todo o conjunto de dados de treinamento. Normalmente, a fração de 0,5 funciona bem. Considere aumentar a fração do valor padrão de 0,5 para 0,70 ou mais se o modelo inicial não ajustar bem seus dados.
Dentro de
cada nível de resposta: Faça uma subamostragem dos casos de classe de evento nos dados de treinamento e uma subamostragem dos casos de classe de não eventos nos dados de treinamento. Você pode usar esta opção para garantir que casos suficientes de uma classe rara estejam em cada subamostra. Se uma classe é rara o suficiente, você pode inserir 1 para incluir todos os seus casos em cada subamostra.
Fração da
subamostra
Especifique a proporção dos dados de aprendizado a serem selecionados aleatoriamente para a construção de cada árvore na análise. Normalmente, a fração de 0,5 funciona bem. Considere aumentar a fração do valor padrão de 0,5 para 0,70 ou mais se o modelo inicial não ajustar bem seus dados.
Número de
preditores para divisão do nó
Especifique o número de preditores a serem considerados para cada divisão de nó. Normalmente, a análise funciona bem quando você considera todos os preditores em cada nó. No entanto, alguns conjuntos de dados têm associações entre os preditores que levam a um melhor desempenho do modelo quando a análise leva em conta um subconjunto aleatório diferente de preditores em cada nó. Para tais casos, a raiz quadrada do número total de preditores é um ponto de partida típico. Depois de usar a raiz quadrada e visualizar o modelo, você pode considerar se deve especificar um número maior ou menor de preditores com uma porcentagem do total.
Número total
de preditores: Selecione para usar todos os preditores para dividir nós.
Raiz
quadrada do número total de preditores: Selecione para usar a raiz quadrada do número total de preditores para dividir os nós.
K por
cento do número total de preditores; K =: Selecione para usar uma porcentagem de preditores para dividir os nós.
Base para o gerador de
números aleatórios
Você pode especificar uma base para o gerador de números aleatórios a fim de selecionar aleatoriamente as subamostras e o subconjunto de preditores. Normalmente, você não precisa mudar a base. Você pode alterar a base para explorar o grau de sensibilidade dos resultados em relação às seleções aleatórias ou para garantir a mesma seleção aleatória para análises repetidas.
Pesos
Digite uma coluna que contenha os pesos do caso. A coluna deve ter o mesmo número de linhas que a coluna de resposta. Os valores devem ser ≥ 0. O Minitab omite as linhas que contenham valores faltantes ou zeros provenientes da análise.