Uma probabilidade a priori é a probabilidade de uma observação cair em um determinado grupo antes de os dados serem coletados. Por exemplo, se você está classificando os compradores de um carro específico, talvez já saiba que 60% dos compradores são do sexo masculino e 40% são do sexo feminino.
Use probabilidades a priori para aumentar a exatidão de classificação para determinadas classes. A CART toma diferentes decisões internas balanceadas com base nas probabilidades a priori. Aumentar a probabilidade de uma classe e diminuir a probabilidade de outra ajuda a balancear as taxas de classificação para as diferentes classes. Por exemplo, aumentar a probabilidade de evento e diminuir a probabilidade de não evento pode melhorar a taxa de falsos positivos, mas pode piorar a taxa de falsos negativos.
Aumentar a probabilidade de evento diminuirá o limite do nó para a atribuição em classe para o evento. Assim, os nós com frações mais baixas da classe de eventos são classificados como o evento. As probabilidades a priori são as que exercem o impacto mais forte sobre o desenvolvimento de toda a árvore durante o estágio de crescimento de árvores e fornecem meios altamente eficientes para mudar o modelo final.
Use o método de divisão para encontrar a árvore que melhor ajusta seus dados. Certos métodos de divisão podem ser melhores do que outros, dependendo de seus dados específicos. Compare os resultados de vários métodos de divisão para determinar a melhor opção para sua aplicação.
O Minitab usa o método de validação cruzada ou usa um conjunto de teste separado para validar o modelo. Com a validação cruzada, você pode especificar as linhas para cada dobra ou permitir uma seleção aleatória. Com um conjunto de testes separado, você pode especificar as linhas para os conjuntos de treinamento e teste ou permitir uma seleção aleatória.
Por padrão, a análise não tem uma penalidade de valor faltante e esta linha não está presente. A penalidade de valor faltante penaliza um competidor com base na proporção de valores faltantes para cada nó. Assim, um competidor com muitos valores faltantes em um nó apresenta menor probabilidade de ter uma função de divisor principal.
Por padrão, a análise não tem uma penalidade de categoria de alto nível e esta linha não está presente. A penalidade de categoria de nível superior penaliza o competidor com base no número de níveis categóricos em relação ao tamanho do nó para cada nó. Assim, um competidor com muitos níveis em um nó apresenta menor probabilidade de ter uma função de divisor principal.
Indica a coluna usada para ponderar a resposta.
O número de observações de resposta usadas na árvore.
O número de observações de resposta faltantes. Isso também inclui valores faltantes ou zeros na coluna de peso.