Métodos para Ajuste de modelo e Descubrir preditores-chave com Classificação TreeNet^®

Observação

Este comando está disponível com o Módulo de análise preditiva. Clique aqui saber mais sobre como ativar o módulo.

Os modelos do TreeNet^® representam uma abordagem para resolver problemas de classificação e regressão que são mais precisos e resistentes ao sobreajuste do que uma única classificação ou árvore de regressão. Uma descrição ampla e geral do processo é o que começamos com uma árvore de regressão pequena como modelo inicial. Dessa árvore vêm resíduos para cada linha nos dados que se tornam a variável de resposta para a próxima árvore de regressão. Criamos outra pequena árvore de regressão para predizer os resíduos da primeira árvore e calcular os resíduos resultantes novamente. Repetimos esta sequência até que um número ótimo de árvores com erro mínimo de predição seja identificado usando um método de validação. A sequência resultante de árvores forma o Modelo de Classificação TreeNet^®.

Para o caso de classificação, podemos adicionar mais alguns detalhes matemáticos para uma análise com uma resposta binária e para uma análise com uma resposta multinomial.

Resposta binária

A criação do modelo utiliza as seguintes informações:

A variável resposta, , assume os seguintes valores: {-1, 1}.
Os valores iniciais ajustados para o cálculo dos resíduos generalizados têm a seguinte forma:

Em que é o número de eventos e É o número de não eventos.

A criação do modelo também utiliza as seguintes entradas do analista:

Entrada	Símbolo
taxa de aprendizado
taxa amostral
número máximo de nós terminais por árvore
número de árvores

O processo tem as seguintes etapas gerais para o cultivo da j^-ésima, árvore, j=1,…,J:

Desenhe uma amostra aleatória de tamanho s * N dos dados de treinamento, em que N é o número de linhas nos dados de treinamento.
Calcule os resíduos generalizados, g_i,j, para :
em que

e é um vetor que representa a i^-ésima linha dos valores preditores nos dados de treinamento.
Ajuste uma árvore de regressão com no máximo M nós terminais aos resíduos generalizados. A árvore divide as observações em no máximo m grupos mutuamente exclusivos.
Para o m^-ésimo nó terminal na árvore de regressão, calcule as atualizações dentro do nó para os valores ajustados da árvore anterior da seguinte maneira:

em que
Termo Descrição
número de eventos no nó terminal m na árvore j
número de casos no nó terminal m na árvore j
média aritmética de para todos os casos no nó terminal m na árvore j
Reduza as atualizações de dentro do nó de acordo com a taxa de aprendizagem e aplique os valores para obter os valores ajustados atualizados, f_j(x_i):
Repita as etapas 1-5 para cada árvore J na análise.

Termo	Descrição
	número de eventos no nó terminal m na árvore j
	número de casos no nó terminal m na árvore j
	média aritmética de para todos os casos no nó terminal m na árvore j

Resposta multinomial

Para uma resposta multinominal com K níveis, a análise ajusta uma árvore a cada nível da variável resposta em cada iteração. Os valores iniciais ajustados para o cálculo dos resíduos generalizados para uma das árvores têm a seguinte forma:

em que é o número de casos em que o valor de resposta é k e N é o número de linhas nos dados de treinamento.

A criação do modelo também utiliza as seguintes entradas do analista:

Entrada	Símbolo
taxa de aprendizado
taxa amostral
número máximo de nós terminais por árvore
número de árvores

O cálculo das probabilidades dos ajustes explica a natureza dependente dessas árvores. Caso contrário, o processo é substancialmente igual ao do caso binário.

Desenhe uma amostra aleatória de tamanho s * N dos dados de treinamento, em que N é o número de linhas no conjunto de dados de treinamento.
Calcule os resíduos generalizados, g_{i, j, k} para , , o número de árvores na análise, e , o número de níveis da variável resposta:

em que

e é um vetor que representa a i^-ésima linha dos valores preditores no conjunto de dados de treinamento.

Por exemplo, a probabilidade para o resultado codificado como 1 de uma resposta multinomial com 3 níveis tem a seguinte forma:

em que é o ajuste para a i^-ésima linha na árvore j–1 para o k^-ésimo nível da variável resposta.
Ajuste uma árvore de regressão com no máximo M nós terminais aos resíduos generalizados. A árvore divide as observações em no máximo m grupos mutuamente exclusivos.

Para o m^-ésimo nó terminal na j^-ésima árvore de regressão, calcule as atualizações dentro do nó para os valores ajustados da árvore anterior da seguinte maneira:

em que

Termo	Descrição
	número de casos para o resultado k no nó terminal m na árvore j
	número de casos no nó terminal m na árvore j
	média aritmética de para todos os casos no nó terminal m na árvore j.

Reduza as atualizações de dentro do nó de acordo com a taxa de aprendizagem e aplique os valores para obter os valores ajustados atualizados, f_{j, k,m}(x_i):
Repita as etapas 1-5 para cada árvore J na análise, e para cada nível K da variável resposta.

Métodos para Ajuste de modelo e Descubrir preditores-chave com Classificação TreeNet®

Observação

Resposta binária

Resposta multinomial

Métodos para Ajuste de modelo e Descubrir preditores-chave com Classificação TreeNet^®