Métodos para Ajuste de modelo e Descubrir preditores-chave com Classificação TreeNet®

Observação

Este comando está disponível com o Módulo de análise preditiva. Clique aqui saber mais sobre como ativar o módulo.

Os modelos do TreeNet® representam uma abordagem para resolver problemas de classificação e regressão que são mais precisos e resistentes ao sobreajuste do que uma única classificação ou árvore de regressão. Uma descrição ampla e geral do processo é o que começamos com uma árvore de regressão pequena como modelo inicial. Dessa árvore vêm resíduos para cada linha nos dados que se tornam a variável de resposta para a próxima árvore de regressão. Criamos outra pequena árvore de regressão para predizer os resíduos da primeira árvore e calcular os resíduos resultantes novamente. Repetimos esta sequência até que um número ótimo de árvores com erro mínimo de predição seja identificado usando um método de validação. A sequência resultante de árvores forma o Modelo de Classificação TreeNet®.

Para o caso de classificação, podemos adicionar mais alguns detalhes matemáticos para uma análise com uma resposta binária e para uma análise com uma resposta multinomial.

Resposta binária

A criação do modelo utiliza as seguintes informações:
  • A variável resposta, , assume os seguintes valores: {-1, 1}.
  • Os valores iniciais ajustados para o cálculo dos resíduos generalizados têm a seguinte forma:

Em que é o número de eventos e É o número de não eventos.

A criação do modelo também utiliza as seguintes entradas do analista:
Entrada Símbolo
taxa de aprendizado
taxa amostral
número máximo de nós terminais por árvore
número de árvores
O processo tem as seguintes etapas gerais para o cultivo da j-ésima, árvore, j=1,…,J:
  1. Desenhe uma amostra aleatória de tamanho s * N dos dados de treinamento, em que N é o número de linhas nos dados de treinamento.
  2. Calcule os resíduos generalizados, gi,j, para :
    em que

    e é um vetor que representa a i-ésima linha dos valores preditores nos dados de treinamento.

  3. Ajuste uma árvore de regressão com no máximo M nós terminais aos resíduos generalizados. A árvore divide as observações em no máximo m grupos mutuamente exclusivos.
  4. Para o m-ésimo nó terminal na árvore de regressão, calcule as atualizações dentro do nó para os valores ajustados da árvore anterior da seguinte maneira:
    em que
    TermoDescrição
    número de eventos no nó terminal m na árvore j
    número de casos no nó terminal m na árvore j
    média aritmética de para todos os casos no nó terminal m na árvore j
  5. Reduza as atualizações de dentro do nó de acordo com a taxa de aprendizagem e aplique os valores para obter os valores ajustados atualizados, fj(xi):
  6. Repita as etapas 1-5 para cada árvore J na análise.

Resposta multinomial

Para uma resposta multinominal com K níveis, a análise ajusta uma árvore a cada nível da variável resposta em cada iteração. Os valores iniciais ajustados para o cálculo dos resíduos generalizados para uma das árvores têm a seguinte forma:

em que é o número de casos em que o valor de resposta é k e N é o número de linhas nos dados de treinamento.

A criação do modelo também utiliza as seguintes entradas do analista:
Entrada Símbolo
taxa de aprendizado
taxa amostral
número máximo de nós terminais por árvore
número de árvores

O cálculo das probabilidades dos ajustes explica a natureza dependente dessas árvores. Caso contrário, o processo é substancialmente igual ao do caso binário.

  1. Desenhe uma amostra aleatória de tamanho s * N dos dados de treinamento, em que N é o número de linhas no conjunto de dados de treinamento.
  2. Calcule os resíduos generalizados, gi, j, k para , , o número de árvores na análise, e , o número de níveis da variável resposta:

    em que

    e é um vetor que representa a i-ésima linha dos valores preditores no conjunto de dados de treinamento.

    Por exemplo, a probabilidade para o resultado codificado como 1 de uma resposta multinomial com 3 níveis tem a seguinte forma:
    em que é o ajuste para a i-ésima linha na árvore j–1 para o k-ésimo nível da variável resposta.
  3. Ajuste uma árvore de regressão com no máximo M nós terminais aos resíduos generalizados. A árvore divide as observações em no máximo m grupos mutuamente exclusivos.
  4. Para o m-ésimo nó terminal na j-ésima árvore de regressão, calcule as atualizações dentro do nó para os valores ajustados da árvore anterior da seguinte maneira:

    em que

    TermoDescrição
    número de casos para o resultado k no nó terminal m na árvore j
    número de casos no nó terminal m na árvore j
    média aritmética de para todos os casos no nó terminal m na árvore j.
  5. Reduza as atualizações de dentro do nó de acordo com a taxa de aprendizagem e aplique os valores para obter os valores ajustados atualizados, fj, k,m(xi):
  6. Repita as etapas 1-5 para cada árvore J na análise, e para cada nível K da variável resposta.