Este comando está disponível com o Módulo de análise preditiva. Clique aqui saber mais sobre como ativar o módulo.
Os modelos do TreeNet® representam uma abordagem para resolver problemas de classificação e regressão que são mais precisos e resistentes ao sobreajuste do que uma única classificação ou árvore de regressão. Uma descrição ampla e geral do processo é o que começamos com uma árvore de regressão pequena como modelo inicial. Dessa árvore vêm resíduos para cada linha nos dados que se tornam a variável de resposta para a próxima árvore de regressão. Criamos outra pequena árvore de regressão para predizer os resíduos da primeira árvore e calcular os resíduos resultantes novamente. Repetimos esta sequência até que um número ótimo de árvores com erro mínimo de predição seja identificado usando um método de validação. A sequência resultante de árvores forma o Modelo de regressão TreeNet®.
Para o caso de regressão, podemos adicionar uma descrição geral da análise, mas alguns detalhes dependem de qual dos seguintes é a função de perda:
Estatística | Valor |
---|---|
Ajuste inicial, ![]() |
média da variável de resposta |
Resíduos generalizados, ![]() |
![]() |
Dentro de atualizações de nó, ![]() |
média de ![]() |
Estatística | Valor |
---|---|
Ajuste inicial, ![]() |
mediana da variável resposta |
Resíduos generalizados, ![]() |
![]() |
Dentro de atualizações de nó, ![]() |
mediana de ![]() |
Para a função de perda Huber, as estatísticas são as seguintes:
O ajuste inicial, , iguala a mediana de todos os valores de resposta.
Para cultivar a j-ésima árvore,
Em seguida, o resíduo generalizado para a i-ésima linha é o seguinte:
Os resíduos generalizados são usados como valores de resposta para cultivar a j-ésima árvore.
O valor atualizado para linhas no nó do m-ésimo terminal da j-ésima árvore é o seguinte:
A média na expressão anterior é calculada em todas as linhas dentro do nó terminal m da j-ésima árvore.
Nos detalhes anteriores, é o valor da variável de resposta para a linha i,
é o valor ajustado das j – 1 árvores anteriores, e
é um vetor que representa a i-ésima linha dos valores preditores nos dados de treinamento.
Entrada | Símbolo |
---|---|
taxa de aprendizado | ![]() |
taxa amostral | ![]() |
número máximo de nós terminais por árvore | ![]() |
número de árvores | ![]() |
valor de comutação | ![]() |