Métodos e fórmulas para os gráficos de dependência parcial em Ajuste de modelo e Descubrir preditores-chave com Classificação TreeNet®

Observação

Este comando está disponível com o Módulo de análise preditiva. Clique aqui saber mais sobre como ativar o módulo.

Um preditor de gráficos de dependência parcial

Suponha que existam preditores m em um conjunto de dados de treinamento, denotado como x1, x2, ..., xm. Primeiro, classifique os valores distintos do preditor x1 no conjunto de dados de treinamento em ordem crescente. Denote x11 como o primeiro valor distinto de x1. Em seguida, x11 será a coordenada x para o ponto mais à esquerda no gráfico.

A coordenada y em x1 = x11 é igual
TermoDescrição
No número total de linhas no conjunto de dados de treinamento
os valores observados para no conjunto de dados de treinamento
jcada linha individual das linhas J
o valor ajustado a partir do modelo quando x1 = x11, x2 = x2j,...., xm = xmj

Substituindo x11 por cada um dos valores distintos de x1,temos as coordenadas y para o resto dos pontos no gráfico. Os cálculos para o resto dos preditores são feitos da mesma forma.

Cálculos de todas as coordenadas y para todos os valores distintos de x podem ser demorados com grandes conjuntos de dados. Para TreeNet®, há uma maneira mais rápida de fazer os cálculos. Consulte Friedman, J. H. (2001). Greedy function approximation: A gradient boosting machine. The Annals of Statistics, 29(5), página 1221.

Os cálculos para o caso de resposta multinomial são semelhantes. Aqui o valor ajustado é a partir do modelo para cada classe individual.

Dois gráficos de dependência parcial do preditor

Suponha que existam preditores m em um conjunto de dados de treinamento, denotado como x1, x2, ..., xm. Primeiro, classifique os valores distintos dos preditores x1, x2 no conjunto de dados de treinamento em ordem crescente. Denote x11, x21 como um dos pares distintos. Em seguida, cada par faz as coordenadas x e y para um ponto no gráfico de superfície.

A coordenada z em x1 = x11, x2 = x21 é igual
TermoDescrição
No número total de linhas no conjunto de dados de treinamento que todos compartilham a convergência de x1 = x11, x2 = x21
os valores observados para no conjunto de dados de treinamento
jcada linha individual das linhas J
o valor ajustado do modelo quando x1 = x11, x2 = x21, x3 = x3j...., xm = xmj

A conclusão dos cálculos para todas as combinações de valores distintas de x1 e x2 produz todas as coordenadas z para o gráfico de contorno ou de superfície. Para grandes conjuntos de dados, os cálculos para todos os pares distintos de x e y são demorados. Para modelos TreeNet®, há uma maneira mais rápida de fazer os cálculos. Consulte Friedman, J. H. (2001). Greedy function approximation: A gradient boosting machine. The Annals of Statistics, 29(5), página 1221.