Tabela Seleção e validação do modelo para Regressão de mínimos quadrados parciais

Encontre definições e orientações de interpretação para cada estatística na tabela Seleção do modelo.

Neste tópico

Componentes
Variância X
Erro
R2
R2 (pred)
PRESS

Componentes

Os componentes representam o número de componentes incluídos em cada modelo. O Minitab exibe o modelo com 1 componente, com 2 componentes e assim por diante, até ele incluir o número de componentes que você especificou. Se você não tiver especificado o número de componentes a serem incluídos no modelo, o Minitab mostra as estatísticas da seleção do modelo para 10 componentes ou o número de preditoras, o que for menor.

Variância X

A variância é a quantidade de variância nos termos que são explicados pelo modelo. O valor-x da variância está entre 0 e 1.

Quanto mais perto o valor-x da variância estiver de 1, os componentes representam melhor o conjunto original de termos. Se você tiver mais de 1 resposta, o valor-x da variância é o mesmo para todas as respostas.

Erro

O erro é a soma dos quadrados do erro, que é a soma dos resíduos quadrados. Ele quantifica a variação nos dados que o modelo não explica. Para o modelo final, o erro corresponde ao SQ do erro residual na tabela ANOVA do modelo final.

R2

R² representa a porcentagem de variação na resposta que é explicada pelo modelo. Ele é calculado como 1 menos a razão da soma dos quadrados dos erros (que é a variação que não é explicada pelo modelo) para a soma total dos quadrados (que é a variação total no modelo).

Interpretação

Use R² para determinar se o modelo ajusta bem os dados. Quanto mais alto o valor de R² melhor o modelo ajusta seus dados. O valor de R² está sempre entre 0 e 100%.

Você pode usar um gráfico de linha ajustada para ilustrar graficamente valores de R² diferentes. O primeiro gráfico ilustra um modelo de regressão simples que explica 85,5% da variação na resposta. O segundo gráfico ilustra um modelo que explica 22,6% da variação na resposta. Quanto mais variação é explicada pelo modelo, mais perto os pontos de dados caem da linha de regressão ajustada. Teoricamente, se um modelo pudesse explicar 100% da variação, os valores ajustados sempre se igualariam aos valores observados e todos os pontos de dados cairiam sobre a linha ajustada. No entanto, mesmo se R² representar 100%, o modelo não necessariamente prediz bem as novas observações.

Considere as seguintes questões ao interpretar o valor de R²:

O R² sempre aumenta quando você adiciona mais preditores a um modelo. Por exemplo, o melhor modelo de cinco preditores terá sempre um R² que é pelo menos tão elevado quanto o melhor modelo de quatro preditores. Portanto, R² é mais útil quando for comparado a modelos do mesmo tamanho.
Amostras pequenas não fornecem uma estimativa precisa da força da relação entre a resposta e os preditores. Por exemplo, se você precisar que R² seja mais exato, deve usar uma amostra maior (geralmente, 40 ou mais).
A estatística de qualidade do ajuste é apenas uma medida do grau em que o modelo ajusta os dados (se ajusta bem ou mal). Mesmo quando um modelo tem um um valor desejável, você deve verificar os gráficos de resíduos para conferir se o modelo atende aos pressupostos do modelo.

R2 (pred)

O R² predito indica em que grau cada modelo calculados prediz a resposta e somente é calculado quando você realiza uma validação cruzada. Se houver uma variável de resposta nos dados, o Minitab seleciona o modelo PLS com o R² predito mais alto. Se as variáveis de resposta estiverem nos dados, o Minitab seleciona o modelo PLS com o R² predito médio mais alto para todas as variáveis de resposta. O R² predito é calculado removendo-se sistematicamente cada observação do conjunto de dados, estimando a equação de regressão e determinando quão bem o modelo prediz a observação removida. O valor do R² predito varia entre 0% e 100%. (Enquanto os cálculos do R² predito podem produzir valores negativos, o Minitab exibe zero para esses casos).

Interpretação

Use R² predito para determinar o quão bem seu modelo prediz as respostas para novas observações.Modelos que têm valores de R² predito mais elevado têm melhor capacidade preditiva.

Um R² predito que é substancialmente menor que o R² pode indicar que o modelo está com excesso de ajuste. Um modelo com excesso de ajuste ocorre quando você adiciona termos para efeitos que não são importantes na população. O modelo se adapta aos dados de amostra e, por conseguinte, pode não ser útil para fazer predições em relação à população.

Para determinar a se o modelo selecionado pela validação cruzada é o mais adequado, examine o R² e os valores do R² predito. Em alguns casos, você pode decidir usar um modelo diferente daquele selecionado pela validação cruzada. Considere um exemplo em que a adição de dois componentes ao modelo que o Minitab seleciona aumenta significativamente o R² e só diminui um pouco o R² previsto. Como o R² predito só foi reduzido ligeiramente, o modelo não é sobreajustado e você pode decidir que ele se ajusta melhor aos dados.

PRESS

A soma dos quadrados predita (PRESS) do erro é uma medida do desvio entre os valores ajustados e os valores observados. PRESS é semelhante à soma dos quadrados dos erros residuais (SSE), que é o somatório dos quadrados dos resíduos. No entanto, PRESS usa um cálculo diferente para os resíduos. A fórmula utilizada para calcular PRESS é equivalente a um processo para remover sistematicamente cada observação do conjunto de dados, estimando a equação de regressão, e determinando o quão bem o modelo prediz a observação removida.

Interpretação

Use PRESS para avaliar a capacidade de predição do modelo. Normalmente, quanto menor o valor PRESS, melhor a capacidade de predição do modelo. O Minitab usa o PRESS é usada para calcular o R² predito, que é geralmente mais intuitivo para ser interpretado. Juntas, essas estatísticas podem evitar o excesso de ajuste do modelo. Um modelo com excesso de ajuste ocorre quando você adiciona termos a efeitos que não são importantes na população, embora eles possam parecer importantes nos dados da amostra. O modelo se adapta aos dados de amostra e, por conseguinte, pode não ser útil para fazer predições em relação à população.