Gráficos para Regressão de mínimos quadrados parciais

Encontre definições e orientações de interpretação para cada gráfico disponível com PLS.

Gráfico de seleção de modelo

O gráfico de seleção de modelo é um gráfico de dispersão dos valores R2 e R2 preditos como uma função do número de componentes que estão ajustados ou que tiveram a validação cruzada. Ele é uma exibição gráfica da tabela Seleção e Validação do Modelo. Se você não usar a validação cruzada, os valores R2 preditos não aparecem em seu gráfico. O Minitab fornece um gráfico de seleção de modelo por resposta.

Interpretação

Use este gráfico para comparar a modelagem e o poder de predição dos diferentes modelos para determinar o número apropriado de componentes a reter em seu modelo. A linha vertical no gráfico indica o número de componentes que o Minitab selecionou para o modelo PLS.

Neste gráfico, a validação cruzada não foi usada para selecionar os componentes. O Minitab ajusta os 10 componentes padrão e exibe os valores de R2 para cada modelo no gráfico.
Neste gráfico, a validação cruzada foi usada para selecionar o modelo. Os círculos azuis representam os valores R2 e os quadrados vermelhos representam os valores R2 preditos para cada modelo. O Minitab selecionou o modelo com 4 componentes porque ele tinha o mais alto R2 predito.

Gráfico de resposta

O gráfico de resposta é um gráfico de dispersão dos valores ajustados versus as respostas atuais. Se você realizar a validação cruzada, o gráfico também inclui os valores ajustados versus os valores ajustados da validação cruzada. O Minitab fornece um gráfico de resposta por resposta.

Interpretação

Use este gráfico para determinar quão bem seu modelo se ajusta e prediz cada observação. Ao examinar este gráfico, procure as seguintes coisas:
  • Um padrão não-linear nos pontos, o que indica que o modelo pode não se ajustar ou predizer bem os dados.
  • Se você realizar a validação cruzada, grandes diferenças nos valores ajustados e com validação cruzada, o que indica um ponto de leverage.

Um modelo com excelente capacidade preditiva normalmente tem uma inclinação de 1 e intercepta o eixo-y no 0.

No primeiro gráfico, os pontos seguem um padrão linear, indicando que o modelo se ajusta aos dados bem e prediz com exatidão a resposta. No segundo gráfico, a validação cruzada foi usada para que ambos os valores ajustados e aqueles ajustados e com validação cruzada aparecessem no gráfico. O gráfico não revela as diferenças entre as respostas ajustadas e aquelas ajustadas e com validação cruzada.

Gráfico de coeficientes

O gráfico de coeficientes é um gráfico de dispersão projetado que mostra os coeficientes não-padronizados de cada preditora. O Minitab fornece um gráfico de coeficientes por resposta.

Interpretação

Use o gráfico de coeficientes, junto com a saída dos coeficientes de regressão para comparar o sinal e a magnitude dos coeficientes de cada preditora. O gráfico facilita identificar rapidamente as preditoras que são mais ou menos importantes no modelo.

Como o gráfico exibe coeficientes padronizados, você só pode fazer comparações entre a magnitude das relações entre preditoras e a resposta se suas preditoras estiverem na mesma escala (por exemplo dados espectrais). Caso contrário, use o gráfico de coeficientes padronizados ou use o gráfico de cargas fatoriais para comparar os pesos das preditoras usadas para calcular os componentes.

Neste gráfico, as preditoras (dados espectrais) estão na mesma escala. O gráfico indica que os comprimentos de onda de 1 a 40 têm a maior influência nas respostas.

Gráfico de coeficientes padrão

O gráfico de coeficiente é um gráfico de dispersão projetado mostrando os coeficientes padronizados de cada preditora. O Minitab fornece um gráfico de coeficiente padronizado por resposta.

Interpretação

Use este gráfico, junto com a saída dos coeficientes de regressão para comparar o sinal e a magnitude dos coeficientes de cada preditora. O gráfico facilita identificar rapidamente as preditoras que são mais ou menos importantes no modelo.

Como o gráfico exibe os coeficientes padronizados, você pode fazer comparações entre a magnitude das relações entre preditoras e a resposta mesmo se suas preditoras não estiverem na mesma escala.

Se suas preditoras estiverem na mesma escala, o padrão dos coeficientes nos gráficos padronizados e não-padronizados parecem similares. Esses gráficos podem não parecer idênticos, contudo, porque as preditoras estão altamente correlacionadas, fazendo com que os coeficientes estejam instáveis e por causa das diferenças entre desvios padrão das amostras e desvios padrão da população.

Neste gráfico, os elementos com as barras mais longas têm os maiores coeficientes padronizados e o maior impacto no aroma. Os elementos acima da linha central são positivamente relacionados a aroma, enquanto os elementos acima da linha central estão negativamente relacionados.

Gráfico de distância

O gráfico de distância é um gráfico de dispersão da distância de cada observação dos modelos x e y. As distâncias do modelo-y medem quão bem uma observação é ajustada no espaço-y. As distâncias do modelo-x medem quão bem uma observação é ajustada no espaço-x.

Interpretação

Ao examinar este gráfico, procure pontos com distâncias maiores do que outros pontos no eixo-x ou no eixo-y. As observações com maiores distâncias do modelo-y podem ser outliers e observações com maiores distâncias do modelo-x e podem ser pontos de leverage.

Neste gráfico, nenhum dos pontos se parece com outliers extremos ou pontos de leverage.

Histograma de resíduos

O histograma dos resíduos padronizados mostra a distribuição dos resíduos padronizados para todas as observações.

Interpretação

Use o histograma dos resíduos para determinar se os dados são assimétricos ou se incluem outliers. Os padrões na seguinte tabela pode indicar que o modelo não atende as suposições de modelo.
Padrão O que o padrão pode indicar
Uma longa cauda em uma direção Assimetria
Uma barra que está longe das outras barras Um outlier

Como a aparência de um histograma depende do número de intervalos usado para agrupar os dados, não use um histograma para avaliar a normalidade dos resíduos. Em vez disso, use um gráfico de probabilidade normal. Um histograma é mais eficaz quando você tem aproximadamente 20 ou mais pontos de dados. Se a amostra é muito pequena, então cada barra no histograma não contém pontos de dados suficientes para confiavelmente mostrar assimetria ou outliers.

Este histograma dos resíduos padronizados revela um padrão simétrico, em formato de sino, indicando que os resíduos não estão assimétricos e que não há outliers.

Gráficos de probabilidade normal de resíduos

O gráfico de probabilidade normal dos resíduos mostra os resíduos padronizados versus seus valores esperados quando a distribuição é normal.

Interpretação

Use o gráfico de probabilidade normal de resíduos para verificar a pressuposição de que os resíduos são distribuídos normalmente. O gráfico de probabilidade normal dos resíduos deve seguir aproximadamente uma linha reta.

Os seguintes padrões violam o pressuposto de que os resíduos são normalmente distribuídos.

A curva S sugere uma distribuição com caudas longas.

A curva S invertida sugere uma distribuição com caudas curtas.

A curva descendente implica uma distribuição assimétrica à direita.

Alguns pontos situados longe da linha sugerem uma distribuição com outliers.

Se você vir um padrão não-normal, use os outros gráficos residuais para verificar outros problemas com o modelo, tais como termos faltantes ou um efeito de ordem de tempo. Se os resíduos não seguirem uma distribuição normal, os intervalos de confiança e os valores-p podem ser inexatos.

Resíduos versus ajustes

Os gráficos de resíduos versus ajustes representam os resíduos padronizados no eixo-y e os valores ajustados no eixo-x.

Interpretação

Use o gráfico de resíduos versus ajustes para verificar a pressuposição de que os resíduos são aleatoriamente distribuídos e têm variância constante. De maneira ideal, os pontos devem cair aleatoriamente em ambos os lados de 0, sem padrões reconhecíveis nos pontos.

Os padrões na seguinte tabela podem indicar que o modelo não atende às suposições do modelo.
Padrão O que o padrão pode indicar
Dispersão grande ou irregular de resíduos entre valores ajustados Variância não constante
Curvilíneo Um termo de ordem mais alta ausente
Um ponto que está distante de zero Um outlier
Um ponto que é distante dos outros pontos na direção x Um ponto influente
Os gráficos a seguir mostram um outlier e uma violação do pressuposto de que a variância dos resíduos é constante.
Gráfico com outlier

Um dos pontos é muito maior do que todos os outros pontos. Portanto, a questão é um outlier. Se houver muitos outliers, o modelo pode não ser aceitável. Você deve tentar identificar a causa de todos os outliers. Corrija os erros de entrada de dados ou de medição. Considere a remoção de valores de dados que estejam associados a eventos anormais que ocorrem somente uma vez (causas especiais). Em seguida, repita a análise.

Gráfico com variância não constante

A variância dos resíduos aumenta com os valores ajustados. Observe que, como o valor dos ajustes aumenta, a dispersão entre os resíduos se torna mais ampla. Este padrão indica que as variâncias dos resíduos são desiguais (não constante).

Gráfico de resíduos versus leverage

O gráfico de resíduos versus leverage é um diagrama de dispersão dos resíduos padronizados versus o leverage de cada observação.

Interpretação

Use o gráfico de resíduos versus leverage para identificar outliers e pontos de leverage.
  • Outliers: as observações com resíduos padronizados maiores que +/- 2, que se encontram fora das linhas de referência horizontais no gráfico.
  • Pontos de leverage: observações com valores de leverage superior a 2m / n, em que m = número de componentes e n = o número de observações, que são considerados extremos. Eles têm pontuações de x distantes de zero e estão à direita da linha de referência vertical, que está localizada no valor 2m / N no eixo x. Se 2m / n for maior que um, a linha de referência não aparece em seu gráfico, porque os valores de leverage estão sempre entre 0 e 1.x
Nesse gráfico, as amostras 41 e 42 são pontos de leverage, indicados por sua posição à direita da linha vertical. As amostras de soja 27, 18 e 39 são outliers, indicados por sua posição acima e abaixo das linhas de referência horizontais. A amostra 39 também é um outlier no gráfico resíduos versus ajustes.

Resíduos versus ordem

O gráfico de resíduos versus ordem mostra os resíduos padronizados na ordem em que os dados foram coletados.

Interpretação

Use o gráfico de resíduos versus ordem para verificar o pressuposto de que os resíduos são independentes um do outro. Resíduos independentes não mostram tendências nem padrões quando exibidos em ordem temporal. Os padrões nos pontos podem indicar que os resíduos próximos uns dos outros podem ser correlacionados e, portanto, não são independentes. De maneira ideal, os resíduos no gráfico devem cair aleatoriamente em torno da linha central:
Se você vir um padrão, investigue a causa. Os seguintes tipos de padrões podem indicar que os resíduos são dependentes.
Tendência
Deslocamento
Ciclo

Gráfico de escores

O gráfico de escores é um gráfico de dispersão dos escores-x dos primeiro e segundo componentes do modelo.

Interpretação

Se os primeiros dois componentes explicarem a maioria da variância nas preditoras, a configuração dos pontos neste gráfico reflete de perto a configuração multidimensional original dos seus dados. Para verificar quanta variância nas preditoras o modelo explica, examine os valores de variância-x na tabela Seleção e Validação do Modelo. Se o valor da variância-x for alto, o modelo explica a variância da significância nas preditoras.

Ao examinar este gráfico, procure as seguintes coisas:
  • Pontos de leverage: pontos que estão longe da maioria dos pontos do gráfico podem ser pontos de leverage e podem ter um efeito significativo nos resultados.
  • Agrupamentos: Pontos que se agrupam podem indicar duas ou mais distribuições separadas em seus dados, que podem ser descritos melhor por diferentes modelos.
Neste gráfico, usar a Função Brush no gráfico de escores revela que as amostras de soja 36, 38, 40, 41 e 42 nos quadrantes inferiores podem ter altos valores de leverage. Diversas dessas amostras apareceram como outliers ou pontos de leverage em outros gráficos. Como os dois primeiros componentes descrevem 99% da variância nas preditoras, este gráfico representa adequadamente os dados.
Observação

Se o seu modelo contiver mas de dois componentes, você pode querer representar graficamente os escores-x de outros componentes usando a Gráfico de dispersão. Para fazer isso, armazene a matriz de escores-x e depois copie a matriz para colunas usando Dados > Copiar > Matriz para Colunas. Se seu modelo tiver somente um componente, este gráfico não aparecerá em sua saída.

Gráfico de escores 3D

O gráfico de escores 3D é um gráfico de dispersão tridimensional dos escores-x dos primeiro, segundo e terceiro componentes do modelo. Se os primeiros três componentes explicarem a maioria da variância nas preditoras, a configuração dos pontos neste gráfico reflete de perto a configuração multidimensional original dos seus dados. Para verificar quanta variância o modelo explica, examine os valores de variância-x na tabela Seleção e Validação do Modelo. Se o valor da variância-x for alto, o modelo explica a variância da significância nas preditoras.

Interpretação

Ao examinar o gráfico de escores 3D, procure as seguintes coisas:
  • Pontos de leverage: pontos que estão longe da maioria dos pontos do gráfico podem ser pontos de leverage e podem ter um efeito significativo nos resultados.
  • Agrupamentos: Pontos que se agrupam podem indicar duas ou mais distribuições separadas em seus dados, que podem ser descritos melhor por diferentes modelos.

Você também deve usar as ferramentas de gráfico 3D, que lhe permitirão rotacionar o gráfico para que você possa visualizá-lo de diferentes perspectivas. Isso lhe dará uma imagem mais completa dos seus dados e permitirá identificar com mais exatidão os pontos de leverage e clusters de pontos.

Ao girar este gráfico de escores 3D, parece que a amostra de soja 42 pode ser um ponto de leverage por causa de seu escore extremo do segundo componente. A Amostra 42 foi identificada como um ponto de leverage potencial em outros gráficos.

Gráfico de cargas fatoriais

O gráfico de cargas fatoriais é um gráfico de dispersão das preditoras projetadas para o primeiro e o segundo componentes do modelo. Ele mostra as cargas fatoriais-x do segundo componente representadas contra as cargas fatoriais-x do primeiro componente. Cada ponto, representa uma preditora, está conectado a (0,0) no gráfico.

Interpretação

O gráfico de cargas fatoriais mostra quão importante são as preditoras para os primeiros dois componentes e é particularmente útil quando suas preditoras estão em diferentes escalas. Se os componentes explicarem a maioria da variância-x, que é mostrada na tabela Seleção do modelo e validação, o gráfico de cargas fatoriais indica quão importantes são as preditoras no espaço-x. Quando considerarem a importância das preditoras no modelo inteiro, você também deverá considerar quanta variância os componentes explicam as respostas. Para confirmar isso, examine os valores R2 e R2 preditos na Seleção de Modelo e Validação.

Ao examinar este gráfico, procure as seguintes coisas:
  • Os ângulos entre as linhas, que representam a correlação entre as preditoras. Ângulos menores indicam que as preditoras estão altamente correlacionadas.
  • As preditoras com linhas mais longas, que têm maiores cargas fatoriais no primeiro e segundo componentes e são mais importantes no modelo.
Este gráfico de cargas fatoriais mostra que as preditoras estão altamente correlacionadas, porque os ângulos entre as linhas são pequenos. As linhas têm quase o mesmo comprimento, indicando que as preditoras são igualmente importantes. No primeiro componente, as preditoras têm cargas fatoriais negativas similares, indicando que elas são igualmente importantes. No segundo componente, as primeiras três preditoras têm cargas fatoriais absolutas maiores do que as restantes.
Observação

Se o seu modelo contiver mas de dois componentes, você pode querer representar graficamente as cargas de x de outros componentes usando a Gráfico de dispersão. Para fazer isso, armazene a matriz de cargas fatoriais-x e depois copie a matriz para colunas usando Dados > Copiar > Matriz para Colunas.

Gráfico de resíduos X

O gráfico X de resíduos é um gráfico de linhas dos resíduos-x versus as preditoras. Cada linha representa uma observação e tem vários pontos conforme ela tem preditoras.

Interpretação

Use o gráfico da matriz de resíduos-x para identificar observações ou preditoras que o modelo descreve de forma insuficiente. Este gráfico é muito útil com preditoras que estão na mesma escala.

Idealmente, as linhas no gráfico devem estar mais próximas juntas e próximas de zero.
  • Quando as linhas estão espaçadas no mesmo ponto no eixo-x, o modelo descreve de forma insuficiente a preditora naquele ponto.
  • Quando uma linha no gráfico se desvia das outras linhas, o modelo descreve de forma insuficiente a observação representada por aquela linha.

Use o gráfico da matriz dos resíduos-x para examinar padrões nos resíduos e identificar áreas onde existem problemas. Depois, examine os resíduos-x exibidos na saída para determinar quais observações e preditoras o modelo descreve de forma insuficiente.

Este gráfico de resíduos-x mostra que os resíduos estão próximos de zero, o que indica que o modelo descreve a maior parte da variância nas preditoras. Com esses valores de resíduos-x tão pequenos, você não pode detectar observações ou preditoras que o modelo não descreve bem.

Gráfico X calculado

O gráfico X calculado é um gráficos de linhas dos valores-x calculados versus as preditoras. Cada linha representa uma observação e tem tantos pontos quanto preditoras.

Interpretação

Use este gráfico para identificar observações ou preditoras que o modelo descreve de forma insuficiente. Este gráfico é muito útil com preditoras que estão na mesma escala.

O gráfico X calculado complementa o gráfico x de resíduos. A soma de ambos os gráficos resulta em um gráfico dos valores de preditora original. Uma preditora com valores x calculados que são muito menores ou maiores do que os valores-x originais não é bem descrito pelo modelo.

Neste gráfico, a maioria dos valores-x calculados está muito perto dos valores originais da preditora, indicando que o modelo descreve a maior parte da variância nas preditoras.