O que é validação cruzada?

A validação cruzada calcula a capacidade preditiva dos modelos potenciais para ajudá-lo a determinar o número apropriado de componentes para reter em seu modelo. A validação cruzada é melhor se você não souber o número ideal de componentes. Quando os dados contêm variáveis de resposta múltipla, o Minitab valida os componentes para todas as respostas ao mesmo tempo.

Métodos de validação cruzada

O Minitab pode executar três métodos de validação cruzada diferentes:
Excluir um
Calcula modelos potenciais excluindo uma observação de cada vez. Para grandes conjuntos de dados, esse método pode demorar muito, porque ele recalcula os modelos tantas vezes quanto o número de observações.
Deixar grupo fora do tamanho
Calcula os modelos excluindo várias observações de cada vez, reduzindo o número de vezes que o modelo é recalculado. Esse método é mais adequado para grandes conjuntos de dados.
Excluir como especificado na coluna
Calcula os modelos, excluindo, ao mesmo tempo, as observações que têm números semelhantes na coluna de identificador de grupo, que você cria na worksheet. Este método permite especificar quais observações são omitidas juntas. Por exemplo, se a coluna identificadora de grupo incluir os números 1, 2 e 3, todas as observações com 1 são omitidas juntas e o modelo é recalculado. Depois, todas as observações com 2 são omitidas e o modelo é recalculado e assim por diante. Neste caso, o modelo é recalculado um total de 3 vezes. A coluna de identificador de grupo deve ter o mesmo comprimento que suas colunas de resposta e de preditor e não pode conter valores ausentes.

Procedimento de validação cruzada

Para cada modelo potencial, o Minitab:
  1. Omite uma observação ou grupo de observações, dependendo do método de validação cruzada.
  2. Recalcula o modelo sem a observação/grupos de observações.
  3. Prediz a resposta ou o valor ajustado da validação cruzada para a observação/grupo de observações omitido usando-se o modelo recalculado e calcula o valor residual da validação cruzada.
  4. Repete as etapas 1 a 3 até que todas as observações tenham sido omitidas e ajustadas.
  5. Calcula a soma de quadrados predita (PRESS) e os valores R2 preditos.

Após efetuar as etapas 1 - 5 para cada modelo, o Minitab seleciona o modelo com o menor número de componentes que produza o maior R 2 e o menor PRESS predito. Com variáveis de resposta múltipla, o Minitab seleciona o modelo com o maior R2 médio predito e o menor PRESS médio.

Se você não usar validação cruzada, o Minitab define o número de componentes como 10 ou o número de preditores no modelo, o que for menor.

Estatísticas de validação cruzada

Quando você faz validação cruzada, o Minitab exibe uma tabela de sumário adicional que inclui as seguintes estatísticas:
Valores ajustados validados cruzados

Na regressão do PLS, o valor ajustado da validação cruzada é a resposta predita para cada observação em seu conjunto de dados, calculado individualmente, portanto, a observação pode ser excluída do modelo usado para calcular a resposta predita para aquela observação. Os valores ajustados da validação cruzada são calculados durante a validação cruzada e variam com base em quantas observações são omitidas cada vez que o modelo é recalculado.

Use valores ajustados da validação cruzada para identificar quão bem seu modelo prediz os dados. Os valores ajustados da validação cruzada são similares aos valores ordinários ajustados, que identificam quão bem seu modelo se ajusta aos dados.

Resíduos da validação cruzada

Na regressão do PLS, os resíduos da validação cruzada são as diferenças entre os valores reais das respostas e os valores ajustados da validação cruzada. O valor dos resíduos da validação cruzada está baseado em quantas observações são omitidas cada vez que o modelo é recalculado durante a validação cruzada.

Os resíduos medem a capacidade preditiva do modelo. O Minitab usa resíduos da validação cruzada para calcular a estatística PRESS.