Podemos usar PCA para reduzir preditores e variáveis de resposta?

recentemente, dei um webinar gratuito sobre Análise de componentes principais. Tivemos quase 300 pesquisadores presentes e não conseguimos passar por todas as perguntas. Isso faz parte de uma série de respostas a essas perguntas.

se você perdeu, você pode obter a gravação do webinar aqui.

pergunta: podemos usar PCA para reduzir preditores e variáveis de resposta?

na verdade, havia algumas perguntas relacionadas, mas separadas, sobre como usar e interpretar as pontuações dos componentes resultantes, então vou respondê-las juntas aqui.Digamos que eu gostaria de interpretar meus resultados de regressão em termos de dados originais, mas eles estão escondidos sob PCAs. Qual é a melhor interpretação que podemos fazer neste caso?

resposta:

portanto, sim, o objetivo do PCA é reduzir variáveis — crie uma variável de pontuação de índice que seja uma combinação ponderada de um grupo de variáveis correlacionadas.

e sim, você pode usar essa variável de índice como preditor ou variável de resposta.

é frequentemente usado como uma solução para multicolinearidade entre variáveis preditoras em um modelo de regressão. Em vez de incluir vários preditores correlacionados, nenhum dos quais é significativo, se você puder combiná-los usando PCA, use isso.

também é usado como uma solução para evitar o erro inflado do tipo I do familywise causado pela execução da mesma análise em várias variáveis de resultado correlacionadas. Combine os resultados correlacionados usando PCA e use isso como a variável de resultado único. (Isso é, aliás, o que MANOVA faz).

em ambos os casos, você não pode mais interpretar as variáveis individuais.

você pode querer, mas não pode.

vamos usar o exemplo que usamos no webinar. Neste exemplo, a questão final da pesquisa foi sobre a previsão da expectativa de vida de diferentes espécies de mamíferos. Descobrimos que tínhamos um conjunto de variáveis preditoras correlacionadas: peso, exposição durante o sono, horas de sono por dia e uma classificação de quão vulnerável o animal é à predação.

essas quatro variáveis são claramente conceitos muito distintos. Podemos querer ser capazes de entender e interpretar a relação entre peso e vida útil.

e podemos querer entender separadamente a relação entre a exposição durante o sono e a vida útil.

eles são conceitualmente diferentes.

mesmo assim, neste conjunto de dados, você não pode distinguir inteiramente entre eles. Você não pode isolar totalmente o efeito do peso na vida útil se eles estiverem muito correlacionados.

pense nisso – se todas as zebras e bisões dormem ao ar livre e pesam muito e os morcegos e musaranhos dormem em espaços fechados e pesam pouco, então você não pode separar o peso da exposição ao sono em seu conjunto de dados.

e em nosso PCA dissemos, realmente não é possível separar os efeitos dessas quatro variáveis. Explicamos a maioria das informações nessas quatro variáveis em apenas um índice.

portanto, nossa variável de índice combinada é o que temos que interpretar. Se descobrir que estar no alto dessa variável combinada prevê uma vida útil mais longa, você deve interpretar sua saída de regressão dessa maneira.

Análise de Componentes Principais
Resumir variação comum em muitas variáveis… em apenas alguns. Aprenda as 5 etapas para conduzir uma análise de componente Principal e as maneiras pelas quais ela difere da análise fatorial.

Deixe uma resposta

O seu endereço de email não será publicado.