Podemos usar PCA para reduzir preditores e variáveis de resposta?
recentemente, dei um webinar gratuito sobre Análise de componentes principais. Tivemos quase 300 pesquisadores presentes e não conseguimos passar por todas as perguntas. Isso faz parte de uma série de respostas a essas perguntas.
se você perdeu, você pode obter a gravação do webinar aqui.
pergunta: podemos usar PCA para reduzir preditores e variáveis de resposta?
na verdade, havia algumas perguntas relacionadas, mas separadas, sobre como usar e interpretar as pontuações dos componentes resultantes, então vou respondê-las juntas aqui.Digamos que eu gostaria de interpretar meus resultados de regressão em termos de dados originais, mas eles estão escondidos sob PCAs. Qual é a melhor interpretação que podemos fazer neste caso?
resposta:
portanto, sim, o objetivo do PCA é reduzir variáveis — crie uma variável de pontuação de índice que seja uma combinação ponderada de um grupo de variáveis correlacionadas.
e sim, você pode usar essa variável de índice como preditor ou variável de resposta.
é frequentemente usado como uma solução para multicolinearidade entre variáveis preditoras em um modelo de regressão. Em vez de incluir vários preditores correlacionados, nenhum dos quais é significativo, se você puder combiná-los usando PCA, use isso.
também é usado como uma solução para evitar o erro inflado do tipo I do familywise causado pela execução da mesma análise em várias variáveis de resultado correlacionadas. Combine os resultados correlacionados usando PCA e use isso como a variável de resultado único. (Isso é, aliás, o que MANOVA faz).
em ambos os casos, você não pode mais interpretar as variáveis individuais.
você pode querer, mas não pode.
vamos usar o exemplo que usamos no webinar. Neste exemplo, a questão final da pesquisa foi sobre a previsão da expectativa de vida de diferentes espécies de mamíferos. Descobrimos que tínhamos um conjunto de variáveis preditoras correlacionadas: peso, exposição durante o sono, horas de sono por dia e uma classificação de quão vulnerável o animal é à predação.
essas quatro variáveis são claramente conceitos muito distintos. Podemos querer ser capazes de entender e interpretar a relação entre peso e vida útil.
e podemos querer entender separadamente a relação entre a exposição durante o sono e a vida útil.
eles são conceitualmente diferentes.
mesmo assim, neste conjunto de dados, você não pode distinguir inteiramente entre eles. Você não pode isolar totalmente o efeito do peso na vida útil se eles estiverem muito correlacionados.
pense nisso – se todas as zebras e bisões dormem ao ar livre e pesam muito e os morcegos e musaranhos dormem em espaços fechados e pesam pouco, então você não pode separar o peso da exposição ao sono em seu conjunto de dados.
e em nosso PCA dissemos, realmente não é possível separar os efeitos dessas quatro variáveis. Explicamos a maioria das informações nessas quatro variáveis em apenas um índice.
portanto, nossa variável de índice combinada é o que temos que interpretar. Se descobrir que estar no alto dessa variável combinada prevê uma vida útil mais longa, você deve interpretar sua saída de regressão dessa maneira.
