Pouvons-Nous utiliser l’APC pour Réduire À la fois les Prédicteurs et les Variables de Réponse?

J’ai récemment donné un webinaire gratuit sur l’analyse en composantes principales. Près de 300 chercheurs étaient présents et nous n’avons pas répondu à toutes les questions. Cela fait partie d’une série de réponses à ces questions.

Si vous l’avez manqué, vous pouvez obtenir l’enregistrement du webinaire ici.

Question: Pouvons-nous utiliser l’ACP pour réduire à la fois les prédicteurs et les variables de réponse?

En fait, il y avait quelques questions connexes mais distinctes sur l’utilisation et l’interprétation des scores des composants résultants, donc je vais y répondre ensemble ici.

Disons que je voudrais interpréter mes résultats de régression en termes de données originales, mais ils se cachent sous les PCAs. Quelle est la meilleure interprétation que nous puissions faire dans ce cas?

Réponse:

Donc oui, le but de l’APC est de réduire les variables — créez une variable de score d’indice qui est une combinaison pondérée de manière optimale d’un groupe de variables corrélées.

Et oui, vous pouvez utiliser cette variable d’index comme variable prédictive ou variable de réponse.

Il est souvent utilisé comme solution pour la multicollinéarité entre les variables prédictives dans un modèle de régression. Plutôt que d’inclure plusieurs prédicteurs corrélés, dont aucun n’est significatif, si vous pouvez les combiner à l’aide de PCA, utilisez-le.

Il est également utilisé comme solution pour éviter une erreur de type I gonflée par la famille causée par l’exécution de la même analyse sur plusieurs variables de résultat corrélées. Combinez les résultats corrélés à l’aide de l’APC, puis utilisez-les comme variable de résultat unique. (C’est d’ailleurs ce que fait MANOVA).

Dans les deux cas, vous ne pouvez plus interpréter les variables individuelles.

Vous voudrez peut-être, mais vous ne pouvez pas.

Utilisons l’exemple que nous avons utilisé dans le webinaire. Dans cet exemple, la question de recherche ultime portait sur la prédiction de la durée de vie prévue de différentes espèces de mammifères. Nous avons constaté que nous avions un ensemble de variables prédictives corrélées: le poids, l’exposition pendant le sommeil, les heures de sommeil par jour et une évaluation de la vulnérabilité de l’animal à la prédation.

Ces quatre variables sont clairement des concepts très distincts. Nous souhaiterions peut-être être en mesure de comprendre et d’interpréter la relation entre le poids et la durée de vie.

Et nous pouvons vouloir comprendre séparément la relation entre l’exposition pendant le sommeil et la durée de vie.

Ils sont conceptuellement différents.

Même ainsi, dans cet ensemble de données, vous ne pouvez pas entièrement les distinguer. Vous ne pouvez pas isoler entièrement l’effet du poids sur la durée de vie s’ils sont trop corrélés.

Pensez—y – si tous les zèbres et les bisons dorment à l’air libre et pèsent beaucoup et que les chauves-souris et les musaraignes dorment dans des espaces clos et pèsent peu, vous ne pouvez pas séparer le poids de l’exposition au sommeil dans votre ensemble de données.

Et dans notre APC, nous avons dit qu’il n’est vraiment pas possible de séparer les effets de ces quatre variables. Nous expliquons la plupart des informations de ces quatre variables dans un seul indice.

Notre variable d’index combinée est donc ce que nous devons interpréter. S’il s’avère qu’être élevé sur cette variable combinée prédit une durée de vie plus longue, vous devez interpréter votre sortie de régression de cette façon.

L’analyse en composantes principales
Résume la variation commune de nombreuses variables… en quelques-uns seulement. Apprenez les 5 étapes pour effectuer une Analyse en Composantes Principales et les différences entre celle-ci et l’Analyse factorielle.

Laisser un commentaire

Votre adresse e-mail ne sera pas publiée.