Possiamo usare PCA per ridurre sia i predittori che le variabili di risposta?

Recentemente ho tenuto un webinar gratuito sull’analisi dei componenti principali. Abbiamo partecipato a quasi 300 ricercatori e non abbiamo superato tutte le domande. Questo fa parte di una serie di risposte a queste domande.

Se vi siete persi, è possibile ottenere la registrazione webinar qui.

Domanda: possiamo usare PCA per ridurre sia i predittori che le variabili di risposta?

In effetti, c’erano alcune domande correlate ma separate sull’uso e l’interpretazione dei punteggi dei componenti risultanti, quindi risponderò insieme qui.

Diciamo che vorrei interpretare i miei risultati di regressione in termini di dati originali, ma si nascondono sotto PCAs. Qual è la migliore interpretazione che possiamo fare in questo caso?

Risposta:

Quindi sì, il punto di PCA è ridurre le variabili — creare una variabile di punteggio indice che sia una combinazione ponderata in modo ottimale di un gruppo di variabili correlate.

E sì, è possibile utilizzare questa variabile indice come predittore o variabile di risposta.

Viene spesso utilizzato come soluzione per la multicollinearità tra variabili predittive in un modello di regressione. Piuttosto che includere più predittori correlati, nessuno dei quali è significativo, se è possibile combinarli usando PCA, quindi utilizzarli.

Viene anche utilizzato come soluzione per evitare errori di tipo I di familywise gonfiati causati dall’esecuzione della stessa analisi su più variabili di risultato correlate. Combina i risultati correlati usando PCA, quindi usalo come variabile di risultato singola. (Questo è, per inciso, ciò che fa MANOVA).

In entrambi i casi, non è più possibile interpretare le singole variabili.

Potresti volerlo, ma non puoi.

Usiamo l’esempio che abbiamo usato nel webinar. In questo esempio, l’ultima domanda di ricerca riguardava la previsione della durata della vita prevista di diverse specie di mammiferi. Abbiamo scoperto che avevamo una serie di variabili predittive correlate: peso, esposizione durante il sonno, ore di sonno al giorno e una valutazione di quanto l’animale sia vulnerabile alla predazione.

Queste quattro variabili sono concetti chiaramente molto distinti. Potremmo voler essere in grado di comprendere e interpretare la relazione tra peso e durata della vita.

E potremmo voler comprendere separatamente la relazione tra l’esposizione durante il sonno e la durata della vita.

Sono concettualmente diversi.

Anche così, in questo set di dati, non è possibile distinguere completamente tra loro. Non è possibile isolare completamente l’effetto del peso sulla durata della vita se sono troppo correlati.

Pensaci: se tutte le zebre e i bisonti dormono all’aperto e pesano molto e i pipistrelli e i toporagni dormono in spazi chiusi e pesano poco, allora non puoi separare il peso dall’esposizione al sonno nel tuo set di dati.

E nel nostro PCA abbiamo detto, non è davvero possibile separare gli effetti di queste quattro variabili. Spieghiamo la maggior parte delle informazioni in queste quattro variabili in un solo indice.

Quindi la nostra variabile di indice combinata è ciò che dobbiamo interpretare. Se si scopre che essere in alto su questa variabile combinata prevede una durata di vita più lunga, è necessario interpretare l’output di regressione in questo modo.

Analisi componente principale
Riassumere variazione comune in molte variabili… in pochi. Impara i 5 passaggi per condurre un’analisi dei componenti principali e i modi in cui differisce dall’analisi fattoriale.

Lascia un commento

Il tuo indirizzo email non sarà pubblicato.