Kan vi använda PCA för att minska både prediktorer och Responsvariabler?

jag gav nyligen ett gratis webinar om huvudkomponentanalys. Vi hade nästan 300 forskare närvarande och fick inte igenom alla frågor. Detta är en del av en serie svar på dessa frågor.

om du missade det kan du få webinarinspelningen här.

fråga: kan vi använda PCA för att minska både prediktorer och responsvariabler?

faktum är att det fanns några relaterade men separata frågor om att använda och tolka de resulterande komponentpoängen, så jag svarar dem tillsammans här.

låt oss säga att jag skulle vilja tolka mina regressionsresultat när det gäller originaldata, men de gömmer sig under PCA. Vad är den bästa tolkningen som vi kan göra i det här fallet?

svar:

så ja, poängen med PCA är att minska variabler — skapa en indexpoängvariabel som är en optimalt viktad kombination av en grupp korrelerade variabler.

och ja, du kan använda denna indexvariabel som antingen en prediktor eller svarsvariabel.

det används ofta som en lösning för multikollinearitet bland prediktorvariabler i en regressionsmodell. I stället för att inkludera flera korrelerade prediktorer, varav ingen är signifikant, om du kan kombinera dem med PCA, använd sedan det.

det används också som en lösning för att undvika uppblåsta familywise typ i-fel som orsakas av att samma analys körs på flera korrelerade resultatvariabler. Kombinera de korrelerade resultaten med PCA, använd sedan det som den enda resultatvariabeln. (Detta är för övrigt vad MANOVA gör).

i båda fallen kan du inte längre tolka de enskilda variablerna.

du kanske vill, men du kan inte.

Låt oss använda exemplet vi använde i webinariet. I det här exemplet handlade den ultimata forskningsfrågan om att förutsäga den förväntade livslängden för olika däggdjursarter. Vi fann att vi hade en uppsättning korrelerade prediktorvariabler: vikt, exponering medan du sover, timmars sömn per dag och en bedömning av hur sårbart djuret är för predation.

dessa fyra variabler är tydligt mycket distinkta begrepp. Vi kanske vill kunna förstå och tolka förhållandet mellan vikt och livslängd.

och vi kanske vill separat förstå förhållandet mellan exponering under sömn och livslängd.

de är konceptuellt olika.

ändå kan du inte helt skilja mellan dem i den här datamängden. Du kan inte helt isolera effekten av vikt på livslängden om de är för korrelerade.

Tänk på det-om alla zebror och bison sover ute i det fria och väger mycket och fladdermöss och skruvar sover i slutna utrymmen och väger lite, kan du inte skilja ut vikt från sömn exponering i din dataset.

och i vår PCA sa vi att det verkligen inte är möjligt att skilja ut effekterna av dessa fyra variabler. Vi förklarar det mesta av informationen i dessa fyra variabler i bara ett index.

så vår kombinerade indexvariabel är vad vi måste tolka. Om det visar sig att högt på denna kombinerade variabel förutsäger längre livslängd, måste du tolka din regressionsutgång på det sättet.

huvudkomponentanalys
sammanfatta vanlig variation i många variabler… till bara några. Lär dig de 5 stegen för att genomföra en huvudkomponentanalys och hur den skiljer sig från faktoranalys.

Lämna ett svar

Din e-postadress kommer inte publiceras.