Kan vi bruge PCA til at reducere både forudsigere og Responsvariabler?

jeg gav for nylig en gratis hjemmeside på Principal Component Analysis. Vi havde næsten 300 forskere til stede og kom ikke igennem alle spørgsmålene. Dette er en del af en række svar på disse spørgsmål.

hvis du gik glip af det, kan du få indspilningen her.

spørgsmål: kan vi bruge PCA til at reducere både forudsigere og responsvariabler?

faktisk var der et par relaterede, men separate spørgsmål om brug og fortolkning af de resulterende komponentscore, så jeg besvarer dem sammen her.

lad os sige, at jeg gerne vil fortolke mine regressionsresultater med hensyn til originale data, men de gemmer sig under PCAs. Hvad er den bedste fortolkning, vi kan gøre i dette tilfælde?

svar:

så ja, pointen med PCA er at reducere variabler — oprette en indeks score variabel, der er en optimalt vægtet kombination af en gruppe af korrelerede variabler.

og ja, du kan bruge denne indeksvariabel som enten en forudsigelse eller svarvariabel.

det bruges ofte som en løsning til multikollinearitet blandt forudsigelsesvariabler i en regressionsmodel. I stedet for at inkludere flere korrelerede forudsigere, hvoraf ingen er signifikante, hvis du kan kombinere dem ved hjælp af PCA, så brug det.

det bruges også som en løsning for at undgå oppustet familievis Type i-fejl forårsaget af at køre den samme analyse på flere korrelerede resultatvariabler. Kombiner de korrelerede resultater ved hjælp af PCA, og brug det derefter som den enkelte resultatvariabel. (Dette er i øvrigt, hvad MANOVA gør).

i begge tilfælde kan du ikke længere fortolke de enkelte variabler.

du vil måske, men det kan du ikke.

lad os bruge det eksempel, vi brugte på nettet. I dette eksempel handlede det ultimative forskningsspørgsmål om at forudsige den forventede levetid for forskellige pattedyrarter. Vi fandt ud af, at vi havde et sæt korrelerede forudsigelsesvariabler: vægt, eksponering mens du sover, timers søvn om dagen og en vurdering af, hvor sårbart dyret er for rovdyr.

disse fire variabler er klart meget forskellige begreber. Vi vil måske være i stand til at forstå og fortolke forholdet mellem vægt og levetid.

og vi vil måske separat forstå forholdet mellem eksponering under søvn og levetid.

de er konceptuelt forskellige.

alligevel kan du i dette datasæt ikke helt skelne mellem dem. Du kan ikke helt isolere effekten af vægt på levetiden, hvis de er for korrelerede.

tænk over det — hvis alle sebras og bison sover ude i det fri og vejer meget, og flagermus og skruer sover i lukkede rum og vejer lidt, kan du ikke adskille vægt fra søvneksponering i dit datasæt.

og i vores PCA sagde vi, det er virkelig ikke muligt at adskille virkningerne af disse fire variabler. Vi forklarer de fleste af oplysningerne i disse fire variabler i kun et indeks.

så vores kombinerede indeksvariabel er, hvad vi skal fortolke. Hvis det viser sig, at det at være højt på denne kombinerede variabel forudsiger længere levetid, skal du fortolke din regressionsoutput på den måde.

Hovedkomponentanalyse
opsummerer fælles variation i mange variabler… ind i nogle få. Lær de 5 trin til at gennemføre en Hovedkomponentanalyse og de måder, den adskiller sig fra faktoranalyse.

Skriv et svar

Din e-mailadresse vil ikke blive publiceret.