Kan VI Bruke PCA For Å Redusere Både Prediktorer og Responsvariabler?

jeg ga nylig et gratis webinar om Hovedkomponentanalyse. Vi hadde nesten 300 forskere delta og fikk ikke gjennom alle spørsmålene. Dette er en del av en rekke svar på disse spørsmålene.

hvis du gikk glipp av det, kan du få webinaropptak her.

Spørsmål: Kan VI bruke PCA til å redusere både prediktorer og responsvariabler?

faktisk var det noen få relaterte, men separate spørsmål om bruk og tolkning av de resulterende komponentpoengene, så jeg svarer dem sammen her.

La oss si at jeg vil tolke regresjonsresultatene mine når det gjelder originale data, men de gjemmer seg under PCAs. Hva er den beste tolkningen vi kan gjøre i dette tilfellet?

Svar:

så ja, poenget MED PCA er å redusere variabler-opprett en indeksscoringsvariabel som er en optimalt vektet kombinasjon av en gruppe korrelerte variabler.

Og ja, du kan bruke denne indeksvariabelen som enten en prediktor eller responsvariabel.

Det brukes ofte som en løsning for multikollinearitet blant prediktorvariabler i en regresjonsmodell. I stedet for å inkludere flere korrelerte prediktorer, hvorav ingen er signifikante, hvis du kan kombinere DEM ved HJELP AV PCA, bruk det.

Det brukes også som en løsning for å unngå oppblåst familievis Type I-feil forårsaket av å kjøre den samme analysen på flere korrelerte utfallsvariabler. Kombiner de korrelerte resultatene ved HJELP AV PCA, og bruk det som enkelt utfallsvariabel. (Dette er forresten HVA MANOVA gjør).

i begge tilfeller kan du ikke lenger tolke de enkelte variablene.

du vil kanskje, men du kan ikke.

La oss bruke eksemplet vi brukte i webinaret. I dette eksemplet handlet det ultimate forskningsspørsmålet om å forutsi forventet levetid for forskjellige pattedyrarter. Vi fant ut at vi hadde et sett med korrelerte prediktorvariabler: vekt, eksponering mens du sover, søvntid per dag og en vurdering av hvor sårbar dyret er for predasjon.

disse fire variablene er klart veldig forskjellige begreper. Vi vil kanskje kunne forstå og tolke forholdet mellom vekt og levetid.

Og vi vil kanskje separat forstå forholdet mellom eksponering under søvn og levetid.

de er konseptuelt forskjellige.

likevel, i dette datasettet, kan du ikke helt skille mellom dem. Du kan ikke helt isolere effekten av vekt på levetid hvis de er for korrelerte.

Tenk på det – hvis alle zebras og bison sover ute i det åpne og veier mye og flaggermus og shrews sover i lukkede rom og veier lite, så kan du ikke skille ut vekt fra søvneksponering i datasettet ditt.

Og i VÅR PCA sa vi, det er egentlig ikke mulig å skille ut effektene av disse fire variablene. Vi forklarer det meste av informasjonen i disse fire variablene i bare en indeks.

så vår kombinerte indeksvariabel er det vi må tolke. Hvis det viser seg at det å være høyt på denne kombinerte variabelen forutsier lengre levetid, må du tolke regresjonsutgangen din på den måten.

Hovedkomponentanalyse
Oppsummerer vanlig variasjon i mange variabler… inn i bare noen få. Lær de 5 trinnene for å gjennomføre En Hovedkomponentanalyse og måtene den skiller Seg fra Faktoranalyse.

Legg igjen en kommentar

Din e-postadresse vil ikke bli publisert.