Voimmeko käyttää PCA: ta sekä ennusteiden että Vastemuuttujien vähentämiseen?

annoin äskettäin ilmaisen webinaarin pääkomponenttien analysoinnista. Paikalla oli lähes 300 tutkijaa, jotka eivät selvinneet kaikista kysymyksistä. Tämä on osa vastausten sarjaa näihin kysymyksiin.

jos se jäi näkemättä, pääset webinaarin nauhoitukseen tästä.

kysymys: Voimmeko käyttää PCA: ta sekä ennusteiden että vastemuuttujien vähentämiseen?

itse asiassa oli muutamia toisiinsa liittyviä mutta erillisiä kysymyksiä tuloksena olevien komponenttipisteiden käyttämisestä ja tulkitsemisesta, joten vastaan niihin yhdessä täällä.

sanotaan, että haluaisin tulkita regressiotuloksiani alkuperäisten tietojen perusteella, mutta ne piileskelevät PCAs: n alla. Mikä on paras tulkinta, jonka voimme tehdä tässä tapauksessa?

vastaus:

joten kyllä, PCA: n pointti on vähentää muuttujia — luoda indeksipistemuuttuja, joka on optimaalisesti painotettu yhdistelmä korreloivista muuttujista.

ja kyllä, voit käyttää tätä indeksimuuttujaa joko Ennustaja-tai vastemuuttujana.

sitä käytetään usein ratkaisuna predikaattorimuuttujien monisolineaarisuuteen regressiomallissa. Sen sijaan sisällyttää useita korreloivat ennustajat, joista mikään ei ole merkittävä, jos voit yhdistää ne käyttämällä PCA, sitten käyttää sitä.

sitä käytetään myös ratkaisuna, jotta vältetään paisunut familywise tyypin I virhe, joka aiheutuu saman analyysin suorittamisesta useilla korreloivilla tulosmuuttujilla. Yhdistä korreloivat tulokset käyttäen PCA, sitten käyttää, että yhden tuloksen muuttuja. (Tämä on muuten, mitä MANOVA tekee).

kummassakaan tapauksessa yksittäisiä muuttujia ei voi enää tulkita.

saatat haluta, mutta et voi.

käytetään webinaarissa käytettyä esimerkkiä. Tässä esimerkissä perimmäisenä tutkimuskysymyksenä oli eri nisäkäslajien odotettavissa olevan eliniän ennustaminen. Havaitsimme, että meillä oli joukko korreloivia ennustavia muuttujia: paino, altistuminen nukkuessa, tuntia unta päivässä, ja arvio siitä, kuinka herkkä eläin on saalistukselle.

nämä neljä muuttujaa ovat selvästi hyvin erillisiä käsitteitä. Haluamme ehkä pystyä ymmärtämään ja tulkitsemaan painon ja eliniän välistä suhdetta.

ja Saatamme haluta erikseen ymmärtää unen aikaisen altistuksen ja eliniän välisen suhteen.

ne ovat käsitteellisesti erilaisia.

tästä aineistosta niitä ei kuitenkaan voi täysin erottaa toisistaan. Painon vaikutusta elinikään ei voi täysin eristää, jos ne korreloivat liikaa.

ajattele asiaa — jos kaikki seeprat ja biisonit nukkuvat ulkona ja painavat paljon ja lepakot ja päästäiset nukkuvat suljetuissa tiloissa ja painavat vain vähän, ei painoa voi erottaa unialtistuksesta tietokokonaisuudessaan.

ja PCA: ssamme totesimme, että näiden neljän muuttujan vaikutuksia ei todellakaan ole mahdollista erottaa toisistaan. Selitämme suurimman osan näiden neljän muuttujan tiedoista vain yhdessä indeksissä.

joten yhdistetty indeksimuuttujamme on se, mitä meidän on tulkittava. Jos käy ilmi, että korkea tämä yhdistetty muuttuja ennustaa pidempi elinikä, sinun täytyy tulkita regressio tuotos tällä tavalla.

pääkomponenttianalyysi
tiivistää monien muuttujien yleisen vaihtelun… vain muutamaksi. Opi 5 vaiheet suorittaa tärkein komponentti analyysi ja miten se eroaa tekijä analyysi.

Vastaa

Sähköpostiosoitettasi ei julkaista.