Kunnen we PCA gebruiken voor het verminderen van zowel voorspellers als Responsvariabelen?

onlangs gaf ik een gratis webinar over de analyse van hoofdcomponenten. We hadden bijna 300 onderzoekers aanwezig en kwamen niet door alle vragen. Dit is onderdeel van een reeks antwoorden op die vragen.

als u het gemist hebt, kunt u de webinar opname hier krijgen.

vraag: Kunnen we PCA gebruiken voor het verminderen van zowel voorspellers als responsvariabelen?

in feite waren er een paar verwante maar aparte vragen over het gebruik en interpreteren van de resulterende componentscores, dus Ik zal ze hier samen beantwoorden.

stel dat ik mijn regressieresultaten wil interpreteren in termen van originele gegevens, maar ze verbergen zich onder PCA ‘ s. Wat is de beste interpretatie die we in dit geval kunnen doen?

antwoord:

dus ja, het punt van PCA is om variabelen te verminderen-Creëer een index score variabele die een optimaal gewogen combinatie is van een groep van gecorreleerde variabelen.

en ja, u kunt deze indexvariabele gebruiken als voorspeller of als responsvariabele.

het wordt vaak gebruikt als oplossing voor multicollineariteit onder voorspellende variabelen in een regressiemodel. In plaats van meerdere gecorreleerde voorspellers op te nemen, waarvan er geen significant is, als je ze kunt combineren met behulp van PCA, gebruik dat dan.

het wordt ook gebruikt als een oplossing om opgeblazen familywise type I fout veroorzaakt door het uitvoeren van dezelfde analyse op meerdere gecorreleerde outcome variabelen te voorkomen. Combineer de gecorreleerde uitkomsten met behulp van PCA, gebruik dat dan als de single outcome variabele. (Dit is overigens wat MANOVA doet).

in beide gevallen kunt u de individuele variabelen niet meer interpreteren.

u wilt misschien wel, maar u kunt niet.

laten we het voorbeeld gebruiken dat we in het webinar hebben gebruikt. In dit voorbeeld ging de ultieme onderzoeksvraag over het voorspellen van de verwachte levensduur van verschillende zoogdiersoorten. We ontdekten dat we een aantal gecorreleerde voorspellende variabelen hadden: gewicht, blootstelling tijdens het slapen, uren slaap per dag, en een classificatie van hoe kwetsbaar het dier is voor predatie.

deze vier variabelen zijn duidelijk zeer verschillende begrippen. We willen misschien de relatie tussen gewicht en levensduur begrijpen en interpreteren.

en we willen misschien afzonderlijk de relatie tussen blootstelling tijdens de slaap en de levensduur begrijpen.

ze zijn conceptueel verschillend.

toch kunt u in deze gegevensverzameling geen volledig onderscheid maken. Je kunt het effect van gewicht op de levensduur niet volledig isoleren als ze te gecorreleerd zijn.

denk er eens over na — als alle zebra ‘ s en bizons buiten slapen en veel wegen en de vleermuizen en spitsmuizen slapen in afgesloten ruimtes en weinig wegen, dan kunt u het gewicht niet scheiden van de blootstelling aan slaap in uw dataset.

en in onze PCA zeiden we dat het echt niet mogelijk is om de effecten van deze vier variabelen te scheiden. We verklaren de meeste informatie in deze vier variabelen in slechts één index.

dus onze gecombineerde indexvariabele is wat we moeten interpreteren. Als blijkt dat hoog zijn op deze gecombineerde variabele een langere levensduur voorspelt, moet je je regressie-output op die manier interpreteren.

analyse van hoofdcomponenten
geeft een samenvatting van de veel voorkomende variatie in vele variabelen… in slechts een paar. Leer de 5 stappen om een Hoofdcomponentanalyse uit te voeren en de manieren waarop deze verschilt van factoranalyse.

Geef een antwoord

Het e-mailadres wordt niet gepubliceerd.