Használhatjuk a PCA-t mind a prediktorok, mind a Válaszváltozók csökkentésére?

nemrég adtam egy ingyenes webináriumot a főkomponens-elemzésről. Majdnem 300 kutató vett részt, és nem sikerült minden kérdést megválaszolnunk. Ez a kérdésekre adott válaszok sorozatának része.

ha lemaradtál róla, itt kaphatod meg a webinar felvételt.

kérdés: használhatjuk-e a PCA-t mind a prediktorok, mind a válaszváltozók csökkentésére?

valójában volt néhány kapcsolódó, de különálló kérdés a kapott komponens pontszámok használatával és értelmezésével kapcsolatban, ezért itt együtt válaszolok rájuk.

tegyük fel, hogy a regressziós eredményeimet az eredeti adatok szempontjából szeretném értelmezni, de ezek a PCA-k alatt rejtőznek. Mi a legjobb értelmezés, amit ebben az esetben tehetünk?

válasz:

tehát igen, a PCA lényege a változók csökkentése — hozzon létre egy index pontszámváltozót, amely a korrelált változók csoportjának optimálisan súlyozott kombinációja.

és igen, használhatja ezt az indexváltozót prediktorként vagy válaszváltozóként.

gyakran használják a multikollinearitás megoldására a prediktor változók között a regressziós modell. Ahelyett, hogy több korrelált prediktort tartalmazna, amelyek közül egyik sem jelentős, ha kombinálhatja őket a PCA használatával, akkor használja ezt.

megoldásként is használják, hogy elkerüljék a felfújt familywise I. típusú hibát, amelyet ugyanazon elemzés futtatása okoz több korrelált eredményváltozón. Kombinálja a korrelált eredményeket a PCA használatával, majd használja ezt egyetlen eredményváltozóként. (Egyébként ez az, amit MANOVA csinál).

mindkét esetben már nem tudja értelmezni az egyes változókat.

érdemes lehet, de nem lehet.

használjuk a webináriumon használt példát. Ebben a példában a végső kutatási kérdés a különböző emlősfajok várható élettartamának előrejelzése volt. Megállapítottuk, hogy van egy sor Korrelált prediktor változónk: súly, alvás közbeni expozíció, napi alvási órák, valamint annak értékelése, hogy az állat mennyire sebezhető a ragadozással szemben.

ez a négy változó egyértelműen nagyon különböző fogalmak. Lehet, hogy képesek vagyunk megérteni és értelmezni a súly és az élettartam közötti kapcsolatot.

és érdemes külön megérteni az alvás közbeni expozíció és az élettartam közötti kapcsolatot.

fogalmilag különböznek egymástól.

ennek ellenére ebben az adatkészletben nem lehet teljesen megkülönböztetni őket. Nem lehet teljesen elkülöníteni a súly hatását az élettartamra, ha túlságosan korrelálnak.

Gondolj bele — ha az összes zebra és bölény a szabadban alszik, és sokat nyom, a denevérek és a cickányok pedig zárt térben alszanak, és keveset nyomnak, akkor az adatkészletben nem lehet elválasztani a súlyt az alvás expozíciójától.

és a PCA-ban azt mondtuk, hogy valójában nem lehet elkülöníteni e négy változó hatásait. A négy változó információinak nagy részét csak egy indexben magyarázzuk el.

tehát a kombinált indexváltozónkat kell értelmeznünk. Ha kiderül, hogy a kombinált változó magas értéke hosszabb élettartamot jósol, akkor a regressziós kimenetet így kell értelmezni.

főkomponens-elemzés
sok változó közös variációját foglalja össze… csak néhányra. Ismerje meg az 5 lépést a főkomponens-elemzés elvégzéséhez és a Faktorelemzéstől való eltéréshez.

Vélemény, hozzászólás?

Az e-mail-címet nem tesszük közzé.