Můžeme použít PCA pro snížení prediktorů i proměnných odezvy?

nedávno jsem poskytl bezplatný webinář o analýze hlavních komponent. Zúčastnilo se nás téměř 300 vědců a nedostali jsme se přes všechny otázky. Toto je součást řady odpovědí na tyto otázky.

pokud jste to zmeškali, můžete získat záznam webináře zde.

otázka: můžeme použít PCA pro snížení prediktorů i proměnných odezvy?

ve skutečnosti bylo několik souvisejících, ale samostatných otázek týkajících se použití a interpretace výsledných skóre komponent, takže na ně odpovím společně zde.

řekněme, že bych chtěl interpretovat své regresní výsledky z hlediska původních dat, ale skrývají se pod PCAs. Jaký je nejlepší výklad, který můžeme v tomto případě udělat?

odpověď:

takže ano, bod PCA je snížit proměnné-vytvořit proměnnou indexového skóre, která je optimálně váženou kombinací skupiny korelovaných proměnných.

a ano, tuto proměnnou indexu můžete použít buď jako prediktor, nebo jako proměnnou odezvy.

často se používá jako řešení multicolinearity mezi prediktorovými proměnnými v regresním modelu. Spíše než zahrnout více korelovaných prediktorů, žádný z nich není významný, pokud je můžete kombinovat pomocí PCA, pak to použijte.

používá se také jako řešení, aby se zabránilo nafouknutí chyby familywise typu I způsobené spuštěním stejné analýzy na více korelovaných výsledných proměnných. Zkombinujte korelované výsledky pomocí PCA a poté je použijte jako jedinou proměnnou výsledku. (To je mimochodem to, co MANOVA dělá).

v obou případech již nelze interpretovat jednotlivé proměnné.

možná budete chtít, ale nemůžete.

Použijme příklad, který jsme použili ve webináři. V tomto příkladu, konečná výzkumná otázka byla o předpovídání očekávané délky života různých druhů savců. Zjistili jsme, že máme sadu korelovaných prediktorových proměnných: hmotnost, expozice během spánku, hodiny spánku denně a hodnocení toho, jak zranitelné je zvíře vůči predaci.

tyto čtyři proměnné jsou jasně velmi odlišné pojmy. Možná budeme chtít být schopni porozumět a interpretovat vztah mezi váhou a délkou života.

a možná budeme chtít samostatně porozumět vztahu mezi expozicí během spánku a životností.

jsou koncepčně odlišné.

přesto v této datové sadě nemůžete mezi nimi úplně rozlišit. Nemůžete úplně izolovat vliv hmotnosti na životnost, pokud jsou příliš korelované.

Přemýšlejte o tom — pokud všechny zebry a bizoni spí venku a hodně váží a netopýři a rejsci spí v uzavřených prostorech a váží málo, pak nemůžete oddělit váhu od expozice spánku ve vaší datové sadě.

a v našem PCA jsme řekli, že opravdu není možné oddělit účinky těchto čtyř proměnných. Většinu informací v těchto čtyřech proměnných vysvětlujeme pouze v jednom indexu.

takže naše kombinovaná indexová proměnná je to, co musíme interpretovat. Pokud se ukáže, že vysoká hodnota této kombinované proměnné předpovídá delší životnost, musíte interpretovat svůj regresní výstup tímto způsobem.

Analýza hlavních komponent
shrnuje běžné variace v mnoha proměnných… jen do několika. Naučte se 5 kroků k provedení analýzy hlavních komponent a způsobů, jak se liší od analýzy faktorů.

Napsat komentář

Vaše e-mailová adresa nebude zveřejněna.