Czy możemy użyć PCA do redukcji zarówno predyktorów, jak i zmiennych odpowiedzi?

niedawno dałem bezpłatne webinarium na temat analizy głównych komponentów. Wzięło w nim udział prawie 300 naukowców i nie udało nam się odpowiedzieć na wszystkie pytania. Jest to część serii odpowiedzi na te pytania.

jeśli to przegapiłeś, możesz pobrać nagranie webinaru tutaj.

pytanie: Czy możemy użyć PCA do redukcji zarówno predyktorów, jak i zmiennych odpowiedzi?

w rzeczywistości było kilka powiązanych, ale osobnych pytań dotyczących używania i interpretacji uzyskanych wyników komponentu, więc odpowiem na nie razem tutaj.

powiedzmy, że chciałbym zinterpretować moje wyniki regresji pod względem oryginalnych danych, ale ukrywają się pod PCA. Jaka jest najlepsza interpretacja, jaką możemy zrobić w tym przypadku?

odpowiedź:

więc tak, celem PCA jest redukcja zmiennych — tworzenie zmiennej score index, która jest optymalnie ważoną kombinacją grupy zmiennych skorelowanych.

i tak, możesz użyć tej zmiennej indeksu jako predyktora lub zmiennej odpowiedzi.

jest często używany jako rozwiązanie dla multicollinearity wśród zmiennych predykcyjnych w modelu regresji. Zamiast zawierać wiele skorelowanych predyktorów, z których żaden nie jest znaczący, jeśli możesz połączyć je za pomocą PCA, użyj tego.

jest również używany jako rozwiązanie, aby uniknąć zawyżonego błędu typu i spowodowanego przeprowadzeniem tej samej analizy na wielu skorelowanych zmiennych wynikowych. Połącz skorelowane wyniki za pomocą PCA, a następnie użyj go jako pojedynczej zmiennej wyników. (To jest, nawiasem mówiąc, to, co robi MANOVA).

w obu przypadkach nie można już interpretować poszczególnych zmiennych.

możesz chcieć, ale nie możesz.

użyjmy przykładu, którego użyliśmy w webinarium. W tym przykładzie ostatecznym pytaniem badawczym było przewidywanie oczekiwanej długości życia różnych gatunków ssaków. Odkryliśmy, że mamy zestaw skorelowanych zmiennych predyktorskich: wagę, ekspozycję podczas snu, godziny snu w ciągu dnia i ocenę podatności zwierzęcia na drapieżnictwo.

te cztery zmienne są wyraźnie bardzo odrębnymi pojęciami. Być może chcemy być w stanie zrozumieć i zinterpretować związek między wagą a długością życia.

i możemy chcieć osobno zrozumieć związek między ekspozycją podczas snu a długością życia.

są koncepcyjnie różne.

mimo to, w tym zestawie danych nie można całkowicie ich rozróżnić. Nie można całkowicie wyizolować wpływ wagi na długość życia, jeśli są one zbyt skorelowane.

pomyśl o tym — jeśli wszystkie zebry i żubry śpią na otwartej przestrzeni i ważą dużo, a nietoperze i ryjówki śpią w zamkniętych pomieszczeniach i ważą niewiele, nie możesz oddzielić wagi od ekspozycji na sen w swoim zestawie danych.

a w naszym PCA powiedzieliśmy, że naprawdę nie jest możliwe oddzielenie efektów tych czterech zmiennych. Większość informacji zawartych w tych czterech zmiennych wyjaśniamy w jednym indeksie.

więc nasza połączona zmienna indeksu jest tym, co musimy zinterpretować. Jeśli okaże się, że wysoka wartość tej zmiennej kombinowanej przewiduje dłuższą żywotność, musisz zinterpretować wynik regresji w ten sposób.

Główna Analiza składowa
Podsumuj wspólną zmienność wielu zmiennych… na kilka. Poznaj 5 kroków do przeprowadzenia analizy głównych komponentów i sposobów, w jakie różni się ona od analizy czynnikowej.

Dodaj komentarz

Twój adres e-mail nie zostanie opublikowany.