Putem folosi APC pentru reducerea atât a predictorilor, cât și a variabilelor de răspuns?

am dat recent un webinar gratuit pe analiza componentelor principale. Am avut aproape 300 de cercetători care au participat și nu au trecut prin toate întrebările. Aceasta face parte dintr-o serie de răspunsuri la aceste întrebări.

dacă ați ratat-o, puteți obține înregistrarea webinarului aici.

întrebare: putem folosi PCA pentru reducerea atât a predictorilor, cât și a variabilelor de răspuns?

de fapt, au existat câteva întrebări legate, dar separate, despre utilizarea și interpretarea scorurilor componentelor rezultate, așa că le voi răspunde împreună aici.

să spunem că aș dori să interpretez rezultatele mele de regresie în termeni de date originale, dar acestea se ascund sub PCAs. Care este cea mai bună interpretare pe care o putem face în acest caz?

răspuns:

deci da, punctul PCA este de a reduce variabilele — creați o variabilă de scor index care este o combinație optim ponderată a unui grup de variabile corelate.

și da, puteți utiliza această variabilă index fie ca predictor, fie ca variabilă de răspuns.

este adesea folosit ca soluție pentru multicolinearitate între variabilele predictoare într-un model de regresie. În loc să includeți mai mulți predictori corelați, dintre care niciunul nu este semnificativ, dacă le puteți combina folosind PCA, atunci folosiți asta.

este, de asemenea, utilizat ca o soluție pentru a evita eroarea de tip I familywise umflată cauzată de rularea aceleiași analize pe mai multe variabile de rezultat corelate. Combinați rezultatele corelate folosind PCA, apoi utilizați-le ca variabilă de rezultat unic. (Acest lucru este, întâmplător, ceea ce face MANOVA).

în ambele cazuri, nu mai puteți interpreta variabilele individuale.

poate doriți, dar nu puteți.

să folosim exemplul pe care l-am folosit în webinar. În acest exemplu, întrebarea finală de cercetare a fost despre prezicerea duratei de viață așteptate a diferitelor specii de mamifere. Am descoperit că am avut un set de variabile predictoare corelate: greutate, expunere în timpul somnului, ore de somn pe zi și o evaluare a cât de vulnerabil este animalul la prădare.

aceste patru variabile sunt în mod clar concepte foarte distincte. Este posibil să dorim să înțelegem și să interpretăm relația dintre greutate și durata de viață.

și este posibil să dorim să înțelegem separat relația dintre expunerea în timpul somnului și durata de viață.

sunt conceptual diferite.

chiar și așa, în acest set de date, nu puteți distinge în întregime între ele. Nu puteți izola în totalitate efectul greutății asupra duratei de viață dacă acestea sunt prea corelate.

gândiți — vă-dacă toate zebrele și bizonii dorm în aer liber și cântăresc mult, iar liliecii și scorpii dorm în spații închise și cântăresc puțin, atunci nu puteți separa greutatea de expunerea la somn în setul dvs. de date.

și în APC-ul nostru am spus că nu este cu adevărat posibil să separăm efectele acestor patru variabile. Explicăm majoritatea informațiilor din aceste patru variabile într-un singur index.

deci variabila noastră index combinată este ceea ce trebuie să interpretăm. Dacă se dovedește că a fi ridicat pe această variabilă combinată prezice o durată de viață mai lungă, trebuie să interpretați ieșirea de regresie în acest fel.

analiza componentelor principale
rezumă variația comună în multe variabile… în doar câteva. Aflați cei 5 pași pentru a efectua o analiză a componentelor principale și modurile în care aceasta diferă de analiza factorilor.

Lasă un răspuns

Adresa ta de email nu va fi publicată.