Können wir PCA verwenden, um sowohl Prädiktoren als auch Antwortvariablen zu reduzieren?

Ich habe kürzlich ein kostenloses Webinar zur Hauptkomponentenanalyse gegeben. Wir hatten fast 300 Forscher anwesend und kamen nicht durch alle Fragen. Dies ist Teil einer Reihe von Antworten auf diese Fragen.

Wenn Sie es verpasst haben, können Sie die Webinar-Aufzeichnung hier erhalten.

Frage: Können wir PCA verwenden, um sowohl Prädiktoren als auch Antwortvariablen zu reduzieren?

Tatsächlich gab es einige verwandte, aber separate Fragen zur Verwendung und Interpretation der resultierenden Komponentenscores, daher werde ich sie hier gemeinsam beantworten.

Nehmen wir an, ich möchte meine Regressionsergebnisse in Bezug auf Originaldaten interpretieren, aber sie verstecken sich unter PCAs. Was ist die beste Interpretation, die wir in diesem Fall tun können?

Antwort:

Also ja, der Sinn von PCA ist es, Variablen zu reduzieren — erstellen Sie eine Index-Score-Variable, die eine optimal gewichtete Kombination einer Gruppe korrelierter Variablen ist.

Und ja, Sie können diese Indexvariable entweder als Prädiktor oder als Antwortvariable verwenden.

Es wird häufig als Lösung für die Multikollinearität zwischen Prädiktorvariablen in einem Regressionsmodell verwendet. Anstatt mehrere korrelierte Prädiktoren einzuschließen, von denen keiner signifikant ist, verwenden Sie diese, wenn Sie sie mit PCA kombinieren können.

Es wird auch als Lösung verwendet, um einen Familywise Typ I-Fehler zu vermeiden, der durch Ausführen derselben Analyse für mehrere korrelierte Ergebnisvariablen verursacht wird. Kombinieren Sie die korrelierten Ergebnisse mit PCA und verwenden Sie diese dann als einzelne Ergebnisvariable. (Das ist übrigens, was MANOVA tut).

In beiden Fällen können Sie die einzelnen Variablen nicht mehr interpretieren.

Vielleicht möchten Sie, aber Sie können nicht.

Lassen Sie uns das Beispiel verwenden, das wir im Webinar verwendet haben. In diesem Beispiel war die ultimative Forschungsfrage die Vorhersage der erwarteten Lebensdauer verschiedener Säugetierarten. Wir fanden heraus, dass wir eine Reihe korrelierter Prädiktorvariablen hatten: Gewicht, Exposition während des Schlafens, Schlafstunden pro Tag und eine Bewertung, wie anfällig das Tier für Raubtiere ist.

Diese vier Variablen sind eindeutig sehr unterschiedliche Konzepte. Vielleicht möchten wir in der Lage sein, die Beziehung zwischen Gewicht und Lebensdauer zu verstehen und zu interpretieren.

Und wir möchten vielleicht die Beziehung zwischen der Exposition während des Schlafes und der Lebensdauer separat verstehen.

Sie sind konzeptionell anders.

Trotzdem können Sie in diesem Datensatz nicht vollständig zwischen ihnen unterscheiden. Sie können den Effekt des Gewichts auf die Lebensdauer nicht vollständig isolieren, wenn sie zu korreliert sind.

Denken Sie darüber nach — wenn alle Zebras und Bisons im Freien schlafen und viel wiegen und die Fledermäuse und Spitzmäuse in geschlossenen Räumen schlafen und wenig wiegen, können Sie das Gewicht nicht von der Schlafexposition in Ihrem Datensatz trennen.

Und in unserer PCA haben wir gesagt, dass es wirklich nicht möglich ist, die Auswirkungen dieser vier Variablen zu trennen. Wir erklären die meisten Informationen in diesen vier Variablen in nur einem Index.

Unsere kombinierte Indexvariable ist also das, was wir interpretieren müssen. Wenn sich herausstellt, dass ein hoher Wert dieser kombinierten Variablen eine längere Lebensdauer vorhersagt, müssen Sie Ihre Regressionsausgabe auf diese Weise interpretieren.

Hauptkomponentenanalyse
Fassen Sie häufige Variationen in vielen Variablen zusammen… in nur wenige. Lernen Sie die 5 Schritte zur Durchführung einer Hauptkomponentenanalyse und die Unterschiede zur Faktorenanalyse kennen.

Schreibe einen Kommentar

Deine E-Mail-Adresse wird nicht veröffentlicht.