予測変数と応答変数の両方を減らすためにPCAを使用できますか?

私は最近、主成分分析に関する無料のウェビナーを与えました。 私たちは約300人の研究者が出席し、すべての質問を通過しませんでした。 これは、これらの質問に対する一連の回答の一部です。

あなたはそれを逃した場合は、ここでウェビナーの記録を得ることができます。質問:予測変数と応答変数の両方を減らすためにPCAを使用できますか?

実際には、結果のコンポーネントスコアの使用と解釈について、いくつかの関連があるが別々の質問があったので、ここで一緒に答えます。回帰結果を元のデータで解釈したいとしましょうが、それらはPcaの下に隠れています。 この場合、私たちができる最善の解釈は何ですか?はい、PCAのポイントは変数を減らすことです—相関変数のグループの最適に重み付けされた組み合わせであるインデックススコア変数を作成します。

はい、このインデックス変数を予測子変数または応答変数として使用できます。

これは、回帰モデルにおける予測子変数間の多重共線性の解としてよく使用されます。 複数の相関予測変数を含めるのではなく、PCAを使用してそれらを組み合わせることができる場合は、それを使用します。

これは、複数の相関結果変数に対して同じ分析を実行することによって引き起こされるファミリーワイズタイプIエラーの膨張を避けるための解 PCAを使用して相関した結果を結合し、それを単一の結果変数として使用します。 (これは、偶然にも、MANOVAが行うことです)。

どちらの場合も、個々の変数を解釈することはできません。

あなたはしたいかもしれませんが、あなたはできません。

ウェビナーで使用した例を使用してみましょう。 この例では、最終的な研究の問題は、異なる哺乳動物種の予想寿命を予測することでした。 私たちは、体重、睡眠中の暴露、1日あたりの睡眠時間、および動物が捕食に対してどれほど脆弱であるかの評価という一連の相関予測変数を持ってい

これらの四つの変数は明らかに非常に異なる概念です。 私たちは、体重と寿命の関係を理解し、解釈できるようにしたいと思うかもしれません。

そして、睡眠中の曝露と寿命の関係を別々に理解したいかもしれません。

それらは概念的に異なっています。

それでも、このデータセットでは、それらを完全に区別することはできません。 それらがあまりにも相関している場合、寿命に対する体重の影響を完全に分離することはできません。

それについて考えてみてください—すべてのシマウマとバイソンがオープンで眠り、多くの重量を量り、コウモリとシュリウシが密閉された空間で眠り、重さが少なければ、データセット内の睡眠暴露から重量を分離することはできません。

そして、私たちのPCAでは、これらの4つの変数の効果を分離することは実際には不可能だと言いました。 これらの4つの変数の情報のほとんどを1つのインデックスで説明します。

だから私たちの結合インデックス変数は、我々が解釈しなければならないものです。 この結合された変数が高くなると寿命が長くなることが判明した場合は、回帰出力をそのように解釈する必要があります。

主成分分析
は、多くの変数の共通の変動を要約します。.. ほんの数に。 主成分分析を実施するための5つのステップと、それが因子分析と異なる方法を学びます。

コメントを残す

メールアドレスが公開されることはありません。