¿Podemos Usar PCA para Reducir Tanto los Predictores como las Variables de Respuesta?

Recientemente di un seminario web gratuito sobre Análisis de Componentes Principales. Asistimos casi 300 investigadores y no superamos todas las preguntas. Esto es parte de una serie de respuestas a esas preguntas.

Si se lo perdió, puede obtener la grabación del seminario web aquí.

Pregunta: ¿Podemos usar PCA para reducir tanto los predictores como las variables de respuesta?

De hecho, hubo algunas preguntas relacionadas pero separadas sobre el uso y la interpretación de las puntuaciones de los componentes resultantes, así que las responderé juntas aquí.

Digamos que me gustaría interpretar mis resultados de regresión en términos de datos originales, pero se esconden bajo PCA. ¿Cuál es la mejor interpretación que podemos hacer en este caso?

Respuesta:

Así que sí, el objetivo de la PCA es reducir las variables: crear una variable de puntuación de índice que sea una combinación ponderada de forma óptima de un grupo de variables correlacionadas.

Y sí, puede usar esta variable de índice como predictor o variable de respuesta.

A menudo se usa como solución para la multicolinealidad entre variables predictoras en un modelo de regresión. En lugar de incluir varios predictores correlacionados, ninguno de los cuales es significativo, si puede combinarlos usando PCA, use eso.

También se utiliza como una solución para evitar errores inflados de tipo I a nivel familiar causados por ejecutar el mismo análisis en múltiples variables de resultado correlacionadas. Combine los resultados correlacionados utilizando PCA y, a continuación, utilícelos como variable de resultado única. (Esto es, por cierto, lo que hace MANOVA).

En ambos casos, ya no puede interpretar las variables individuales.

Puede que quieras, pero no puedes.

Usemos el ejemplo que usamos en el seminario web. En este ejemplo, la pregunta final de la investigación fue sobre la predicción de la esperanza de vida de diferentes especies de mamíferos. Encontramos que teníamos un conjunto de variables predictoras correlacionadas: peso, exposición mientras dormía, horas de sueño por día y una clasificación de cuán vulnerable es el animal a la depredación.

Estas cuatro variables son conceptos claramente muy distintos. Es posible que queramos ser capaces de entender e interpretar la relación entre el peso y la vida útil.

Y es posible que queramos entender por separado la relación entre la exposición durante el sueño y la vida útil.

son conceptualmente diferentes.

Aun así, en este conjunto de datos, no se puede distinguir completamente entre ellos. No se puede aislar por completo el efecto del peso en la vida útil si están demasiado correlacionados.

Piénselo: si todas las cebras y bisontes duermen al aire libre y pesan mucho, y los murciélagos y musarañas duermen en espacios cerrados y pesan poco, entonces no puede separar el peso de la exposición al sueño en su conjunto de datos.

Y en nuestro PCA dijimos, realmente no es posible separar los efectos de estas cuatro variables. Explicamos la mayor parte de la información de estas cuatro variables en un solo índice.

Así que nuestra variable de índice combinada es lo que tenemos que interpretar. Si resulta que ser alto en esta variable combinada predice una vida útil más larga, debe interpretar su salida de regresión de esa manera.

El análisis de componentes principales
Resume la variación común en muchas variables… en unos pocos. Aprenda los 5 pasos para realizar un Análisis de Componentes Principales y las formas en que difiere del Análisis Factorial.

Deja una respuesta

Tu dirección de correo electrónico no será publicada.