Processing math: 55%
+ - 0:00:00
Notes for current slide
Notes for next slide








Estadística multivariada, 1 sem. 2019

Juan Carlos Castillo & Alejandro Plaza

Sesión 5 : Regresión múltiple 1

`

Contenidos

1. Repaso de sesión anterior

2. Introducción a regresión múltiple

3. Control estadístico y estimación de coeficientes

`

1. Repaso sesión anterior

`

Componentes de la ecuación de la recta de regresión

ˆY=b0+b1X

Donde

  • ˆY es el valor estimado de Y

  • b0 es el intercepto de la recta (el valor de Y cuando X es 0)

  • b1 es el coeficiente de regresión, que nos dice cuánto aumenta Y por cada punto que aumenta X

`

Resumiendo: Modelo de regresión (simple)

  • Se estima mediante el método de mínimos cuadrados ordinarios (OLS)

  • Permite estimar el valor de una variable ( ˆY ) a partir del valor conocido de otra variable ( X )

  • La estimación se expresa en el coeficiente de regresión b1, también llamado "beta" o pendiente

  • Este coeficiente se interpreta de la siguiente manera: Por cada unidad que aumenta X, Y aumenta en b1 unidades

`

Descomponiendo Y

Conceptualmente:

SStot=SSreg+SSerror

image

`

Varianza explicada II

image

  • Un porcentaje de la variación de Y puede ser asociado a la variación de X: R2
`

Resumen regresión simple ... hasta ahora


- Coeficiente de regresión por mínimos cuadrados: permite predecir en cuántas unidades aumenta Y por cada punto de aumento en X

- El valor del beta de regresión nos informa sobre una magnitud y sentido de la pendiente, no sobre la bondad (ajuste) del modelo

- El ajuste del modelo a los datos se relaciona con la proporción de residuos generados por el modelo respecto de la varianza total de Y (R2)

`

PREGUNTAS

`

2. Introducción a regresión múltiple

`

Definiciones

En simple: modelo de regresión con más de un predictor o variable independiente

image

`

Agregando predictores al modelo

image

\widehat{Ingreso}=b_0+b_1(Educación)

`

Agregando predictores al modelo

image

\widehat{Ingreso}=b_0+b_1(Educación)

\widehat{Ingreso}= b_0+b_1(Educación)+b_2(Experiencia)

`
  • Tenemos un modelo teórico que relaciona ingreso con nivel educacional: a mayor ingreso, mayor nivel educacional.
  • Esto puede expresarse en un modelo de regresión
  • Qué sucede si nos surge la pregunta sobre la posibilidad de que otras variables también tienen que ver con ingreso?
  • Se puede agregar una tercera variable al modelo, pero: ¿qué consecuencias teóricas y empíricas tiene esto?

Agregando predictores al modelo

  • Teóricamente el modelo asume covariación entre Ingreso y Educación, y entre Ingreso y Experiencia

    • Pero ... también existe la posibilidad de covariación entre los predictores Educación y Experiencia
  • La covariación de los predictores y su consideración en el modelo se relaciona con el control estadístico

`

Concepto de control

1. Control por diseño

  • Característico de la metodología experimental

  • El control se logra por diseño mediante aleatorización (al azar) de sujetos a diferentes situaciones experimentales

  • La distribución al azar a diferentes situaciones (ej: tratamiento y control) intenta aislar el efecto del tratamiento de todas las otras variables que podrían afectar en la respuesta

`

Concepto de control

2. Control estadístico

  • Al analizar datos de encuestas no tenemos (en principio) control por diseño, por lo que se recurre al control estadístico

  • Se logra incluyendo en el modelo de regresión las variables que teóricamente podrían dar cuenta o afectar la relación entre X e Y.

  • La inclusión de otras (co)variables despeja o "controla" la asociación de X_1 e Y, aislando el efecto conjunto de X_1 y X_2 (... y X_n)

`

Control estadístico

  • ¿Qué efecto posee el nivel educacional en ingreso, controlando por experiencia?

Conceptualmente:

  • aislar el efecto de educación en ingreso, manteniendo la experiencia constante.

  • estimar el efecto de educación en ingreso independiente del efecto de la experiencia

  • estimación del efecto de ingreso en educación ceteris paribus (manteniendo el efecto del resto de los predictores constante)

`

POR LO TANTO

Un aspecto clave de la regresión múltiple, tanto conceptual como estadísticamente, tiene que ver con el control de la CORRELACION ENTRE PREDICTORES O VARIABLES INDEPENDIENTES (X)

`

Estimación de parámetros y control

Ejemplo 1: sin correlación relevante entre predictores

`

Estimación de parámetros y control

Ejemplo 1: sin correlación relevante entre predictores

Matriz de correlaciones:

m1=cor(rdata1)
round(m1, digits=2)
## ingreso educacion experiencia
## ingreso 1.00 0.36 0.28
## educacion 0.36 1.00 -0.02
## experiencia 0.28 -0.02 1.00
`

Estimación de parámetros y control

Ejemplo 1: sin correlación relevante entre predictores

library(corrplot)
corrplot.mixed(m1, number.cex=6, tl.cex=4)

`

Estimación de parámetros y control

Ejemplo 1: sin correlación relevante entre predictores

Model 1 Model 2 Model 3
(Intercept) -0.15 -0.15 -0.16
(0.09) (0.10) (0.09)
educacion 0.40*** 0.40***
(0.10) (0.10)
experiencia 0.30** 0.31**
(0.10) (0.10)
R2 0.13 0.08 0.21
Adj. R2 0.12 0.07 0.20
Num. obs. 100 100 100
RMSE 0.94 0.97 0.90
***p < 0.001, **p < 0.01, *p < 0.05
`

Estimación de parámetros y control

Ejemplo 2: con correlación entre predictores

`

Estimación de parámetros y control

Ejemplo 2: con correlación entre predictores

Matriz de correlaciones:

m2=cor(rdata2)
round(m2, digits=2)
## ingreso educacion experiencia
## ingreso 1.00 0.48 0.47
## educacion 0.48 1.00 0.29
## experiencia 0.47 0.29 1.00
`

Estimación de parámetros y control

Ejemplo 2: con correlación entre predictores

library(corrplot)
corrplot.mixed(m2,number.cex=6, tl.cex=4)

`

Estimación de parámetros y control

Ejemplo 2: con correlación entre predictores

Model 1 Model 2 Model 3
(Intercept) -0.15 -0.14 -0.14
(0.09) (0.09) (0.08)
educacion 0.52*** 0.40***
(0.10) (0.09)
experiencia 0.50*** 0.39***
(0.10) (0.09)
R2 0.23 0.22 0.35
Adj. R2 0.22 0.21 0.33
Num. obs. 100 100 100
RMSE 0.89 0.89 0.82
***p < 0.001, **p < 0.01, *p < 0.05
`

Estimación de parámetros y control estadístico

  • Los coeficientes de regresión (X) no alteran su valor en los modelos en ausencia de correlación entre ellos (Ejemplo 1)

  • Si hay correlación entre predictores, el valor de los coeficientes de regresión será distinto en modelos simples y en modelos múltiples

  • Por ello, en regresión múltiple se habla de coeficientes de regresión parciales

  • Esta diferencia se relaciona con el concepto de control estadístico

    • Ejemplo 2, modelo 3: El ingreso aumenta en 0.4 puntos por cada nivel adicional de educación, controlando por experiencia. O también ...

      • manteniendo la experiencia constante

      • ceteris paribus

`

Resumen

  • Regresión múltiple: más de un predictor / variable independiente en el modelo

  • Permite

    • contrastar hipótesis de la influencia simultánea de más de una variable

    • controlar por la posible influencia de terceras variables (control estadístico)

  • La estimación de los coeficientes de regresión en el caso múltiple se distingue de la simple porque considera la posible correlación entre predictores

`











Estadística multivariada, 1 sem. 2019

Juan Carlos Castillo & Alejandro Plaza

`

Contenidos

1. Repaso de sesión anterior

2. Introducción a regresión múltiple

3. Control estadístico y estimación de coeficientes

`
Paused

Help

Keyboard shortcuts

, , Pg Up, k Go to previous slide
, , Pg Dn, Space, j Go to next slide
Home Go to first slide
End Go to last slide
Number + Return Go to specific slide
b / m / f Toggle blackout / mirrored / fullscreen mode
c Clone slideshow
p Toggle presenter mode
t Restart the presentation timer
?, h Toggle this help
Esc Back to slideshow