Processing math: 100%
+ - 0:00:00
Notes for current slide
Notes for next slide








Estadística multivariada, 1 sem. 2019

Juan Carlos Castillo & Alejandro Plaza

Sesión 4: Regresión simple 2

`

Contenidos

1. Repaso de sesión anterior

2. Ajuste y residuos

3. Correlación y Regresión

`

1. Repaso sesión anterior

`

Idea de distribución condicional

`

Ejemplo para los sujetos con 1 en X hay 3 valores de Y: 2, 3 y 4. Por lo tanto, la media condicional de Y dado X=1 es 3

La recta de regresión

La (co) variación general de Y respecto a X se puede expresar en una ecuación de la recta = modelo de regresión

Para obtener la “mejor recta” se utiliza la estimación de mínimos cuadrados (EMC, o OLS – Ordinary Least Squares), que minimiza la suma de los cuadrados de las distancias entre las observaciones y la recta en el eje vertical

`

Componentes de la ecuación de la recta de regresión

ˆY=b0+b1X

Donde

  • ˆY es el valor estimado de Y

  • b0 es el intercepto de la recta (el valor de Y cuando X es 0)

  • b1 es el coeficiente de regresión, que nos dice cuánto aumenta Y por cada punto que aumenta X

`

Estimación de los coeficientes de la ecuación por mínimos cuadrados ordinarios

b1=Cov(XY)VarX

b1=ni=1(xiˉx)(yiˉy)n1ni=1(xiˉx)(xiˉx)n1

Y simplificando

b1=ni=1(xiˉx)(yiˉy)ni=1(xiˉx)(xiˉx)

Luego despejando el valor de b0

b0=ˉYb1ˉX

`

Resumiendo: Modelo de regresión (simple)

  • Se estima mediante el método de mínimos cuadrados ordinarios (OLS)

  • Permite estimar el valor de una variable ( ˆY ) a partir del valor conocido de otra variable ( X )

  • La estimación se expresa en el coeficiente de regresión b1, también llamado "beta" o pendiente

  • Este coeficiente se interpreta de la siguiente manera: Por cada unidad que aumenta X, Y aumenta en b1 unidades

`

Modelos y pendientes

`

Pregunta

Si tenemos

  • Y = ingreso al egresar de la universidad

  • X = puntaje PSU

Ingreso=200.000+400(puntajePSU)

`

Pregunta

Si tenemos

  • Y = ingreso al egresar de la universidad

  • X = puntaje PSU

Ingreso=200.000+400(puntajePSU)

1 - ¿Cuál es el valor estimado de Ingreso para un puntaje PSU de 500?

`

Pregunta

Si tenemos

  • Y = ingreso al egresar de la universidad

  • X = puntaje PSU

Ingreso=200.000+400(puntajePSU)

1 - ¿Cuál es el valor estimado de Ingreso para un puntaje PSU de 500?

  • 400.000
`

Pregunta

Si tenemos

  • Y = ingreso al egresar de la universidad

  • X = puntaje PSU

Ingreso=200.000+400(puntajePSU)

1 - ¿Cuál es el valor estimado de Ingreso para un puntaje PSU de 500?

  • 400.000

2 - ¿Cuál es el valor estimado de Ingreso para un puntaje (hipotético) de PSU=0?

`

Pregunta

Si tenemos

  • Y = ingreso al egresar de la universidad

  • X = puntaje PSU

Ingreso=200.000+400(puntajePSU)

1 - ¿Cuál es el valor estimado de Ingreso para un puntaje PSU de 500?

  • 400.000

2 - ¿Cuál es el valor estimado de Ingreso para un puntaje (hipotético) de PSU=0?

  • 200.000
`

PREGUNTAS

`

2. Ajuste y residuos

`

Bondad de Ajuste: suma de cuadrados y R2

¿Qué tan bueno es nuestro modelo?

`

Bondad de Ajuste: suma de cuadrados y R2

¿Qué tan bueno es nuestro modelo?

`

A partir del método de Mínimos Cuadrador Ordinarios,obtenemos una recta que describe un conjunto de datos minimizando las diferencias entre el modelo ajustado a los datos y los datos mismos.

No obstante, incluso cuando se ajusta el mejor modelo puede existir cierta imprecisión, la cual es representada por las diferencias entre los datos observados y los valores predichos por la recta de regresión.

La imprecisión implica evaluar la Bondad de Ajuste y se evalua a partir del estadístico R2.

Observados, estimados & residuos

El ajuste se relaciona con la diferencia entre los puntajes observados ( Y ) y el puntaje estimado ( ˆY )

`

Ajuste y Residuos

## id juegos puntos estimado residuo
## 1 1 0 2 2.5 -0.5
## 2 2 0 3 2.5 0.5
## 3 3 1 2 3.0 -1.0
## 4 4 1 3 3.0 0.0
## 5 5 1 4 3.0 1.0
## 6 6 2 2 3.5 -1.5
## 7 7 2 3 3.5 -0.5
## 8 8 2 4 3.5 0.5
## 9 9 2 5 3.5 1.5
## 10 10 3 2 4.0 -2.0
## 11 11 3 3 4.0 -1.0
## 12 12 3 4 4.0 0.0
## 13 13 3 5 4.0 1.0
## 14 14 3 6 4.0 2.0
## 15 15 4 3 4.5 -1.5
## 16 16 4 4 4.5 -0.5
## 17 17 4 5 4.5 0.5
## 18 18 4 6 4.5 1.5
## 19 19 5 4 5.0 -1.0
## 20 20 5 5 5.0 0.0
## 21 21 5 6 5.0 1.0
## 22 22 6 5 5.5 -0.5
## 23 23 6 6 5.5 0.5
`

Ajuste y Residuos

## id juegos puntos estimado residuo
## 1 1 0 2 2.5 -0.5
## 2 2 0 3 2.5 0.5
## 3 3 1 2 3.0 -1.0
## 4 4 1 3 3.0 0.0
## 5 5 1 4 3.0 1.0
## 6 6 2 2 3.5 -1.5
## 7 7 2 3 3.5 -0.5
## 8 8 2 4 3.5 0.5
## 9 9 2 5 3.5 1.5
## 10 10 3 2 4.0 -2.0
## 11 11 3 3 4.0 -1.0
## 12 12 3 4 4.0 0.0
## 13 13 3 5 4.0 1.0
## 14 14 3 6 4.0 2.0
## 15 15 4 3 4.5 -1.5
## 16 16 4 4 4.5 -0.5
## 17 17 4 5 4.5 0.5
## 18 18 4 6 4.5 1.5
## 19 19 5 4 5.0 -1.0
## 20 20 5 5 5.0 0.0
## 21 21 5 6 5.0 1.0
## 22 22 6 5 5.5 -0.5
## 23 23 6 6 5.5 0.5

ˆY=b0+b1X

Y=b0+b1X+e

Donde

  • X = puntaje observado juegos

  • Y = puntaje observado puntos

  • ˆY = puntaje estimado puntos

  • b0= intercepto

  • b1= coeficiente de regresión de juegos

  • e = residuo

`

Descomposición de Y

- Tres piezas de información relevante:

Y = Valor observado de Y

ˆY = estimación de Y a partir de X

ˉY = promedio de Y

`

Descomponiendo Y

`

Descomponiendo Y

Y=ˉY+(YˆY)+(ˆYˉY)

`

Descomponiendo Y

Y=ˉY+(YˆY)+(ˆYˉY)

Σ(yiˉy)2=Σ(ˉyˆyi)2+Σ(yiˆyi)2

`

Descomponiendo Y

Conceptualmente:

SStot=SSreg+SSerror

image

`

Varianza explicada

Por lo tanto:

SStot=SSreg+SSerror

`

Varianza explicada

Por lo tanto:

SStot=SSreg+SSerror

SStotSStot=SSregSStot+SSerrorSStot

`

Varianza explicada

Por lo tanto:

SStot=SSreg+SSerror

SStotSStot=SSregSStot+SSerrorSStot

1=SSregSStot+SSerrorSStot

SSregSStot=1SSerrorSStot=R2


¿Qué quiere decir esto?

`

Varianza explicada I

  • Parte de la variación de Y (ej: ingreso) se asocia a la variación de X (ej: educación)
`

Varianza explicada II

image

  • Un porcentaje de la variación de Y puede ser asociado a la variación de X: R2
`

Volviendo al ejemplo: Puntos en partido

## id juegos puntos estimado residuo
## 1 1 0 2 2.5 -0.5
## 2 2 0 3 2.5 0.5
## 3 3 1 2 3.0 -1.0
## 4 4 1 3 3.0 0.0
## 5 5 1 4 3.0 1.0
## 6 6 2 2 3.5 -1.5
## 7 7 2 3 3.5 -0.5
## 8 8 2 4 3.5 0.5
## 9 9 2 5 3.5 1.5
## 10 10 3 2 4.0 -2.0
## 11 11 3 3 4.0 -1.0
## 12 12 3 4 4.0 0.0
## 13 13 3 5 4.0 1.0
## 14 14 3 6 4.0 2.0
## 15 15 4 3 4.5 -1.5
## 16 16 4 4 4.5 -0.5
## 17 17 4 5 4.5 0.5
## 18 18 4 6 4.5 1.5
## 19 19 5 4 5.0 -1.0
## 20 20 5 5 5.0 0.0
## 21 21 5 6 5.0 1.0
## 22 22 6 5 5.5 -0.5
## 23 23 6 6 5.5 0.5
`

Volviendo al ejemplo: Puntos en partido

## id juegos puntos estimado residuo
## 1 1 0 2 2.5 -0.5
## 2 2 0 3 2.5 0.5
## 3 3 1 2 3.0 -1.0
## 4 4 1 3 3.0 0.0
## 5 5 1 4 3.0 1.0
## 6 6 2 2 3.5 -1.5
## 7 7 2 3 3.5 -0.5
## 8 8 2 4 3.5 0.5
## 9 9 2 5 3.5 1.5
## 10 10 3 2 4.0 -2.0
## 11 11 3 3 4.0 -1.0
## 12 12 3 4 4.0 0.0
## 13 13 3 5 4.0 1.0
## 14 14 3 6 4.0 2.0
## 15 15 4 3 4.5 -1.5
## 16 16 4 4 4.5 -0.5
## 17 17 4 5 4.5 0.5
## 18 18 4 6 4.5 1.5
## 19 19 5 4 5.0 -1.0
## 20 20 5 5 5.0 0.0
## 21 21 5 6 5.0 1.0
## 22 22 6 5 5.5 -0.5
## 23 23 6 6 5.5 0.5
ss_tot<- sum((datos$puntos-
mean(datos$puntos))^2); ss_tot
## [1] 42
ss_reg<- sum((datos$estimado -
mean(datos$puntos))^2); ss_reg
## [1] 17
ss_reg/ss_tot
## [1] 0.4047619
#Directamente desde el modelo estimado
summary(lm(puntos~juegos,
data=datos))$r.squared
## [1] 0.4047619

Un 40% de la varianza en los puntos obtenidos en el juego se relaciona con la (varianza de) experiencia previa en juegos

`

PREGUNTAS

`

3. Correlación y regresión

`

Equivalencias en regresión y correlación

`

Equivalencias en regresión y correlación

R2 y r de Pearson

Correlación (Pearson) entre juegos y puntos ( r )

cor(datos$juegos,datos$puntos)
## [1] 0.636209

-- Correlación entre juegos y puntos al cuadrado

(cor(datos$juegos,datos$puntos))^2
## [1] 0.4047619

Es decir: r2 es R2

`

Equivalencias en regresión y correlación

R2 y r de Pearson

Regresión estandarizada

  • Puntaje estandarizado (o Z): expresado en desviaciones estándar
  • Regresión estandarizada: con puntajes estandarizados

ZXi=XiˉXsX;ZYi=YiˉYsY

attach(datos)
Xpuntos_Z=(puntos-(mean(puntos)))/sd(puntos)
Yjuegos_Z=(juegos-(mean(juegos)))/sd(juegos)
lm(Yjuegos_Z ~ Xpuntos_Z)$coefficients
## (Intercept) Xpuntos_Z
## 0.000000 0.636209
  • b1 estandarizado es equivalente al coeficiente de correlación
`

Diferencias en regresión y correlación

Intercambio

  • La correlación entre X e Y es la misma que entre Y e X
  • La regresión entre X e Y no es la misma que entre Y e X
cor(juegos,puntos)
## [1] 0.636209
cor(puntos,juegos)
## [1] 0.636209
lm(puntos~juegos)$coefficients
## (Intercept) juegos
## 2.5 0.5
lm(juegos~puntos)$coefficients
## (Intercept) puntos
## -0.2380952 0.8095238
`

Diferencias en regresión y correlación

Intercambio

Dependencia de escala

  • Correlación es libre de la escala, regresión depende de la escala

    • Ejemplo: si se investiga relación peso / edad, si cambia la escala de medición del peso, la correlación es la misma pero la regresión es diferente.
`

Diferencias en regresión y correlación

Intercambio

Dependencia de escala

Rango

  • La correlación aumenta con el rango de medición de las variables, no así la regresión

image

  • Ej: Mismo beta, pero mayor correlación en A que en B
`

PREGUNTAS

`








Estadística multivariada, 1 sem. 2019

Juan Carlos Castillo & Alejandro Plaza

Sesión 3: Regresión simple 1

`

Contenidos

1. Repaso de sesión anterior

2. Ajuste y residuos

3. Correlación y Regresión

`
Paused

Help

Keyboard shortcuts

, , Pg Up, k Go to previous slide
, , Pg Dn, Space, j Go to next slide
Home Go to first slide
End Go to last slide
Number + Return Go to specific slide
b / m / f Toggle blackout / mirrored / fullscreen mode
c Clone slideshow
p Toggle presenter mode
t Restart the presentation timer
?, h Toggle this help
Esc Back to slideshow