Ejemplo para los sujetos con 1 en X hay 3 valores de Y: 2, 3 y 4. Por lo tanto, la media condicional de Y dado X=1 es 3
La (co) variación general de Y respecto a X se puede expresar en una ecuación de la recta = modelo de regresión
Para obtener la “mejor recta” se utiliza la estimación de mínimos cuadrados (EMC, o OLS – Ordinary Least Squares), que minimiza la suma de los cuadrados de las distancias entre las observaciones y la recta en el eje vertical
ˆY=b0+b1X
Donde
ˆY es el valor estimado de Y
b0 es el intercepto de la recta (el valor de Y cuando X es 0)
b1 es el coeficiente de regresión, que nos dice cuánto aumenta Y por cada punto que aumenta X
b1=Cov(XY)VarX
b1=∑ni=1(xi−ˉx)(yi−ˉy)n−1∑ni=1(xi−ˉx)(xi−ˉx)n−1
Y simplificando
b1=∑ni=1(xi−ˉx)(yi−ˉy)∑ni=1(xi−ˉx)(xi−ˉx)
Luego despejando el valor de b0
b0=ˉY−b1ˉX
Se estima mediante el método de mínimos cuadrados ordinarios (OLS)
Permite estimar el valor de una variable ( ˆY ) a partir del valor conocido de otra variable ( X )
La estimación se expresa en el coeficiente de regresión b1, también llamado "beta" o pendiente
Este coeficiente se interpreta de la siguiente manera: Por cada unidad que aumenta X, Y aumenta en b1 unidades
Si tenemos
Y = ingreso al egresar de la universidad
X = puntaje PSU
Ingreso=200.000+400(puntajePSU)
Si tenemos
Y = ingreso al egresar de la universidad
X = puntaje PSU
Ingreso=200.000+400(puntajePSU)
1 - ¿Cuál es el valor estimado de Ingreso para un puntaje PSU de 500?
Si tenemos
Y = ingreso al egresar de la universidad
X = puntaje PSU
Ingreso=200.000+400(puntajePSU)
1 - ¿Cuál es el valor estimado de Ingreso para un puntaje PSU de 500?
Si tenemos
Y = ingreso al egresar de la universidad
X = puntaje PSU
Ingreso=200.000+400(puntajePSU)
1 - ¿Cuál es el valor estimado de Ingreso para un puntaje PSU de 500?
2 - ¿Cuál es el valor estimado de Ingreso para un puntaje (hipotético) de PSU=0?
Si tenemos
Y = ingreso al egresar de la universidad
X = puntaje PSU
Ingreso=200.000+400(puntajePSU)
1 - ¿Cuál es el valor estimado de Ingreso para un puntaje PSU de 500?
2 - ¿Cuál es el valor estimado de Ingreso para un puntaje (hipotético) de PSU=0?
A partir del método de Mínimos Cuadrador Ordinarios,obtenemos una recta que describe un conjunto de datos minimizando las diferencias entre el modelo ajustado a los datos y los datos mismos.
No obstante, incluso cuando se ajusta el mejor modelo puede existir cierta imprecisión, la cual es representada por las diferencias entre los datos observados y los valores predichos por la recta de regresión.
La imprecisión implica evaluar la Bondad de Ajuste y se evalua a partir del estadístico R2.
El ajuste se relaciona con la diferencia entre los puntajes observados ( Y ) y el puntaje estimado ( ˆY )
## id juegos puntos estimado residuo## 1 1 0 2 2.5 -0.5## 2 2 0 3 2.5 0.5## 3 3 1 2 3.0 -1.0## 4 4 1 3 3.0 0.0## 5 5 1 4 3.0 1.0## 6 6 2 2 3.5 -1.5## 7 7 2 3 3.5 -0.5## 8 8 2 4 3.5 0.5## 9 9 2 5 3.5 1.5## 10 10 3 2 4.0 -2.0## 11 11 3 3 4.0 -1.0## 12 12 3 4 4.0 0.0## 13 13 3 5 4.0 1.0## 14 14 3 6 4.0 2.0## 15 15 4 3 4.5 -1.5## 16 16 4 4 4.5 -0.5## 17 17 4 5 4.5 0.5## 18 18 4 6 4.5 1.5## 19 19 5 4 5.0 -1.0## 20 20 5 5 5.0 0.0## 21 21 5 6 5.0 1.0## 22 22 6 5 5.5 -0.5## 23 23 6 6 5.5 0.5
## id juegos puntos estimado residuo## 1 1 0 2 2.5 -0.5## 2 2 0 3 2.5 0.5## 3 3 1 2 3.0 -1.0## 4 4 1 3 3.0 0.0## 5 5 1 4 3.0 1.0## 6 6 2 2 3.5 -1.5## 7 7 2 3 3.5 -0.5## 8 8 2 4 3.5 0.5## 9 9 2 5 3.5 1.5## 10 10 3 2 4.0 -2.0## 11 11 3 3 4.0 -1.0## 12 12 3 4 4.0 0.0## 13 13 3 5 4.0 1.0## 14 14 3 6 4.0 2.0## 15 15 4 3 4.5 -1.5## 16 16 4 4 4.5 -0.5## 17 17 4 5 4.5 0.5## 18 18 4 6 4.5 1.5## 19 19 5 4 5.0 -1.0## 20 20 5 5 5.0 0.0## 21 21 5 6 5.0 1.0## 22 22 6 5 5.5 -0.5## 23 23 6 6 5.5 0.5
ˆY=b0+b1X
Y=b0+b1X+e
Donde
X = puntaje observado juegos
Y = puntaje observado puntos
ˆY = puntaje estimado puntos
b0= intercepto
b1= coeficiente de regresión de juegos
e = residuo
Y = Valor observado de Y
ˆY = estimación de Y a partir de X
ˉY = promedio de Y
Y=ˉY+(Y−ˆY)+(ˆY−ˉY)
Y=ˉY+(Y−ˆY)+(ˆY−ˉY)
Σ(yi−ˉy)2=Σ(ˉy−ˆyi)2+Σ(yi−ˆyi)2
Conceptualmente:
SStot=SSreg+SSerror
Por lo tanto:
SStot=SSreg+SSerror
Por lo tanto:
SStot=SSreg+SSerror
SStotSStot=SSregSStot+SSerrorSStot
Por lo tanto:
SStot=SSreg+SSerror
SStotSStot=SSregSStot+SSerrorSStot
1=SSregSStot+SSerrorSStot
SSregSStot=1−SSerrorSStot=R2
## id juegos puntos estimado residuo## 1 1 0 2 2.5 -0.5## 2 2 0 3 2.5 0.5## 3 3 1 2 3.0 -1.0## 4 4 1 3 3.0 0.0## 5 5 1 4 3.0 1.0## 6 6 2 2 3.5 -1.5## 7 7 2 3 3.5 -0.5## 8 8 2 4 3.5 0.5## 9 9 2 5 3.5 1.5## 10 10 3 2 4.0 -2.0## 11 11 3 3 4.0 -1.0## 12 12 3 4 4.0 0.0## 13 13 3 5 4.0 1.0## 14 14 3 6 4.0 2.0## 15 15 4 3 4.5 -1.5## 16 16 4 4 4.5 -0.5## 17 17 4 5 4.5 0.5## 18 18 4 6 4.5 1.5## 19 19 5 4 5.0 -1.0## 20 20 5 5 5.0 0.0## 21 21 5 6 5.0 1.0## 22 22 6 5 5.5 -0.5## 23 23 6 6 5.5 0.5
## id juegos puntos estimado residuo## 1 1 0 2 2.5 -0.5## 2 2 0 3 2.5 0.5## 3 3 1 2 3.0 -1.0## 4 4 1 3 3.0 0.0## 5 5 1 4 3.0 1.0## 6 6 2 2 3.5 -1.5## 7 7 2 3 3.5 -0.5## 8 8 2 4 3.5 0.5## 9 9 2 5 3.5 1.5## 10 10 3 2 4.0 -2.0## 11 11 3 3 4.0 -1.0## 12 12 3 4 4.0 0.0## 13 13 3 5 4.0 1.0## 14 14 3 6 4.0 2.0## 15 15 4 3 4.5 -1.5## 16 16 4 4 4.5 -0.5## 17 17 4 5 4.5 0.5## 18 18 4 6 4.5 1.5## 19 19 5 4 5.0 -1.0## 20 20 5 5 5.0 0.0## 21 21 5 6 5.0 1.0## 22 22 6 5 5.5 -0.5## 23 23 6 6 5.5 0.5
ss_tot<- sum((datos$puntos- mean(datos$puntos))^2); ss_tot
## [1] 42
ss_reg<- sum((datos$estimado - mean(datos$puntos))^2); ss_reg
## [1] 17
ss_reg/ss_tot
## [1] 0.4047619
#Directamente desde el modelo estimadosummary(lm(puntos~juegos, data=datos))$r.squared
## [1] 0.4047619
Un 40% de la varianza en los puntos obtenidos en el juego se relaciona con la (varianza de) experiencia previa en juegos
Correlación (Pearson) entre juegos y puntos ( r )
cor(datos$juegos,datos$puntos)
## [1] 0.636209
-- Correlación entre juegos y puntos al cuadrado
(cor(datos$juegos,datos$puntos))^2
## [1] 0.4047619
Es decir: r2 es R2
ZXi=Xi−ˉXsX;ZYi=Yi−ˉYsY
attach(datos)Xpuntos_Z=(puntos-(mean(puntos)))/sd(puntos)Yjuegos_Z=(juegos-(mean(juegos)))/sd(juegos)lm(Yjuegos_Z ~ Xpuntos_Z)$coefficients
## (Intercept) Xpuntos_Z ## 0.000000 0.636209
cor(juegos,puntos)
## [1] 0.636209
cor(puntos,juegos)
## [1] 0.636209
lm(puntos~juegos)$coefficients
## (Intercept) juegos ## 2.5 0.5
lm(juegos~puntos)$coefficients
## (Intercept) puntos ## -0.2380952 0.8095238
Correlación es libre de la escala, regresión depende de la escala
Keyboard shortcuts
↑, ←, Pg Up, k | Go to previous slide |
↓, →, Pg Dn, Space, j | Go to next slide |
Home | Go to first slide |
End | Go to last slide |
Number + Return | Go to specific slide |
b / m / f | Toggle blackout / mirrored / fullscreen mode |
c | Clone slideshow |
p | Toggle presenter mode |
t | Restart the presentation timer |
?, h | Toggle this help |
Esc | Back to slideshow |