Explanandum: el fenómeno que predentemos explicar (precisión, relevancia y variabilidad).
Explanans: lo que genera la aparición del fenómeno (lógica, eficacia y claridad.)
σ2=∑Ni=1(xi−ˉx)2N−1
ID | Pje (x) | x−ˉx | (x−ˉx)2 |
---|---|---|---|
1 | 6 | 0.4 | 0.16 |
2 | 4 | -1.6 | 2.56 |
3 | 7 | 1.4 | 1.96 |
4 | 2 | -3.6 | 12.96 |
5 | 9 | 3.4 | 11.56 |
Sum | 28 | 0 | 29.2 |
Prom | 5.6 |
σ2=(29.2)5−1
=7.3
¿Se relaciona la variación de una variable, con la variación de otra variable?
Covarianza
cov(x,y)=∑ni=1(xi−ˉx)(yi−ˉy)n−1
Covarianza
cov(x,y)=∑ni=1(xi−ˉx)(yi−ˉy)n−1
Correlación
r=∑ni=1(xi−ˉx)(yi−ˉy)(n−1)σxσy
Covarianza
cov(x,y)=∑ni=1(xi−ˉx)(yi−ˉy)n−1
Correlación
r=∑ni=1(xi−ˉx)(yi−ˉy)(n−1)σxσy
O bien
r=∑(x−ˉx)(y−ˉy)√∑(x−ˉx)2∑(y−ˉy)2
Estimar la correlación entre puntaje en lenguaje (x) y puntaje en matemáticas (y):
id | x | y | (A) x−ˉx | (B) y−ˉy | A*B | (x−ˉx)2 | (y−ˉy)2 |
---|---|---|---|---|---|---|---|
1 | 17 | 24 | -3 | 3 | -9 | 9 | 9 |
2 | 19 | 23 | -1 | 2 | -2 | 1 | 4 |
3 | 14 | 22 | -6 | 1 | -6 | 36 | 1 |
4 | 22 | 17 | 2 | -4 | -8 | 4 | 16 |
5 | 15 | 23 | -5 | 2 | -10 | 25 | 4 |
6 | 26 | 21 | 6 | 0 | 0 | 36 | 0 |
7 | 23 | 18 | 3 | -3 | -9 | 9 | 9 |
8 | 21 | 17 | 1 | -4 | -4 | 1 | 16 |
9 | 28 | 21 | 8 | 0 | 0 | 64 | 0 |
10 | 15 | 24 | -5 | 3 | -15 | 25 | 9 |
Sum | -63 | 210 | 68 | ||||
Prom | 20 | 21 |
r=∑(x−ˉx)(y−ˉy)√∑(x−ˉx)2∑(y−ˉy)2 =−63√210∗68 =−0.5272
1.Conocer la variación de una variable (dependiente, Y) de acuerdo a la variación valor de otra variable (independiente, X):
1.Conocer la variación de una variable (dependiente, Y) de acuerdo a la variación valor de otra variable (independiente, X):
2.Estimar el valor de una variable de acuerdo al valor de otra (predicción)
1.Conocer la variación de una variable (dependiente, Y) de acuerdo a la variación valor de otra variable (independiente, X):
2.Estimar el valor de una variable de acuerdo al valor de otra (predicción)
3.Establecer en que medida esta asociación es significativa (inferencia)
Statistic | N | Mean | St. Dev. | Min | Pctl(25) | Pctl(75) | Max |
id | 23 | 12.000 | 6.782 | 1 | 6.5 | 17.5 | 23 |
juegos | 23 | 3.000 | 1.758 | 0 | 2 | 4 | 6 |
puntos | 23 | 4.000 | 1.382 | 2 | 3 | 5 | 6 |
Ejemplo para los sujetos con 1 en X hay 3 valores de Y: 2, 3 y 4. Por lo tanto, la media condicional de Y dado X=1 es 3
La (co) variación general de Y respecto a X se puede expresar en una ecuación de la recta = modelo de regresión
Para obtener la “mejor recta” se utiliza la estimación de mínimos cuadrados (EMC, o OLS – Ordinary Least Squares), que minimiza la suma de los cuadrados de las distancias entre las observaciones y la recta en el eje vertical
ˆY=b0+b1X
Donde
ˆY es el valor estimado de Y
b0 es el intercepto de la recta (el valor de Y cuando X es 0)
b1 es el coeficiente de regresión, que nos dice cuánto aumenta Y por cada punto que aumenta X
b1=Cov(XY)VarX
b1=∑ni=1(xi−ˉx)(yi−ˉy)n−1∑ni=1(xi−ˉx)(xi−ˉx)n−1
Y simplificando
b1=∑ni=1(xi−ˉx)(yi−ˉy)∑ni=1(xi−ˉx)(xi−ˉx)
Luego despejando el valor de b0
b0=ˉY−b1ˉX
la base para todos estos calculos es la diferencia de cada valor menos su promedio. Vamos a crear un vector en nuestra base de datos difx=x−ˉx y dify=y−ˉy
datos$difx=datos$juegos-mean(datos$juegos)datos$dify=datos$puntos-mean(datos$puntos)
Y ahora con esto podemos obtener la diferencia de productos cruzados difcru=(x−ˉx)∗(y−ˉy), así como la suma de cuadrados de X SSx=(x−ˉx)2
datos$dif_cru=datos$difx*datos$difydatos$SSx=datos$difx^2
datos
## id juegos puntos difx dify dif_cru SSx## 1 1 0 2 -3 -2 6 9## 2 2 0 3 -3 -1 3 9## 3 3 1 2 -2 -2 4 4## 4 4 1 3 -2 -1 2 4## 5 5 1 4 -2 0 0 4## 6 6 2 2 -1 -2 2 1## 7 7 2 3 -1 -1 1 1## 8 8 2 4 -1 0 0 1## 9 9 2 5 -1 1 -1 1## 10 10 3 2 0 -2 0 0## 11 11 3 3 0 -1 0 0## 12 12 3 4 0 0 0 0## 13 13 3 5 0 1 0 0## 14 14 3 6 0 2 0 0## 15 15 4 3 1 -1 -1 1## 16 16 4 4 1 0 0 1## 17 17 4 5 1 1 1 1## 18 18 4 6 1 2 2 1## 19 19 5 4 2 0 0 4## 20 20 5 5 2 1 2 4## 21 21 5 6 2 2 4 4## 22 22 6 5 3 1 3 9## 23 23 6 6 3 2 6 9
Y con esto podemos obtener la suma de productos cruzados y la suma de cuadrados de X
sum(datos$dif_cru)
## [1] 34
sum(datos$SSx)
## [1] 68
Reemplazando en la fórmula
b1=∑ni=1(xi−ˉx)(yi−ˉy)∑ni=1(xi−ˉx)(xi−ˉx)=3468=0.5
Reemplazando podemos obtener el valor de b0
b0=ˉY−b1ˉX b0=4−(3∗0.5)=2.5
Completando la ecuación:
ˆY=2.5+0.5X
Esto nos permite estimar el valor de Y (o su media condicional) basado en el puntaje X. Por ejemplo, cuál es el valor estimado de Y dado X=3?
Reemplazando podemos obtener el valor de b0
b0=ˉY−b1ˉX b0=4−(3∗0.5)=2.5
Completando la ecuación:
ˆY=2.5+0.5X
Esto nos permite estimar el valor de Y (o su media condicional) basado en el puntaje X. Por ejemplo, cuál es el valor estimado de Y dado X=3?
ˆY=2.5+(0.5∗3)
Reemplazando podemos obtener el valor de b0
b0=ˉY−b1ˉX b0=4−(3∗0.5)=2.5
Completando la ecuación:
ˆY=2.5+0.5X
Esto nos permite estimar el valor de Y (o su media condicional) basado en el puntaje X. Por ejemplo, cuál es el valor estimado de Y dado X=3?
ˆY=2.5+(0.5∗3)
ˆY=2.5+(3∗0.5)=4
ggplot(datos, aes(x=juegos, y=puntos)) + geom_point() + geom_smooth(method=lm, se=FALSE)
R
La función para estimar regresión en R
es lm
(linear model). Su forma general es:
objeto=lm(dependiente ~ independiente, data=datos)
Donde
R
En nuestro ejemplo:
reg1 <-lm(puntos ~juegos, data = datos)
reg1
es el objeto que almacena la información de nuestra estimación. Para un reporte simple:
reg1
## ## Call:## lm(formula = puntos ~ juegos, data = datos)## ## Coefficients:## (Intercept) juegos ## 2.5 0.5
Y en formato más publicable
stargazer(reg1, type = "html")
Dependent variable: | |
puntos | |
juegos | 0.500*** |
(0.132) | |
Constant | 2.500*** |
(0.458) | |
Observations | 23 |
R2 | 0.405 |
Adjusted R2 | 0.376 |
Residual Std. Error | 1.091 (df = 21) |
F Statistic | 14.280*** (df = 1; 21) |
Note: | *p<0.1; **p<0.05; ***p<0.01 |
Tres piezas de información relevante:
Valor observado de Y
Estimación de Y a partir de X =( Y′ )
Promedio de Y: ( ˉY )
Y=ˉY+(Y′−ˉY)+(Y−Y′)
Σ(yi−ˉy)2=Σ(ˉy−ˆyi)2+Σ(yi−ˆyi)2
Conceptualmente:
SStot=SSreg+SSerror
Por lo tanto:
SStot=SSreg+SSerror
SStotSStot=SSregSStot+SSerrorSStot
1=SSregSStot+SSerrorSStot
SSregSStot=R2
Keyboard shortcuts
↑, ←, Pg Up, k | Go to previous slide |
↓, →, Pg Dn, Space, j | Go to next slide |
Home | Go to first slide |
End | Go to last slide |
Number + Return | Go to specific slide |
b / m / f | Toggle blackout / mirrored / fullscreen mode |
c | Clone slideshow |
p | Toggle presenter mode |
t | Restart the presentation timer |
?, h | Toggle this help |
Esc | Back to slideshow |