1 Introducción

En esta práctica se continua con ejercicios de regresión simple, enfocados en ajuste, residuos y relación con correlación. Están basados principalmente en el ejemplo de Darlington & Hayes cap. 2 (The simple regression model).

2 Datos

Los datos a utilizar son los mismos que los de la práctica 1, corresponden a un ejemplo ficticio de 23 casos (individuos) y sus datos en dos variables relacionadas con un juego: Las dos variables de esta base de datos son el número de veces que se ha jugado antes (X) y el número de puntos ganados (Y). El archivo de datos original es golf.txt.

Y generamos un gráfico para recordar la distribución de los datos:

2.1 Residuos

En el gráfico anterior vemos que la línea resume la relación entre X e Y, pero claramente es una simplificación que no abarca toda la variabilidad de los datos. Por ejemplo, para el sujeto cuya experiencia es haber jugado 1 vez y luego gana 3 puntos, esta línea predice exactamente su puntaje basada en su experiencia. Sin embargo, el sujeto que ha jugado 3 veces y saca 6 puntos se encuentra más lejos de la línea y por lo tanto esta línea o “modelo predictivo” no representa tan bien su puntaje. A esto se refieren los residuos, que es la diferencia entre el valor predicho (o \(\widehat{Y}\)) y el observado \(Y\). Por lo tanto, la mejor recta será aquella que minimice al máximo los residuos.

El sentido de la recta que resume de mejor manera la relación entre dos variables es que minimice la suma de todos los residuos. Para realizar la suma de los residuos estos se elevan al cuadrado, lo que se denomina suma de residuos al cuadrado o \(SS_{residual}\) ya que como hay residuos positivos y negativos unos se cancelan a otros y la suma es 0. De la infinita cantidad de rectas que se pueden trazar, siempre hay una que tiene un valor menor de \(SS_{residual}\). Este procedimiento es el que da nombre al proceso de estimación: residuos cuadrados ordinarios, o OLS (Ordinary Least Squares).

2.2 Modelo y cálculo de parámetros

El modelo de regresión entonces se relaciona con una ecuación de la recta, o recta de regresión, que se puede definir en términos simples de la siguiente manera:

\[\widehat{Y}=b_{0} +b_{1}X \]

## 
## Call:
## lm(formula = puntos ~ juegos, data = datos)
## 
## Coefficients:
## (Intercept)       juegos  
##         2.5          0.5

En el formato de la redacción en RMarkdown se pueden presentar los valores de las estimaciones con distintas funciones del paquete texreg. Una de ellas es screenreg, que ofrece una salida simple en la pantalla:

## 
## ====================================================
##             Variable dependiente: Puntos de Tacataca
## ----------------------------------------------------
## Intercepto   2.50 (0.46) ***                        
## Juegos       0.50 (0.13) **                         
## ----------------------------------------------------
## R^2          0.40                                   
## Adj. R^2     0.38                                   
## Num. obs.   23                                      
## RMSE         1.09                                   
## ====================================================
## Elaboración propia en base a Golf.txt

Con la función htmlreg es posible generar también una tabla que puede ser publicable en formato html, tal como en el siguiente ejemplo:

<!DOCTYPE HTML PUBLIC “-//W3C//DTD HTML 4.01 Transitional//EN” “http://www.w3.org/TR/html4/loose.dtd”>
Statistical models
Variable dependiente: Puntos de Tacataca
Intercepto 2.50 (0.46)***
Juegos 0.50 (0.13)**
R2 0.40
Adj. R2 0.38
Num. obs. 23
RMSE 1.09
Elaboración propia en base a Golf.txt

En el contexto de los modelos de regresión, las estimaciones pueden presentarse en un gráfico de coeficientes o coefplot.

3 Bondad de Ajuste: Residuos y \(R_{2}\)

A partir del método de Mínimos Cuadrados Ordinarios obtenemos una recta que describe un conjunto de datos minimizando las diferencias entre el modelo ajustado a los datos y los datos mismos.

No obstante, incluso cuando se ajusta el mejor modelo puede existir cierta imprecisión, la cual es representada por las diferencias entre los datos observados y los valores predichos por la recta de regresión.

La imprecisión implica evaluar la Bondad de Ajuste y se evalua a partir del estadístico \(R^2\).

En el siguiente apartado se puede observar la manera de cálcular la predicción de Y (puntos) en base a X (juegos), y almacenarlos en la base de datos, con los respectivos residuos.

##   id estimado residuo
## 1  1      2.5    -0.5
## 2  2      2.5     0.5
## 3  3      3.0    -1.0
## 4  4      3.0     0.0
## 5  5      3.0     1.0
## 6  6      3.5    -1.5

3.1 Suma de cuadrados y \(R^{2}\)

Usando la media como modelo podemos calcular las diferencias entre los valores observados y los valores predichos por la media.

  • La suma de las diferencias al cuadrado la llamamos Suma Total de Cuadrados:

\[SS_{tot} = \sum(y-\bar{y})^2 \] Y calculamos

## [1] 42

Usando la predicción del modelo OLS podemos llegar a tener una mejor aproximación:

  • la suma de las diferencias entre los datos observados y los datos predichos al cuadrado le llamamos Suma de residuos al cuadrado:

\[SS_{error} = \sum(y-\hat{y})^2\] Este valor representa el grado de imprecisión cuando la mejor recta se ajusta a los datos.

## [1] 25

Cuánto mejor ajusta un modelo OLS sobre el cálculo de la media. Esto se puede estimar la diferencia al cuadrado entre el valor estimado y la media, esto se llama Suma explicada de cuadrados

\[SS_{reg} = \sum(\hat{y}-\bar{y})^2\]

## [1] 17

A partir de la suma de cuadrados es posible calcular el estadístico \(R^{2}\)

\[R^2=\frac{SS_{reg}}{SS_{tot}}= 1- \frac{SS_{error}}{SS_{tot}}\]

## [1] 0.4047619
## [1] 0.4047619
## [1] 0.4047619

4 El coeficiente de Regresión versus el coeficiente de correlación

tanto \(r_{xy}\) y \(\beta_1\) son medidas de la relación entre X e Y. Ellas estan relacionadas con la formula de:

\[\beta_1= r_{xy}(S_y/S_x)\]

Es decir:

## [1] 0.5
## juegos 
##    0.5

Del mismo modo existe una relación entre \(r_{xy}\) y \(R^2\)

## [1] 0.636209
## [1] 0.4047619

Las diferencias entre la Regressión y la Correlación se puede expresar en términos de formulas. Por un lado se puede entender que \(r_{xy}\) es una forma estandarizada de \(\beta\), como se puede apreciar en el siguente apartado.

## (Intercept)   Yjuegos_Z 
##    0.000000    0.636209

En términos de las propiedades, el r de Pearson no es influenciado por la escala de medición mientras que en el beta si hay modificaciones:

Con los datos que hemos trabajado podemos corroborar lo anterior. A continuación se muestra como los puntos al dividirlos por 100, en la correlación se mantiene la relación; pero esto no ocurre así con la regresión.

## [1] 0.636209
##  (Intercept) X_reescalado 
##          2.5         50.0

La correlación entre X e Y es la misma que entre Y e X,

## [1] 0.636209
## [1] 0.636209

La regresión etre X e Y no es la misma que entre Y e X

## (Intercept)      juegos 
##         2.5         0.5
## (Intercept)      puntos 
##  -0.2380952   0.8095238