class: bottom, left, exclude <!--- Para correr en ATOM - open terminal, abrir R (simplemente, R y enter) - rmarkdown::render('6_regmul2.Rmd', 'xaringan::moon_reader') About macros.js: permite escalar las imágenes como [scale 50%](path to image), hay si que grabar ese archivo js en el directorio. ---> .right[![:scale 30%](https://escudouchile.files.wordpress.com/2012/06/logotipo-facso-ciencias-sociales-u-de-chile.png)] <br> <br> <br> <br> <br> <br> <br> # Estadística multivariada, 1 sem. 2019 ## Juan Carlos Castillo & Alejandro Plaza ## *Sesión 6* : Regresión múltiple 2 <!--- activar esta opcion para transiciones en todas las slides ...problema: afecta impresión en pdf este contenido tiene que ser incluido en una slide independiente layout: true class: animated, fadeIn ---> --- class: inverse, bottom, left, animated, slideInRight # **Contenidos** ## 1. Repaso de sesión anterior ## 2. Bases de control y parcialización ## 3. Demostración parcialización --- class: inverse, middle, center # 1. Repaso sesión anterior --- # Base: Modelo de regresión (simple) `$$\widehat{Y}=b_{0} +b_{1}X$$` -- .center[![:scale 50%](../images/regmod.png)] -- - Se estima mediante el método de mínimos cuadrados ordinarios (OLS) -- - Permite estimar el valor de una variable ( `\(\widehat{Y}\)` ) a partir del valor conocido de otra variable ( `\(X\)` ) -- - La estimación se expresa en el coeficiente de regresión `\(b_{1}\)`, también llamado "beta" o pendiente -- - Este coeficiente se interpreta de la siguiente manera: Por cada unidad que aumenta X, Y aumenta en `\(b_{1}\)` unidades --- # Regresión múltiple: > 1 predictor `$$\widehat{Y}=b_{0}+b_{1}X_{1}+b_{2}X_{2}+b_{3}X_{3}+...+b_{k}X_{k}$$` -- .center[![:scale 80%](../images/regmul.png)] --- # Regresión múltiple: > 1 predictor `$$\widehat{Y}=b_{0}+b_{1}X_{1}+b_{2}X_{2}+b_{3}X_{3}+...+b_{k}X_{k}$$` -- .pull-left[ .center[![:scale 80%](../images/ingresoeduc.png)] `$$\widehat{Ingreso}=b_0+b_1(Educ)$$` ] -- .pull-right[ .center[![:scale 80%](../images/ingresoeducexp.png)] `$$\widehat{Ingreso}=b_0+b_1(Educ)+b_2(Exp)$$` ] --- # Ejemplo .center[![](../images/paperclasemedia.png)] .small[Castillo, J., Miranda, D. & Madero, I. (2013) Todos somos de clase media: Sobre el estatus social subjetivo en Chile. _Latin American Research Review_ 48(1) 155-173 ] --- # Control de terceras variables .pull-left[ ## 1. Control por diseño - Característico de la metodología experimental - Por aleatorización a diferentes situaciones (ej: tratamiento y control) ] -- .pull-right[ ## 2. Control estadístico - Característico de análisis de datos secundarios (ej: encuestas) - Se incluyen en el modelo variables que teóricamente podrían dar cuenta o afectar la relación entre X e Y. - Esto despeja o "controla" la asociación de `\(X_1\)` e `\(Y\)`, aislando el efecto conjunto de `\(X_1\)` y `\(X_2\)` (... y `\(X_n\)`) ] --- # Estimación de parámetros y control .pull-left[.small[ ### Ej 1: sin correlación relevante entre predictores .center[![](../images/ingeduex1.png)] ] ] --- # Estimación de parámetros y control .pull-left[.small[ ### Ej 1: sin correlación relevante entre predictores <table cellspacing="0" align="center" style="border: none;"> <caption align="bottom" style="margin-top:0.3em;"> </caption> <tr> <th style="text-align: left; border-top: 2px solid black; border-bottom: 1px solid black; padding-right: 12px;"><b></b></th> <th style="text-align: left; border-top: 2px solid black; border-bottom: 1px solid black; padding-right: 12px;"><b>Model 1</b></th> <th style="text-align: left; border-top: 2px solid black; border-bottom: 1px solid black; padding-right: 12px;"><b>Model 2</b></th> <th style="text-align: left; border-top: 2px solid black; border-bottom: 1px solid black; padding-right: 12px;"><b>Model 3</b></th> </tr> <tr> <td style="padding-right: 12px; border: none;">(Intercept)</td> <td style="padding-right: 12px; border: none;">-0.15</td> <td style="padding-right: 12px; border: none;">-0.15</td> <td style="padding-right: 12px; border: none;">-0.16</td> </tr> <tr> <td style="padding-right: 12px; border: none;"></td> <td style="padding-right: 12px; border: none;">(0.09)</td> <td style="padding-right: 12px; border: none;">(0.10)</td> <td style="padding-right: 12px; border: none;">(0.09)</td> </tr> <tr> <td style="padding-right: 12px; border: none;">educacion</td> <td style="padding-right: 12px; border: none;">0.40<sup style="vertical-align: 0px;">***</sup></td> <td style="padding-right: 12px; border: none;"></td> <td style="padding-right: 12px; border: none;">0.40<sup style="vertical-align: 0px;">***</sup></td> </tr> <tr> <td style="padding-right: 12px; border: none;"></td> <td style="padding-right: 12px; border: none;">(0.10)</td> <td style="padding-right: 12px; border: none;"></td> <td style="padding-right: 12px; border: none;">(0.10)</td> </tr> <tr> <td style="padding-right: 12px; border: none;">experiencia</td> <td style="padding-right: 12px; border: none;"></td> <td style="padding-right: 12px; border: none;">0.30<sup style="vertical-align: 0px;">**</sup></td> <td style="padding-right: 12px; border: none;">0.31<sup style="vertical-align: 0px;">**</sup></td> </tr> <tr> <td style="padding-right: 12px; border: none;"></td> <td style="padding-right: 12px; border: none;"></td> <td style="padding-right: 12px; border: none;">(0.10)</td> <td style="padding-right: 12px; border: none;">(0.10)</td> </tr> <tr> <td style="border-top: 1px solid black;">R<sup style="vertical-align: 0px;">2</sup></td> <td style="border-top: 1px solid black;">0.13</td> <td style="border-top: 1px solid black;">0.08</td> <td style="border-top: 1px solid black;">0.21</td> </tr> <tr> <td style="padding-right: 12px; border: none;">Adj. R<sup style="vertical-align: 0px;">2</sup></td> <td style="padding-right: 12px; border: none;">0.12</td> <td style="padding-right: 12px; border: none;">0.07</td> <td style="padding-right: 12px; border: none;">0.20</td> </tr> <tr> <td style="padding-right: 12px; border: none;">Num. obs.</td> <td style="padding-right: 12px; border: none;">100</td> <td style="padding-right: 12px; border: none;">100</td> <td style="padding-right: 12px; border: none;">100</td> </tr> <tr> <td style="border-bottom: 2px solid black;">RMSE</td> <td style="border-bottom: 2px solid black;">0.94</td> <td style="border-bottom: 2px solid black;">0.97</td> <td style="border-bottom: 2px solid black;">0.90</td> </tr> <tr> <td style="padding-right: 12px; border: none;" colspan="5"><span style="font-size:0.8em"><sup style="vertical-align: 0px;">***</sup>p < 0.001, <sup style="vertical-align: 0px;">**</sup>p < 0.01, <sup style="vertical-align: 0px;">*</sup>p < 0.05</span></td> </tr> </table> ] ] --- # Estimación de parámetros y control .pull-left[.small[ ### Ej 1: sin correlación relevante entre predictores .center[![](../images/ingeduex1.png)] ] ] .pull-right[.small[ ### Ejemplo 2: con correlación entre predictores .center[![:scale 90%](../images/ingresoeducexp.png)] ] ] --- # Estimación de parámetros y control .pull-left[.small[ ### Ej 1: sin correlación relevante entre predictores <table cellspacing="0" align="center" style="border: none;"> <caption align="bottom" style="margin-top:0.3em;"> </caption> <tr> <th style="text-align: left; border-top: 2px solid black; border-bottom: 1px solid black; padding-right: 12px;"><b></b></th> <th style="text-align: left; border-top: 2px solid black; border-bottom: 1px solid black; padding-right: 12px;"><b>Model 1</b></th> <th style="text-align: left; border-top: 2px solid black; border-bottom: 1px solid black; padding-right: 12px;"><b>Model 2</b></th> <th style="text-align: left; border-top: 2px solid black; border-bottom: 1px solid black; padding-right: 12px;"><b>Model 3</b></th> </tr> <tr> <td style="padding-right: 12px; border: none;">(Intercept)</td> <td style="padding-right: 12px; border: none;">-0.15</td> <td style="padding-right: 12px; border: none;">-0.15</td> <td style="padding-right: 12px; border: none;">-0.16</td> </tr> <tr> <td style="padding-right: 12px; border: none;"></td> <td style="padding-right: 12px; border: none;">(0.09)</td> <td style="padding-right: 12px; border: none;">(0.10)</td> <td style="padding-right: 12px; border: none;">(0.09)</td> </tr> <tr> <td style="padding-right: 12px; border: none;">educacion</td> <td style="padding-right: 12px; border: none;">0.40<sup style="vertical-align: 0px;">***</sup></td> <td style="padding-right: 12px; border: none;"></td> <td style="padding-right: 12px; border: none;">0.40<sup style="vertical-align: 0px;">***</sup></td> </tr> <tr> <td style="padding-right: 12px; border: none;"></td> <td style="padding-right: 12px; border: none;">(0.10)</td> <td style="padding-right: 12px; border: none;"></td> <td style="padding-right: 12px; border: none;">(0.10)</td> </tr> <tr> <td style="padding-right: 12px; border: none;">experiencia</td> <td style="padding-right: 12px; border: none;"></td> <td style="padding-right: 12px; border: none;">0.30<sup style="vertical-align: 0px;">**</sup></td> <td style="padding-right: 12px; border: none;">0.31<sup style="vertical-align: 0px;">**</sup></td> </tr> <tr> <td style="padding-right: 12px; border: none;"></td> <td style="padding-right: 12px; border: none;"></td> <td style="padding-right: 12px; border: none;">(0.10)</td> <td style="padding-right: 12px; border: none;">(0.10)</td> </tr> <tr> <td style="border-top: 1px solid black;">R<sup style="vertical-align: 0px;">2</sup></td> <td style="border-top: 1px solid black;">0.13</td> <td style="border-top: 1px solid black;">0.08</td> <td style="border-top: 1px solid black;">0.21</td> </tr> <tr> <td style="padding-right: 12px; border: none;">Adj. R<sup style="vertical-align: 0px;">2</sup></td> <td style="padding-right: 12px; border: none;">0.12</td> <td style="padding-right: 12px; border: none;">0.07</td> <td style="padding-right: 12px; border: none;">0.20</td> </tr> <tr> <td style="padding-right: 12px; border: none;">Num. obs.</td> <td style="padding-right: 12px; border: none;">100</td> <td style="padding-right: 12px; border: none;">100</td> <td style="padding-right: 12px; border: none;">100</td> </tr> <tr> <td style="border-bottom: 2px solid black;">RMSE</td> <td style="border-bottom: 2px solid black;">0.94</td> <td style="border-bottom: 2px solid black;">0.97</td> <td style="border-bottom: 2px solid black;">0.90</td> </tr> <tr> <td style="padding-right: 12px; border: none;" colspan="5"><span style="font-size:0.8em"><sup style="vertical-align: 0px;">***</sup>p < 0.001, <sup style="vertical-align: 0px;">**</sup>p < 0.01, <sup style="vertical-align: 0px;">*</sup>p < 0.05</span></td> </tr> </table> ] ] .pull-right[.small[ ### Ejemplo 2: con correlación entre predictores <table cellspacing="0" align="center" style="border: none;"> <caption align="bottom" style="margin-top:0.3em;"> </caption> <tr> <th style="text-align: left; border-top: 2px solid black; border-bottom: 1px solid black; padding-right: 12px;"><b></b></th> <th style="text-align: left; border-top: 2px solid black; border-bottom: 1px solid black; padding-right: 12px;"><b>Model 1</b></th> <th style="text-align: left; border-top: 2px solid black; border-bottom: 1px solid black; padding-right: 12px;"><b>Model 2</b></th> <th style="text-align: left; border-top: 2px solid black; border-bottom: 1px solid black; padding-right: 12px;"><b>Model 3</b></th> </tr> <tr> <td style="padding-right: 12px; border: none;">(Intercept)</td> <td style="padding-right: 12px; border: none;">-0.15</td> <td style="padding-right: 12px; border: none;">-0.14</td> <td style="padding-right: 12px; border: none;">-0.14</td> </tr> <tr> <td style="padding-right: 12px; border: none;"></td> <td style="padding-right: 12px; border: none;">(0.09)</td> <td style="padding-right: 12px; border: none;">(0.09)</td> <td style="padding-right: 12px; border: none;">(0.08)</td> </tr> <tr> <td style="padding-right: 12px; border: none;">educacion</td> <td style="padding-right: 12px; border: none;">0.52<sup style="vertical-align: 0px;">***</sup></td> <td style="padding-right: 12px; border: none;"></td> <td style="padding-right: 12px; border: none;">0.40<sup style="vertical-align: 0px;">***</sup></td> </tr> <tr> <td style="padding-right: 12px; border: none;"></td> <td style="padding-right: 12px; border: none;">(0.10)</td> <td style="padding-right: 12px; border: none;"></td> <td style="padding-right: 12px; border: none;">(0.09)</td> </tr> <tr> <td style="padding-right: 12px; border: none;">experiencia</td> <td style="padding-right: 12px; border: none;"></td> <td style="padding-right: 12px; border: none;">0.50<sup style="vertical-align: 0px;">***</sup></td> <td style="padding-right: 12px; border: none;">0.39<sup style="vertical-align: 0px;">***</sup></td> </tr> <tr> <td style="padding-right: 12px; border: none;"></td> <td style="padding-right: 12px; border: none;"></td> <td style="padding-right: 12px; border: none;">(0.10)</td> <td style="padding-right: 12px; border: none;">(0.09)</td> </tr> <tr> <td style="border-top: 1px solid black;">R<sup style="vertical-align: 0px;">2</sup></td> <td style="border-top: 1px solid black;">0.23</td> <td style="border-top: 1px solid black;">0.22</td> <td style="border-top: 1px solid black;">0.35</td> </tr> <tr> <td style="padding-right: 12px; border: none;">Adj. R<sup style="vertical-align: 0px;">2</sup></td> <td style="padding-right: 12px; border: none;">0.22</td> <td style="padding-right: 12px; border: none;">0.21</td> <td style="padding-right: 12px; border: none;">0.33</td> </tr> <tr> <td style="padding-right: 12px; border: none;">Num. obs.</td> <td style="padding-right: 12px; border: none;">100</td> <td style="padding-right: 12px; border: none;">100</td> <td style="padding-right: 12px; border: none;">100</td> </tr> <tr> <td style="border-bottom: 2px solid black;">RMSE</td> <td style="border-bottom: 2px solid black;">0.89</td> <td style="border-bottom: 2px solid black;">0.89</td> <td style="border-bottom: 2px solid black;">0.82</td> </tr> <tr> <td style="padding-right: 12px; border: none;" colspan="5"><span style="font-size:0.8em"><sup style="vertical-align: 0px;">***</sup>p < 0.001, <sup style="vertical-align: 0px;">**</sup>p < 0.01, <sup style="vertical-align: 0px;">*</sup>p < 0.05</span></td> </tr> </table> ] ] --- class: inverse # RESUMEN - Los coeficientes de regresión (X) no alteran su valor en los modelos en ausencia de correlación entre ellos (Ejemplo 1) - Si hay correlación entre predictores, el valor de los coeficientes de regresión será distinto en modelos simples y en modelos múltiples - Por ello, en regresión múltiple se habla de coeficientes de regresión **parciales** - Esta diferencia se relaciona con el concepto de control estadístico - Ejemplo 2, modelo 3: El ingreso aumenta en 0.4 puntos por cada nivel adicional de educación, **controlando por experiencia**. O también ... - manteniendo la experiencia _constante_ - _ceteris paribus_ --- class: inverse, middle, center .large[ # PREGUNTAS ] --- class: inverse, middle, center # 2. Bases de control y parcialización --- # Ejemplo: Datos ```r stargazer(datos, type = "html", digits=0) ``` <table style="text-align:center"><tr><td colspan="8" style="border-bottom: 1px solid black"></td></tr><tr><td style="text-align:left">Statistic</td><td>N</td><td>Mean</td><td>St. Dev.</td><td>Min</td><td>Pctl(25)</td><td>Pctl(75)</td><td>Max</td></tr> <tr><td colspan="8" style="border-bottom: 1px solid black"></td></tr><tr><td style="text-align:left">ID</td><td>10</td><td>6</td><td>3</td><td>1</td><td>3.2</td><td>7.8</td><td>10</td></tr> <tr><td style="text-align:left">ingreso</td><td>10</td><td>495,000</td><td>323,565</td><td>100,000</td><td>225,000</td><td>762,500</td><td>1,000,000</td></tr> <tr><td style="text-align:left">educacion</td><td>10</td><td>4</td><td>2</td><td>1</td><td>3</td><td>5</td><td>6</td></tr> <tr><td style="text-align:left">experiencia</td><td>10</td><td>2</td><td>1</td><td>1</td><td>2</td><td>3</td><td>3</td></tr> <tr><td colspan="8" style="border-bottom: 1px solid black"></td></tr></table> --- # Ejemplo: correlaciones .pull-left[.small[ ```r cormat=datos %>% select(ingreso,educacion,experiencia) %>% cor() round(cormat, digits=2) ``` ``` ## ingreso educacion experiencia ## ingreso 1.00 0.77 0.44 ## educacion 0.77 1.00 0.27 ## experiencia 0.44 0.27 1.00 ``` ] ] -- .pull-right[ ```r corrplot.mixed(cormat) ``` ![](6_regmul2_files/figure-html/unnamed-chunk-9-1.png)<!-- --> ] --- # Ejemplo: scatters Y / Xs .pull-left[ **Ingreso <- educación ( `\(X_1\)` )** ![](6_regmul2_files/figure-html/unnamed-chunk-10-1.png)<!-- --> ] .pull-right[ **Ingreso <- experiencia ( `\(X_2\)` )** ![](6_regmul2_files/figure-html/unnamed-chunk-11-1.png)<!-- --> ] --- # Ejemplo: scatter X1 X2 .pull-left[ ![](6_regmul2_files/figure-html/unnamed-chunk-12-1.png)<!-- --> ] .pull-right[ - presencia de correlación entre predictores - idea de control estadístico: ¿Cuál es la influencia de educación en ingreso, independiente de la experiencia? - análogo: comparar promedios de ingreso según nivel educacional, para niveles de experiencia similares - solución estadística: parcialización ] --- # Regresión ```r reg_y_x1=lm(ingreso ~ educacion, data=datos) reg_y_x2=lm(ingreso ~ experiencia, data=datos) reg_y_x1_x2=lm(ingreso ~ educacion + experiencia , data=datos) ``` .medium[ <table cellspacing="0" align="center" style="border: none;"> <caption align="bottom" style="margin-top:0.3em;"> </caption> <tr> <th style="text-align: left; border-top: 2px solid black; border-bottom: 1px solid black; padding-right: 12px;"><b></b></th> <th style="text-align: left; border-top: 2px solid black; border-bottom: 1px solid black; padding-right: 12px;"><b>Model 1</b></th> <th style="text-align: left; border-top: 2px solid black; border-bottom: 1px solid black; padding-right: 12px;"><b>Model 2</b></th> <th style="text-align: left; border-top: 2px solid black; border-bottom: 1px solid black; padding-right: 12px;"><b>Model 3</b></th> </tr> <tr> <td style="padding-right: 12px; border: none;">(Intercept)</td> <td style="padding-right: 12px; border: none;">-91566.27</td> <td style="padding-right: 12px; border: none;">93442.62</td> <td style="padding-right: 12px; border: none;">-270638.30</td> </tr> <tr> <td style="padding-right: 12px; border: none;"></td> <td style="padding-right: 12px; border: none;">(183509.80)</td> <td style="padding-right: 12px; border: none;">(302389.31)</td> <td style="padding-right: 12px; border: none;">(241882.27)</td> </tr> <tr> <td style="padding-right: 12px; border: none;">educacion</td> <td style="padding-right: 12px; border: none;">150401.61<sup style="vertical-align: 0px;">**</sup></td> <td style="padding-right: 12px; border: none;"></td> <td style="padding-right: 12px; border: none;">137092.20<sup style="vertical-align: 0px;">*</sup></td> </tr> <tr> <td style="padding-right: 12px; border: none;"></td> <td style="padding-right: 12px; border: none;">(43618.69)</td> <td style="padding-right: 12px; border: none;"></td> <td style="padding-right: 12px; border: none;">(44602.35)</td> </tr> <tr> <td style="padding-right: 12px; border: none;">experiencia</td> <td style="padding-right: 12px; border: none;"></td> <td style="padding-right: 12px; border: none;">174590.16</td> <td style="padding-right: 12px; border: none;">100425.53</td> </tr> <tr> <td style="padding-right: 12px; border: none;"></td> <td style="padding-right: 12px; border: none;"></td> <td style="padding-right: 12px; border: none;">(124491.71)</td> <td style="padding-right: 12px; border: none;">(90114.05)</td> </tr> <tr> <td style="border-top: 1px solid black;">R<sup style="vertical-align: 0px;">2</sup></td> <td style="border-top: 1px solid black;">0.60</td> <td style="border-top: 1px solid black;">0.20</td> <td style="border-top: 1px solid black;">0.66</td> </tr> <tr> <td style="padding-right: 12px; border: none;">Adj. R<sup style="vertical-align: 0px;">2</sup></td> <td style="padding-right: 12px; border: none;">0.55</td> <td style="padding-right: 12px; border: none;">0.10</td> <td style="padding-right: 12px; border: none;">0.56</td> </tr> <tr> <td style="padding-right: 12px; border: none;">Num. obs.</td> <td style="padding-right: 12px; border: none;">10</td> <td style="padding-right: 12px; border: none;">10</td> <td style="padding-right: 12px; border: none;">10</td> </tr> <tr> <td style="border-bottom: 2px solid black;">RMSE</td> <td style="border-bottom: 2px solid black;">217656.84</td> <td style="border-bottom: 2px solid black;">307471.84</td> <td style="border-bottom: 2px solid black;">214438.31</td> </tr> <tr> <td style="padding-right: 12px; border: none;" colspan="5"><span style="font-size:0.8em"><sup style="vertical-align: 0px;">***</sup>p < 0.001, <sup style="vertical-align: 0px;">**</sup>p < 0.01, <sup style="vertical-align: 0px;">*</sup>p < 0.05</span></td> </tr> </table> ] --- # RESUMEN - Regresión múltiple: más de un predictor - No es equivalente a realizar regresiones múltiples por separado con cada predictor - Predictores correlacionados: requiere consideración, ya que de otra manera se estaría sobreestimando el efecto de `\(X\)` en `\(Y\)` - Además de ser una corrección estadística, el control se relaciona con preguntas sustantivas basadas en teoría - El output de regresión múltiple realiza automáticamente el control estadístico vía parcialización de coeficientes. Los detalles de este procedimiento se muestran a continuación. --- class: inverse, center, middle # 3. Demostración parcialización --- # Parcialización 1 _¿Cómo se despeja la regresión de `\(Y\)` en `\(X_1\)` del efecto de `\(X_2\)`?_ .pull-left[ .center[![:scale 80%](../images/ingresoeducexp.png)] ] -- .pull-right[ .center[![:scale 80%](../images/partial1.png)] ] Implica despejar `\(X_1\)` de su correlación con `\(X_2\)`, o **parcializar** `\(X_1\)` de `\(X_2\)` --- # Parcialización 3 ¿Como obtenemos una variables `\(X_1\)` parcializada de `\(X_2\)`? -- - Pensemos en que `\(X_1\)` parcializada (de `\(X_2\)` ) es todo lo de `\(X_1\)` (varianza) que no tiene que ver con `\(X_2\)` -- .center[![:scale 80%](../images/partial2.png)] - En otras palabras, en un modelo donde `\(X_1\)` es la variable dependiente y `\(X_2\)` la independiente, `\(X_1\)` parcializada equivale al **residuo** de esta regresión --- # Parcialización 4 Por lo tanto, para **demostrar** el concepto de parcialización en el ejemplo, los pasos son: 1. Regresión entre predictores 2. Obtención del residuo de la regresión 3. Regresión de `\(Y\)` en el residuo (=la variable parcializada) Con esto obtendremos el valor del regresor parcial correspondiente a educación (que es el que automáticamente aparece en el output de la regresión múltiple al incluir la variable experiencia) --- # Parcialización 5 **1.Regresión entre predictores** ```r reg_x1_x2=lm(educacion ~ experiencia , data=datos) coef(reg_x1_x2) ``` ``` ## (Intercept) experiencia ## 2.6557377 0.5409836 ``` Por lo tanto, tenemos que nuestro modelo de regresión entre predictores, con educación como dependiente es: `$$\widehat{educacion}=2.66+0.541_{experiencia}$$` --- # Parcialización 6 **2.Obtención de residuo (valor estimado - observado)** .medium[ ```r x1_fit_x2=fitted.values(reg_x1_x2) resx1_2=residuals(reg_x1_x2) datos=cbind(datos, x1_fit_x2,resx1_2); datos ``` ``` ## ID ingreso educacion experiencia x1_fit_x2 resx1_2 ## 1 1 100000 2 1 3.196721 -1.1967213 ## 2 2 200000 1 3 4.278689 -3.2786885 ## 3 3 200000 3 3 4.278689 -1.2786885 ## 4 4 300000 3 1 3.196721 -0.1967213 ## 5 5 300000 4 2 3.737705 0.2622951 ## 6 6 500000 6 2 3.737705 2.2622951 ## 7 7 650000 5 3 4.278689 0.7213115 ## 8 8 800000 4 2 3.737705 0.2622951 ## 9 9 900000 5 3 4.278689 0.7213115 ## 10 10 1000000 6 3 4.278689 1.7213115 ``` ] Ejemplo caso 1: experiencia=1 `$$\widehat{educacion}=2.66+0.541*1=3.2$$` Y residuo `\(=2-3.2=-1.2\)` --- # Parcialización 7 **3.Regresión de Y en variable `\(X_1\)` parcializada = `\(X_{1.2}\)`** ```r regy_resx1_2=lm(datos$ingreso ~ resx1_2) ``` .small[ <table cellspacing="0" align="center" style="border: none;"> <caption align="bottom" style="margin-top:0.3em;"> </caption> <tr> <th style="text-align: left; border-top: 2px solid black; border-bottom: 1px solid black; padding-right: 12px;"><b></b></th> <th style="text-align: left; border-top: 2px solid black; border-bottom: 1px solid black; padding-right: 12px;"><b>Model 1</b></th> <th style="text-align: left; border-top: 2px solid black; border-bottom: 1px solid black; padding-right: 12px;"><b>Model 2</b></th> <th style="text-align: left; border-top: 2px solid black; border-bottom: 1px solid black; padding-right: 12px;"><b>Model 3</b></th> <th style="text-align: left; border-top: 2px solid black; border-bottom: 1px solid black; padding-right: 12px;"><b>Model 4</b></th> </tr> <tr> <td style="padding-right: 12px; border: none;">(Intercept)</td> <td style="padding-right: 12px; border: none;">-91566.27</td> <td style="padding-right: 12px; border: none;">93442.62</td> <td style="padding-right: 12px; border: none;">-270638.30</td> <td style="padding-right: 12px; border: none;">495000.00<sup style="vertical-align: 0px;">***</sup></td> </tr> <tr> <td style="padding-right: 12px; border: none;"></td> <td style="padding-right: 12px; border: none;">(183509.80)</td> <td style="padding-right: 12px; border: none;">(302389.31)</td> <td style="padding-right: 12px; border: none;">(241882.27)</td> <td style="padding-right: 12px; border: none;">(79673.16)</td> </tr> <tr> <td style="padding-right: 12px; border: none;">educacion</td> <td style="padding-right: 12px; border: none;">150401.61<sup style="vertical-align: 0px;">**</sup></td> <td style="padding-right: 12px; border: none;"></td> <td style="padding-right: 12px; border: none;">137092.20<sup style="vertical-align: 0px;">*</sup></td> <td style="padding-right: 12px; border: none;"></td> </tr> <tr> <td style="padding-right: 12px; border: none;"></td> <td style="padding-right: 12px; border: none;">(43618.69)</td> <td style="padding-right: 12px; border: none;"></td> <td style="padding-right: 12px; border: none;">(44602.35)</td> <td style="padding-right: 12px; border: none;"></td> </tr> <tr> <td style="padding-right: 12px; border: none;">experiencia</td> <td style="padding-right: 12px; border: none;"></td> <td style="padding-right: 12px; border: none;">174590.16</td> <td style="padding-right: 12px; border: none;">100425.53</td> <td style="padding-right: 12px; border: none;"></td> </tr> <tr> <td style="padding-right: 12px; border: none;"></td> <td style="padding-right: 12px; border: none;"></td> <td style="padding-right: 12px; border: none;">(124491.71)</td> <td style="padding-right: 12px; border: none;">(90114.05)</td> <td style="padding-right: 12px; border: none;"></td> </tr> <tr> <td style="padding-right: 12px; border: none;">resx1_2</td> <td style="padding-right: 12px; border: none;"></td> <td style="padding-right: 12px; border: none;"></td> <td style="padding-right: 12px; border: none;"></td> <td style="padding-right: 12px; border: none;">137092.20<sup style="vertical-align: 0px;">*</sup></td> </tr> <tr> <td style="padding-right: 12px; border: none;"></td> <td style="padding-right: 12px; border: none;"></td> <td style="padding-right: 12px; border: none;"></td> <td style="padding-right: 12px; border: none;"></td> <td style="padding-right: 12px; border: none;">(52404.36)</td> </tr> <tr> <td style="border-top: 1px solid black;">R<sup style="vertical-align: 0px;">2</sup></td> <td style="border-top: 1px solid black;">0.60</td> <td style="border-top: 1px solid black;">0.20</td> <td style="border-top: 1px solid black;">0.66</td> <td style="border-top: 1px solid black;">0.46</td> </tr> <tr> <td style="padding-right: 12px; border: none;">Adj. R<sup style="vertical-align: 0px;">2</sup></td> <td style="padding-right: 12px; border: none;">0.55</td> <td style="padding-right: 12px; border: none;">0.10</td> <td style="padding-right: 12px; border: none;">0.56</td> <td style="padding-right: 12px; border: none;">0.39</td> </tr> <tr> <td style="padding-right: 12px; border: none;">Num. obs.</td> <td style="padding-right: 12px; border: none;">10</td> <td style="padding-right: 12px; border: none;">10</td> <td style="padding-right: 12px; border: none;">10</td> <td style="padding-right: 12px; border: none;">10</td> </tr> <tr> <td style="border-bottom: 2px solid black;">RMSE</td> <td style="border-bottom: 2px solid black;">217656.84</td> <td style="border-bottom: 2px solid black;">307471.84</td> <td style="border-bottom: 2px solid black;">214438.31</td> <td style="border-bottom: 2px solid black;">251948.67</td> </tr> <tr> <td style="padding-right: 12px; border: none;" colspan="6"><span style="font-size:0.8em"><sup style="vertical-align: 0px;">***</sup>p < 0.001, <sup style="vertical-align: 0px;">**</sup>p < 0.01, <sup style="vertical-align: 0px;">*</sup>p < 0.05</span></td> </tr> </table> ] --- # Parcialización 8 Ahora, lo mismo pero parcializando experiencia ( `\(X_2\)` ) de educación ( `\(X_1\)` ) **1.Regresión de `\(X_2\)` (experiencia) en `\(X_1\)` (educación)** ```r reg_x2_x1=lm(experiencia ~ educacion, data=datos) ``` **2. Obtención del residuo de la regresión (experiencia parcializada de educación)** ```r resx2_1=residuals(reg_x2_x1) ``` **3. Regresión de `\(Y\)` (ingreso) en la variable parcializada `\(X_{2.1}\)`** ```r regy_resx2_1=lm(datos$ingreso ~ resx2_1) ``` --- # Comparación final modelos .small[ <table cellspacing="0" align="center" style="border: none;"> <caption align="bottom" style="margin-top:0.3em;"> </caption> <tr> <th style="text-align: left; border-top: 2px solid black; border-bottom: 1px solid black; padding-right: 12px;"><b></b></th> <th style="text-align: left; border-top: 2px solid black; border-bottom: 1px solid black; padding-right: 12px;"><b>Model 1</b></th> <th style="text-align: left; border-top: 2px solid black; border-bottom: 1px solid black; padding-right: 12px;"><b>Model 2</b></th> <th style="text-align: left; border-top: 2px solid black; border-bottom: 1px solid black; padding-right: 12px;"><b>Model 3</b></th> <th style="text-align: left; border-top: 2px solid black; border-bottom: 1px solid black; padding-right: 12px;"><b>Model 4</b></th> <th style="text-align: left; border-top: 2px solid black; border-bottom: 1px solid black; padding-right: 12px;"><b>Model 5</b></th> </tr> <tr> <td style="padding-right: 12px; border: none;">(Intercept)</td> <td style="padding-right: 12px; border: none;">-91566.27</td> <td style="padding-right: 12px; border: none;">93442.62</td> <td style="padding-right: 12px; border: none;">-270638.30</td> <td style="padding-right: 12px; border: none;">495000.00<sup style="vertical-align: 0px;">***</sup></td> <td style="padding-right: 12px; border: none;">495000.00<sup style="vertical-align: 0px;">**</sup></td> </tr> <tr> <td style="padding-right: 12px; border: none;"></td> <td style="padding-right: 12px; border: none;">(183509.80)</td> <td style="padding-right: 12px; border: none;">(302389.31)</td> <td style="padding-right: 12px; border: none;">(241882.27)</td> <td style="padding-right: 12px; border: none;">(79673.16)</td> <td style="padding-right: 12px; border: none;">(105186.77)</td> </tr> <tr> <td style="padding-right: 12px; border: none;">educacion</td> <td style="padding-right: 12px; border: none;">150401.61<sup style="vertical-align: 0px;">**</sup></td> <td style="padding-right: 12px; border: none;"></td> <td style="padding-right: 12px; border: none;">137092.20<sup style="vertical-align: 0px;">*</sup></td> <td style="padding-right: 12px; border: none;"></td> <td style="padding-right: 12px; border: none;"></td> </tr> <tr> <td style="padding-right: 12px; border: none;"></td> <td style="padding-right: 12px; border: none;">(43618.69)</td> <td style="padding-right: 12px; border: none;"></td> <td style="padding-right: 12px; border: none;">(44602.35)</td> <td style="padding-right: 12px; border: none;"></td> <td style="padding-right: 12px; border: none;"></td> </tr> <tr> <td style="padding-right: 12px; border: none;">experiencia</td> <td style="padding-right: 12px; border: none;"></td> <td style="padding-right: 12px; border: none;">174590.16</td> <td style="padding-right: 12px; border: none;">100425.53</td> <td style="padding-right: 12px; border: none;"></td> <td style="padding-right: 12px; border: none;"></td> </tr> <tr> <td style="padding-right: 12px; border: none;"></td> <td style="padding-right: 12px; border: none;"></td> <td style="padding-right: 12px; border: none;">(124491.71)</td> <td style="padding-right: 12px; border: none;">(90114.05)</td> <td style="padding-right: 12px; border: none;"></td> <td style="padding-right: 12px; border: none;"></td> </tr> <tr> <td style="padding-right: 12px; border: none;">resx1_2</td> <td style="padding-right: 12px; border: none;"></td> <td style="padding-right: 12px; border: none;"></td> <td style="padding-right: 12px; border: none;"></td> <td style="padding-right: 12px; border: none;">137092.20<sup style="vertical-align: 0px;">*</sup></td> <td style="padding-right: 12px; border: none;"></td> </tr> <tr> <td style="padding-right: 12px; border: none;"></td> <td style="padding-right: 12px; border: none;"></td> <td style="padding-right: 12px; border: none;"></td> <td style="padding-right: 12px; border: none;"></td> <td style="padding-right: 12px; border: none;">(52404.36)</td> <td style="padding-right: 12px; border: none;"></td> </tr> <tr> <td style="padding-right: 12px; border: none;">resx2_1</td> <td style="padding-right: 12px; border: none;"></td> <td style="padding-right: 12px; border: none;"></td> <td style="padding-right: 12px; border: none;"></td> <td style="padding-right: 12px; border: none;"></td> <td style="padding-right: 12px; border: none;">100425.53</td> </tr> <tr> <td style="padding-right: 12px; border: none;"></td> <td style="padding-right: 12px; border: none;"></td> <td style="padding-right: 12px; border: none;"></td> <td style="padding-right: 12px; border: none;"></td> <td style="padding-right: 12px; border: none;"></td> <td style="padding-right: 12px; border: none;">(139782.00)</td> </tr> <tr> <td style="border-top: 1px solid black;">R<sup style="vertical-align: 0px;">2</sup></td> <td style="border-top: 1px solid black;">0.60</td> <td style="border-top: 1px solid black;">0.20</td> <td style="border-top: 1px solid black;">0.66</td> <td style="border-top: 1px solid black;">0.46</td> <td style="border-top: 1px solid black;">0.06</td> </tr> <tr> <td style="padding-right: 12px; border: none;">Adj. R<sup style="vertical-align: 0px;">2</sup></td> <td style="padding-right: 12px; border: none;">0.55</td> <td style="padding-right: 12px; border: none;">0.10</td> <td style="padding-right: 12px; border: none;">0.56</td> <td style="padding-right: 12px; border: none;">0.39</td> <td style="padding-right: 12px; border: none;">-0.06</td> </tr> <tr> <td style="padding-right: 12px; border: none;">Num. obs.</td> <td style="padding-right: 12px; border: none;">10</td> <td style="padding-right: 12px; border: none;">10</td> <td style="padding-right: 12px; border: none;">10</td> <td style="padding-right: 12px; border: none;">10</td> <td style="padding-right: 12px; border: none;">10</td> </tr> <tr> <td style="border-bottom: 2px solid black;">RMSE</td> <td style="border-bottom: 2px solid black;">217656.84</td> <td style="border-bottom: 2px solid black;">307471.84</td> <td style="border-bottom: 2px solid black;">214438.31</td> <td style="border-bottom: 2px solid black;">251948.67</td> <td style="border-bottom: 2px solid black;">332629.78</td> </tr> <tr> <td style="padding-right: 12px; border: none;" colspan="7"><span style="font-size:0.8em"><sup style="vertical-align: 0px;">***</sup>p < 0.001, <sup style="vertical-align: 0px;">**</sup>p < 0.01, <sup style="vertical-align: 0px;">*</sup>p < 0.05</span></td> </tr> </table> ] --- # Comparando scatters .pull-left[ **Ingreso <- educ `\(X_1\)`** ![](6_regmul2_files/figure-html/unnamed-chunk-23-1.png)<!-- --> ] .pull-right[ **Ingreso <- educ.parcial `\(X_{1.2}\)`** ![](6_regmul2_files/figure-html/unnamed-chunk-24-1.png)<!-- --> ] --- # Formulas directas de regresores parciales: `$$b_1=\biggl(\frac{s_y}{s_1}\biggr)\biggl(\frac{r_{y1}-r_{y2}r_{12}}{1-r^2_{12}}\biggr)$$` `$$b_2=\biggl(\frac{s_y}{s_2}\biggr)\biggl(\frac{r_{y2}-r_{y1}r_{12}}{1-r^2_{12}}\biggr)$$` --- class: inverse # RESUMEN - El control estadístico es central en regresión múltiple - Pregunta: ¿Es la relación entre _X_ e _Y_ _realmente_ debida a _X_, o hay otras variables que podrían dar cuenta de esta relación? - El control se implementa agregando predictores en el modelo que por razones teóricas se presume pueden afectar la relación del regresor principal en _Y_ - Y en términos técnicos, esto opera mediante parcialización: los predictores se parcializan mutuamente, generando coeficientes de regresión parciales. - El regresor parcial entonces es un regresor ajustado por la presencia de otro(s) regresore(s) --- class: bottom, left, exclude .right[![:scale 30%](https://escudouchile.files.wordpress.com/2012/06/logotipo-facso-ciencias-sociales-u-de-chile.png)] <br> <br> <br> <br> <br> <br> <br> <br> <br> <br> # Estadística multivariada, 1 sem. 2019 ## Juan Carlos Castillo & Alejandro Plaza