class: bottom, left <!--- Para correr en ATOM - open terminal, abrir R (simplemente, R y enter) - rmarkdown::render('9_intrologit.Rmd', 'xaringan::moon_reader') About macros.js: permite escalar las imágenes como [scale 50%](path to image), hay si que grabar ese archivo js en el directorio. ---> .right[![:scale 30%](https://escudouchile.files.wordpress.com/2012/06/logotipo-facso-ciencias-sociales-u-de-chile.png)] <br> <br> <br> <br> <br> <br> <br> # Estadística multivariada, 1 sem. 2019 ## Juan Carlos Castillo & Alejandro Plaza ## **Sesión 9**: Introducción a Regresión Logística --- class: inverse # Contenidos ## 1. Introducción ## 2. Regresión lineal vs. Regresión Logística ## 3. Odds y Odds Ratio ## 4. Logit y Regresión logística --- class: inverse, middle, center # 1. Introducción --- class: inverse, center ![:scale 45%](postertitanic.jpg) # ¿Quién sobrevive? ??? Problema: - En regresión lineal hemos visto la predicción de una variable dependiente continua basada en una o más independientes (continuas o categóricas). - ¿Qué pasa si nuestra variable dependiente es categórica?¿Podemos usar estimación de mínimos cuadrados?¿Cuáles serían las limitantes técnicas y sustantivas? - Una primera limitante a considerar: ¿Cómo obtenemos el promedio y la varianza de una variable categórica? ¿Es posible?¿Corresponde hacerlo? - En esta clase vamos a abordar las posibilidades del modelo de regresión cuando nuestra variable dependiente es categórica (dicotómica) --- ## Variables de respuesta categórica y discretas - Algunas variables dependientes están limitadas a ciertos valores. - Dos posibles valores (binaria; dicotómica) - Tres o más posibles valores * Sin orden lógica (multinomial) * Con orden lógico (ordinal) * Con orden lógico y espaciamiento intervalar (conteo) - Para aquellas respuestas, la regresión estimada por mínimos cuadrados genera una serie de problemas que abordaremos paso a paso. --- ## Variables de respuesta binaria Las respuestas binarias son aquellas que tienen dos categorías. * Y = 1 si algo es "verdadero" u ocurrió. * Y = 0 si algo "no es verdadero", o no ocurrió. Ejemplo de respuestas binarias. * Preguntas de Si/No en una encuesta; acuerdo/desacuerdo con alguna visión; Realizar/No Realizar alguna actividad. * En política: Votar o abstenerse. * En medicina: Tener/no tener cierta condición. * En educación: Responder una pregunta de una examen de manera correcta/incorrecta; graduarse o no; aprobar/reprobar un examen, etc. --- ## Fundamentos La **Regresión Logística** es un método de regresión que permite estimar la probabilidad de una variable cualitativa binaria en función de una o más variables cuantitativas. -- Una de las principales aplicaciones de la regresión logística es la de clasificación binaria, en el que las observaciones se clasifican en un grupo u otro dependiendo del valor que tome la variable empleada como predictor. -- **Ejemplos**: - Clasificar un individuo desconocido como votante o no votante en función de su nivel educacional. - Predecir la probabilidad de mortalidad (muerto/vivo) en función al consumo de tabaco --- ## Fundamentos Mediante a **t-test** o **ANOVA** podemos ver si existen diferencias estadísticamente significativas. Sin embargo, la **regresión logística** permite calcular la probabilidad de que la variable dependiente pertenezca a cada una de las dos categorías en función del valor que adquiera la variable independiente. --- class: inverse, middle, center # 2. Regresión lineal vs. regresión logística --- ## ¿Por qué no regresión lineal? Si una variable cualitativa con dos niveles se codifica como **1** y **0**, matemáticamente es posible ajusta un modelo de regresión lineal por mínimos cuadrados `\(\beta_{0}+\beta_{1}x\)`. Este modelo es conocido como _modelo de probabilidad lineal_ -- **El problema** de esta aproximación es que, al tratarse de una recta, para valores extremos del predictor, se pueden obtener valores de **Y** menores que 0 o mayores 1, lo que entra en contradicción con el hecho de que las probabilidades siempre están dentro del rango [0,1]. --- ## Ejemplo modelo de probabilidad lineal .pull-left[ ### Ataques al corazón y cigarrillos fumados al año ![](9_intrologit_files/figure-html/unnamed-chunk-1-1.png)<!-- --> ] -- .pull-right[ - Si se predice la probabilidad de ataque para alguien que tiene un consumo de cigarros mayor a 10000, el valor obtenido es mayor que 1. - Si se predice la probabilidad de ataque para alguien que tiene un consumo de cigarros de 400, el valor obtenido es menor que 0. - _¿Es una recta la mejor forma de modelar este tipo de situaciones?_ ] --- ## Modelo logístico .pull-left[ ![](9_intrologit_files/figure-html/unnamed-chunk-2-1.png)<!-- --> ] .pull-right[ - Para evitar estos problemas, la regresión logística transforma el valor devuelto por la regresión lineal ( `\(\beta0+\beta_{1}X\)` ) empleando una función cuyo resultado está siempre comprendido entre 0 y 1. - Existen varias funciones que cumplen esta descripción, una de las más utilizadas es la función logística (también conocida como función sigmoide). ] --- class: inverse, middle, center ## 3. Odds, Odds Ratio y Razón de Probabilidad --- ##Concepto de Odds. En regresión logística se modela la probabilidad de que la variable respuesta **Y** pertenezca al nivel de referencia 1 en función de los valores que adquieran los predictores mediante el uso del **Logaritmo natural de los Odds Ratios** -- ... pero antes que nada, ¿qué son los odds? -- formalmente las **odds** es la razón (o cociente) entre la ocurriencia de un evento ($p$) y su no ocurriencia ($q$) `$$Odds=\frac{p}{q}=\frac{p}{1-p}=\frac{\pi}{1-\pi}$$` --- ##Odds: paso a paso... .pull-left[ Para entender el concepto de odds examinaremos la base de datos *titanic*. Esta base de datos contiene la información de los pasajeros del Titanic: - Estatus de sobrevivencia - Clase del pasajero - Sexo - Edad - Número de hermanos/pareja a bordo - Número de padres/niños a bordo. ] .pull-right[ <img src="postertitanic.jpg" width="245" /> ] --- ## Razón o Ratio .pull-left[ Examinamos las frecuencias del estatus de supervivencia ```r table(tt$survived) ``` ``` ## ## No sobrevive Sobrevive ## 619 427 ``` -- Examinamos las probabilidades del estatus de supervivencia ```r prop.table(table(tt$survived)) ``` ``` ## ## No sobrevive Sobrevive ## 0.5917782 0.4082218 ``` ] -- .pull-right[ Existen 427 sobrevivientes, lo que expresa el 41% del total de pasajeros. Esto se puede expresar en términos de razón o ratio. `\(Odds=427/619=0.41/0.59=0.69\)` **Es decir, la probabilidad de sobrevivir es de 0.69 veces a la probabilidad de no sobrevivir.** O alternativamente **por cada 100 no sobrevivientes existen 69 sobrevivientes.** ] --- ## Odds de superviviencia para los hombres .pull-left[ Frecuencias del estatus de supervivencia en relación al sexo .small[ ```r table(tt$survived,tt$sex) ``` ``` ## ## Hombre Mujer ## No sobrevive 523 96 ## Sobrevive 135 292 ``` ] Probabilidades del estatus de supervivencia en relación al sexo (perfil columna) .small[ ```r round(prop.table(table(tt$survived,tt$sex),2),2) ``` ``` ## ## Hombre Mujer ## No sobrevive 0.79 0.25 ## Sobrevive 0.21 0.75 ``` El 21% de los hombres sobreviven en contraste el 79% no sobrevive. ] ] -- .pull-right[ Entonces los odds (o razón o ratio) de sobrevivir a la catastrofe del titanic para los hombres son: `$$Odds_{hombres}=\frac{p}{(p-1)}=\frac{0.21}{0.79}=0.27$$` **La probabilidad de sobrevivencia en los hombres es 0.27 veces a la no sobrevivencia** ... o en otros términos **Hay 0.27 hombres que sobreviven por cada uno que no sobrevive** **Hay 27 hombres que sobreviven por cada 100 hombres que no sobreviven** ] --- ## Odds de superviviencia para las mujeres .pull-left[ Examinamos las probabilidades del estatus de supervivencia en relación al sexo (perfil columna) .small[ ```r round(prop.table(table(tt$survived,tt$sex),2),2) ``` ``` ## ## Hombre Mujer ## No sobrevive 0.79 0.25 ## Sobrevive 0.21 0.75 ``` ] El 75% de las mujeres sobreviven en contraste el 25% no sobrevive. Entonces los odds (o razón o ratio) de sobrevivir a la catastrofe del titanic para los mujeres son: `$$Odds_{mujeres}=\frac{p}{(p-1)}=\frac{0.75}{0.25}=3$$` ] -- .pull-right[ **La probabilidad de sobrevivencia en las mujeres es 3 veces a la no sobrevivencia** **Hay 3 mujeres que sobreviven por cada mujer que no sobrevive** o en otros términos **Hay 300 mujeres que sobreviven al titanic por cada 100 mujeres que no sobreviven** ] --- ## Odds Ratio El termino **Odd** refiere a la razón que se establece entre la ocurrencia (o su probabilidad) respecto al suceso de su no ocurrencia. -- La comparación de los Odds de dos grupos es conocido como **Odds Ratio (OR) o ** `\(\theta\)`. Esto equivale a `$$\theta=\frac{odds_{1}}{odds_{2}}=\frac{\pi_{1}/(1-\pi_{1})}{\pi_{2}/(1-\pi_{2})}$$` --- ## Odds Ratio Una Odds Ratio es la razón (o cociente) entre dos *Odds*, carece de unidad de medida y la *Odds* del grupo de interés se debe colocar siempre en el numerador y la de referencia en el denominador. Para poder interpretar una OR es necesario tener en cuanta cuál es la variable predictora y cuál es el resultado o desenlace (variable dependiente), **Propiedades:** - Cuando X e Y son independientes `\(\theta=1\)` ya que `\(odds_{1}=odds_{2}\)` - El rango de posibles valores es: `\(0<\theta<\infty\)` -Cuando los valores van de 0 a 1, `\(\theta\)` indica que `\(odds_{1}<odds_{2}\)` -Cuando los valores van de 1 a `\(\infty\)`, `\(\theta\)` indica que `\(odds_{1}>odds_{2}\)` - Es una medida de magnitud de asociación simétrica: un `\(\theta=4\)` es una asociació positiva proporcional a la asociación negativa `\(\theta=1/4=0.25\)` --- ## Odds ratio de supervivencia para hombres y mujeres. **¿Cuánto más probable es que las mujeres sobrevivan al titanic en relación a los hombres?** -- Sabemos que los porcentajes (columna) son: .small[ ``` ## ## Hombre Mujer ## No sobrevive 0.79 0.25 ## Sobrevive 0.21 0.75 ``` ] `$$\theta=\frac{\pi_{m}/(1-\pi_{m})}{\pi_{h}/(1-\pi_{h})}=\frac{0.75/(1-0.75)}{0.21/(1-0.21)}=11.78$$` **La probabilidad de encontrar una mujer que sobreviva al titanic sobre una que no lo hace es de 11.78 veces respecto al caso de los varones.** o alternativamente: **Los odds de sobrevivir al titanic entre las mujeres es [(11.78-1)*100]=1078% más altas que entre los hombres** --- ## Odds ratio de supervivencia para hombres y mujeres. También podemos hacer la pregunta inversa **¿Cuánto más probable es que los hombres sobrevivan al titanic en relación a las mujeres?** Sabemos que los porcentajes (columna) son: .small[ ``` ## ## Hombre Mujer ## No sobrevive 0.79 0.25 ## Sobrevive 0.21 0.75 ``` ] `$$\theta=\frac{\pi_{m}/(1-\pi_{m})}{\pi_{h}/(1-\pi_{h})}=\frac{0.21/(1-0.21)}{0.75/(1-0.75)}=0.08$$` **La probabilidad de encontrar un hombre que sobreviva al titanic sobre uno que no lo hace es 0.08 veces respecto al caso de las mujeres.** alternativamente: **Los odds de sobrevivir al titanic entre los hombres es 92% ([(0.08-1)*100]=-92) más bajas que entre las mujeres.** --- ## ¿Qué tienen que ver los odds ratio con la regresión logística? .pull-left[.medium[ - Como enunciamos anteriormente, la regresión logística corresponde a una **función del logaritmo natural de los odds ratio** - En términos generales, los exponentes del logaritmo natural de los coeficientes `\(\beta\)` en la regresión logística pueden interpretarse en términos de Odds Ratio (esto lo veremos con detalle más adelante). - En la tabla se observa un modelo de regresión logística donde los coeficientes se interpretan en términos de odds ratio. - **Los odds de sobrevivir al titanic entre las mujeres es [(11.78-1)*100]=1078% más altas que entre los hombres** ] ] .pull-right[.small[ <table style="text-align:center"><tr><td colspan="2" style="border-bottom: 1px solid black"></td></tr><tr><td style="text-align:left"></td><td>Variable dependiente</td></tr> <tr><td></td><td colspan="1" style="border-bottom: 1px solid black"></td></tr> <tr><td style="text-align:left"></td><td>Sobrevivío</td></tr> <tr><td colspan="2" style="border-bottom: 1px solid black"></td></tr><tr><td style="text-align:left">Mujer</td><td>11.784<sup>***</sup></td></tr> <tr><td style="text-align:left"></td><td>(1.164)</td></tr> <tr><td style="text-align:left"></td><td></td></tr> <tr><td style="text-align:left">Constant</td><td>0.258</td></tr> <tr><td style="text-align:left"></td><td>(1.101)</td></tr> <tr><td style="text-align:left"></td><td></td></tr> <tr><td colspan="2" style="border-bottom: 1px solid black"></td></tr><tr><td style="text-align:left">Observations</td><td>1,046</td></tr> <tr><td style="text-align:left">Log Likelihood</td><td>-551.004</td></tr> <tr><td style="text-align:left">Akaike Inf. Crit.</td><td>1,106.008</td></tr> <tr><td colspan="2" style="border-bottom: 1px solid black"></td></tr><tr><td style="text-align:left"><em>Note:</em></td><td style="text-align:right"><sup>*</sup>p<0.1; <sup>**</sup>p<0.05; <sup>***</sup>p<0.01</td></tr> </table> ]] --- class: inverse, middle, center # 4. Logit y Regresión logística --- ## La relación entre Odd y proporción. El logit La relación entre odds y proporción se puede formalizar de la siguiente manera `$$odd=\frac{p}{1-p}$$` `$$(1-p)*odd=p$$` `$$odd-p*odd=p$$` `$$odd=p+p*odd$$` `$$odd=p(1+odd)$$` `$$\frac{odd}{1+odd}=p$$` --- ## Logit A partir del Odd podemos definir el logit como el logartimo natural(ln) del Odd `$$Logit=ln(Odd)=ln(\frac{p}{1-p})$$` El logit puede tomar cualquier valor real entre `\(-\infty\)` y `\(+\infty\)`. Por otro lado permite una lectura simétrica de la relación entre las proporciones, a diferencia de los odds **Por ejemplo** En una muestra 30% son hombres y 70% son mujeres `$$Odd=0.3/0.7=0.429$$` `$$Odd=0.7/0.4=0.233$$` En cambio `$$logit=ln(0.3/0.7)=-0.847$$` `$$logit=ln(0.7/0.4)=-0.847$$` --- ## Comparación logit y odds según distintas probabilidades .center[![](../images/p_odds_logodds.png)] --- ## Comparación logit y odds según distintas probabilidades .pull-left[.small[ ![](9_intrologit_files/figure-html/unnamed-chunk-15-1.png)<!-- --> Rango de `\(p\)` es [0,1]- rango de los odds es [0, `\(\infty\)` ] ] ] .pull-right[.small[ ![](9_intrologit_files/figure-html/unnamed-chunk-16-1.png)<!-- --> Rango de `\(p\)` es [0,1]- rango del logit es [ `\(-\infty\)`, `\(-\infty\)` ] ] ] --- ## El Modelo de Regresión Logística Binaria Para una base de datos con las variables `\(Y_{i},X_{1i},...,X_{ki}\)` con `\(n\)` observaciones `\(i=1,...,n\)`, donde: - `\(Y\)` es una variables binaria con valores 0 y 1 - `\(X_{1},...,X_{k}\)` son k variables explicativas - Para cada unidad `\(i\)`, la probabilidad de Y=1 se considera como `\(P(Y_{i}=1)=\pi_{i}\)` `$$ln(odd_{i})=ln(\frac{\pi_{i}}{1-\pi_{i}})=\beta_{0}+\beta_{1}X{1}+...+\beta_{k}X{k}$$` --- ## Modelando las probabilidades A pesar de que el modelo está escrito para logit, es posible hacer la transformación a probabilidades .small[ `$$ln(\frac{\pi_{i}}{1-\pi_{i}})=\beta_{0}+\beta_{1}X{1}+...+\beta_{k}X{k}$$` ] -- .small[ `$$\frac{\pi_{i}}{1-\pi_{i}}=exp(\beta_{0}+\beta_{1}X{1}+...+\beta_{k}X{k})$$` ] -- .small[ `$$\pi_{i}=(1-\pi_{i})exp(\beta_{0}+\beta_{1}X{1}+...+\beta_{k}X{k})$$` ] -- .small[ `$$\pi_{i}=exp(\beta_{0}+\beta_{1}X{1}+...+\beta_{k}X{k})-\pi_{i}exp(\beta_{0}+\beta_{1}X{1}+...+\beta_{k}X{k})$$` ] -- .small[ `$$\pi_{i}+\pi_{i}exp(\beta_{0}+\beta_{1}X{1}+...+\beta_{k}X{k})=exp(\beta_{0}+\beta_{1}X{1}+...+\beta_{k}X{k})$$` ] -- .small[ `$$\pi_{i}(1+exp(\beta_{0}+\beta_{1}X{1}+...+\beta_{k}X{k}))=exp(\beta_{0}+\beta_{1}X{1}+...+\beta_{k}X{k})$$` ] -- .small[ `$$\pi_{i}=\frac{exp(\beta_{0}+\beta_{1}X{1}+...+\beta_{k}X{k})}{(1+exp(\beta_{0}+\beta_{1}X{1}+...+\beta_{k}X{k}))}$$` ] --- class:inverse # Resumen -- - DIFICIL -- - ¿Para qué hacer regresión con dependientes categóricas? (...siendo que hay otras alternativas como diferencias de medias o tablas cruzadas) -- - CONTROL -- - ¿Es gratis? - ### NO -- - Cuadrando el círculo: ¿Cómo utilizar una función lineal para variables categóricas? -- - Restricción del rango entre 1 y 0 de la dependiente para la predicción basada en el modelo. --- class:inverse # Resumen - Requiere: - redondear el cuadrado: probabilidad, odds, odds ratio, logit, exponenciar .... -- - PERO: bases interpretación - logits se interpretan directamente como log de los odds (valores negativos y positivos) - Odds-ratio: se interpreta como razones o odds(desde 0 en adelante). Donde 1 indica ausencia de efecto, menor que 1 es negativo y mayor que 1 es positivo --- class: bottom, left .right[![:scale 30%](https://escudouchile.files.wordpress.com/2012/06/logotipo-facso-ciencias-sociales-u-de-chile.png)] <br> <br> <br> <br> <br> <br> <br> # Estadística multivariada, 1 sem. 2019 ## Juan Carlos Castillo & Alejandro Plaza ## **Sesión 8**: Introducción a Regresión Logística