Repaso de sesión anterior
Datos
Variables
Bases Estadística descriptiva: Tendencia Central y Variabilidad
Prueba de Hipótesis
Correlación
Explanandum: el fenómeno que predentemos explicar (precisión, relevancia y variabilidad).
Explanans: lo que genera la aparición del fenómeno (lógica, eficacia y claridad.)
Por leyes de cobertura.
Explicación funcional.
Explicación Estadística.
Explicación "como si".
Explicación por mecanismos.
Modelo de transmisión intergeneracional de la desigualdad.
Uno de los primeros modelos en sociología que utiliza el path analysis o analisis de sendero.
En este modelo se puede apreciar la operacionalización de un fenomeno abstracto como la transmición intergeneracional de la desigualdad.
Sinergia entre Teoría sociologíca y explicación por mecanismos.
Los datos miden al menos una característica de a los menos una unidad en a lo menos un punto en el tiempo
Característica (variable) : Tasa de natalidad
Unidad: País
Punto en el tiempo: 2017
Los datos se almacenan en una estructura de base de datos
Base de datos:
Una variable representa cualquier cosa o propiedad que varia y a la cuál se le asigna un valor. Es decir:
Variable≠Constante
Pueden ser visibles o no visibles (latentes). Y además se pueden agrupar en:
Variables discretas (Rango finito de valores):
Variables continuas.
Escalas (Stevens, 1946): la asignación de medición se manifiesta en distintos niveles o escalas. (acrónimo clave: NOIR)
Nominal: Números empleados como etiquetas (ej. sexo, raza)
Ordinales: Distintas categorías puede sen ordenados en serie. Posición, no distancia. (ej. cargos en una empresa)
Intervalares: Escalas de unidades iguales. Diferencia entre dos número consecuntivos refleja diferencia empírica. (ej. Horas del día)
Razón: caracterizados por la presencia de un cero absoluto. (ej. frecuencias de eventos)
Datos categóricos: pueden ser medidos sólo mediante escalas nominales, u ordinales en caso de orden de rango
Datos continuos:
Conversión de continuo a categórico: estatura (cm) a categorías bajo – mediano – alto
Categórica | Continua | Categórica(y)/Categórica(x) | Contínua(y)/Categórica(x) | |
---|---|---|---|---|
Ejemplo | Estatus Ocupacional | Ingreso | Estatus Ocupacional (Y) / Género (X) | Ingreso (Y) / Género (X) |
Tabla | Sin problemas | Necesidad de recodificar | Tabla de Contingencia | Clasificar Y |
Gráfico | Barras | Histograma / boxplot | Gráfico de barras condicionado | Histograma, box plot condicionado |
Estadística | Frecuencias, proporciones, odds | Media, medidas de dispersión. | Proporciones condicionadas, odds condicionados | Media condicionada, Mediana condicionada |
Variable independiente x | Variable dependiente Categórica | Variable dependiente Continua |
---|---|---|
Categórica | Análisis de tabla de Contigencia, Chi2 | Análisis de Varianza ANOVA, Prueba T |
Continua | Regresión Logística (y probit) | Regresión Lineal |
Ojo, técnicamente tambien podemos generalizar los modelos de regresión con variables independientes categoricas, pero esto requiere unas consideraciones menores, que veremos más adelante
Moda: valor que ocurre más frecuentemente
Mediana: valor medio de la distribución ordenada. Si N es par, entonces es el promedio de los valores medios
Media o promedio aritmético: suma de los valores dividido por el total de casos
Ejemplificar con ingreso
Rango: distancia entre los puntos extremos de la distribución
Rango intercuartil / semi intercuartil
Cuartiles | Percentiles | Puntajes |
---|---|---|
1 | 25 | 32,5 |
2 | 50 | 55 |
3 | 75 | 77,5 |
4 | 100 | 100 |
σ2=∑Ni=1(xi−ˉx)2N−1
ID | Pje (x) | x−ˉx | (x−ˉx)2 |
---|---|---|---|
1 | 6 | 0.4 | 0.16 |
2 | 4 | -1.6 | 2.56 |
3 | 7 | 1.4 | 1.96 |
4 | 2 | -3.6 | 12.96 |
5 | 9 | 3.4 | 11.56 |
Sum | 28 | 0 | 29.2 |
Prom | 5.6 |
σ2=(29.2)5−1
=7.3
Raiz Cuadrada de la varianza.
Se interpreta como la variabilidad promedio de los puntajes desde un punto de referencia común: el promedio de los datos.
Expresada en la mismas unidades que los puntajes.
σ=√∑Ni=1(xi−ˉx)2N−1
En el ejemplo anterior:
σ=√(29.2)25−1
=2.7
Prueba de hipótesis
Determinar si la hipótesis es congruente con los datos obtenidos en la muestra
Por ejemplo, si mi hipótesis es que hombres y mujeres poseen diferente rendimiento en matemática, el objetivo del análisis es encontrar diferencias estadísticamente significativas entre ambos grupos en la muestra
Las hipótesis no pueden ser aceptadas o descartadas 100% a partir de los estadígrafos
El rechazo de hipótesis tiene que ver con el concepto de PROBABILIDAD *Ej: ¿con qué nivel de probabilidad puedo decir que existen diferencias entre hombres y mujeres en rendimiento en matemáticas?
Por lo tanto, el elemento central en la prueba de hipótesis es establecer es la probabilidad de error que estamos cometiendo en la inferencia
Dada la probabilidad asociada a la inferencia, es imposible demostrar que algo es verdadero.
Para hacer frente a esta situación, se establecen dos tipos de hipótesis:
-Hipótesis nula ( H0 ): no existen diferencias -Hipótesis alternativa ( Ha ): existen diferencias
Objetivo de la investigación: rechazar H0
¿Tiene el entrenamiento en matemáticas un impacto en mayor puntaje SIMCE?
H0:μ0=μ1∨μentren=μpob Ha:μ0>μ1∨μentren>μpob
Tipos posibles de error
Rechazar H0 cuando esta es verdadera (Error tipo I o α)
No rechazar Ha cuando esta es falsa (Error tipo I o β)
simbolo "v" es el logical "or"
Es una técnica estadística usada para medir y describir la relación entre dos variables numéricas (nivel de medición de intervalo o de razón)
La medida más común de correlación es el coeficiente de correlación de Pearson ( r ).
Da cuenta de: Intensidad de la asociación y dirección
Su rango de variación es entre -1 y 1
Dirección
Correlación Positiva: cuando dos variables se mueven en la misma dirección. En otras palabras, cuando valores altos de una variable están asociados a valores altos en otra variable (años de educación e ingreso)
Correlación negativa: cuando las dos variables se mueven en direcciones opuestas Valores altos de una variable están asociadas con valores bajos de la otra (nivel de eficacia colectiva vecinal y sensación de inseguridad)
Asociación lineal: cuando los puntos en un diagrama tienden a tener forma de una línea recta
Correlación de Pearson mide cuán bien los puntos en un gráfico se ajustan a una relación lineal
Grado de intensidad ¿Cuán exactamente se ajustan los datos a la forma lineal específica? El grado de intensidad es medido por el valor numérico de los valores del coeficiente de correlación r
Mide el grado y la dirección de una relación lineal entre dos variables (de nivel de medición intervalo/razón)
r=Cov(x,y)σxσy
Para calcular la correlación necesitamos algo que llamaremos suma de productos de las desviaciones (SP) de X e Y
SP=∑(x−ˉx)(y−ˉy) Esto es análogo a la suma de cuadrados (SC), solo que ahora se mide la covarabilidad (COVARIANZA) entre dos variables en vez de la variación de una sola variable.
SC=∑(x−ˉx)
r de pearson = grado de variación conjunta entre x e Y partido por el grado en el cual x e y varian separadamente.
La suma de productos (SP) se usa para calcular el coeficiente de correlación Pearson r junto con la suma de cuadrados de X y de Y
r=SP(xy)√SCxSCy
o bien
r=∑(x−ˉx)(y−ˉy)√∑(x−ˉx)2∑(y−ˉy)2
Correlación NO implica causalidad: x no es causa de y ni y es causa de x; solo están asociados.
La correlación debería estar informada por teoría que haga inteligible la asociación entre X e Y.
Que no exista correlación lineal no significa (necesariamente) que las variables no estén asociadas de otra forma (curvilínea, por ejemplo)
Correlación entre el consumo de chocolate por habitantes y la cantidad de premios nobel por millon de personas.
Estimar la correlación entre puntaje en lenguaje (x) y puntaje en matemáticas (y):
id | x | y | x−ˉx | y−ˉy | (x−ˉx)∗(y−ˉy) | (x−ˉx)2 | (y−ˉy)2 |
---|---|---|---|---|---|---|---|
1 | 17 | 24 | -3 | 3 | -9 | 9 | 9 |
2 | 19 | 23 | -1 | 2 | -2 | 1 | 4 |
3 | 14 | 22 | -6 | 1 | -6 | 36 | 1 |
4 | 22 | 17 | 2 | -4 | -8 | 4 | 16 |
5 | 15 | 23 | -5 | 2 | -10 | 25 | 4 |
6 | 26 | 21 | 6 | 0 | 0 | 36 | 0 |
7 | 23 | 18 | 3 | -3 | -9 | 9 | 9 |
8 | 21 | 17 | 1 | -4 | -4 | 1 | 16 |
9 | 28 | 21 | 8 | 0 | 0 | 64 | 0 |
10 | 15 | 24 | -5 | 3 | -15 | 25 | 9 |
Sum | -63 | 210 | 68 | ||||
Prom | 20 | 21 |
r=∑(x−ˉx)(y−ˉy)√∑(x−ˉx)2∑(y−ˉy)2 =−63√210∗68 =−0.5272
x <- c(17, 19, 14, 22, 15, 26, 23, 21, 28, 15)y <- c(24, 23, 22, 17, 23, 21, 18, 17, 21, 24)
prom_x=mean(x)prom_x
## [1] 20
prom_y=mean(y)prom_y
## [1] 21
prod_difs_xy <- (x-(mean(x)))*(y-(mean(y)))sum_prod_difs_xy <- sum(prod_difs_xy)sum_prod_difs_xy
## [1] -63
dif_x2<- (x-(mean(x)))^2sum_dif_x2 <- sum(dif_x2)sum_dif_x2
## [1] 210
dif_y2<- (y-(mean(y)))^2sum_dif_y2 <- sum(dif_y2)sum_dif_y2
## [1] 68
corr=sum_prod_difs_xy/sqrt((sum_dif_x2)*(sum_dif_y2))corr
## [1] -0.5272013
... y por comando en R
cor(x,y)
## [1] -0.5272013
plot(x, y, col = "blue", main = "Gráfico de Puntos",xlab = "Puntaje Lenguaje", ylab = "Puntaje Matemáticas")abline(lm(y ~ x))
¿Cuál es la relación entre la temperatura y las ventas de helado?
A partir de la siguiente tabla calcule la correlación (y covarianza) entre la temperatura y las ventas de helado.
Temperatura | Ventas de Helado |
---|---|
66 | 8 |
72 | 11 |
77 | 15 |
84 | 20 |
83 | 21 |
71 | 11 |
65 | 8 |
70 | 10 |
Repaso de sesión anterior
Datos
Variables
Bases Estadística descriptiva: Tendencia Central y Variabilidad
Prueba de Hipótesis
Correlación
Keyboard shortcuts
↑, ←, Pg Up, k | Go to previous slide |
↓, →, Pg Dn, Space, j | Go to next slide |
Home | Go to first slide |
End | Go to last slide |
Number + Return | Go to specific slide |
b / m / f | Toggle blackout / mirrored / fullscreen mode |
c | Clone slideshow |
p | Toggle presenter mode |
t | Restart the presentation timer |
?, h | Toggle this help |
Esc | Back to slideshow |