Processing math: 100%
+ - 0:00:00
Notes for current slide
Notes for next slide








Estadística multivariada, 1 sem. 2019

Juan Carlos Castillo & Alejandro Plaza

Sesión 2: Bases

1 / 43

Contenidos

  1. Repaso de sesión anterior

  2. Datos

  3. Variables

  4. Bases Estadística descriptiva: Tendencia Central y Variabilidad

  5. Prueba de Hipótesis

  6. Correlación

2 / 43

1. Repaso sesión anterior

La explicación en ciencias sociales

3 / 43

El concepto de explicación en ciencias sociales

  • Explanandum: el fenómeno que predentemos explicar (precisión, relevancia y variabilidad).

  • Explanans: lo que genera la aparición del fenómeno (lógica, eficacia y claridad.)

4 / 43

Modalidades de explicación en ciencias sociales (Linares, 2018)

  • Por leyes de cobertura.

  • Explicación funcional.

  • Explicación Estadística.

  • Explicación "como si".

  • Explicación por mecanismos.

5 / 43

...Volviendo a Pedro, Juan & Diego

6 / 43

Modelo de transmisión intergeneracional de la desigualdad.

  • Uno de los primeros modelos en sociología que utiliza el path analysis o analisis de sendero.

  • En este modelo se puede apreciar la operacionalización de un fenomeno abstracto como la transmición intergeneracional de la desigualdad.

  • Sinergia entre Teoría sociologíca y explicación por mecanismos.

2. Datos

7 / 43

Datos y su representación

  • Los datos miden al menos una característica de a los menos una unidad en a lo menos un punto en el tiempo

    • Ejemplo: La tasa de natalidad en Chile el 2017 fue de 1,8 hijos (por mil habitantes)
    • Característica (variable) : Tasa de natalidad

    • Unidad: País

    • Punto en el tiempo: 2017

8 / 43

Base de Datos

  • Los datos se almacenan en una estructura de base de datos

  • Base de datos:

    • cada fila representa una unidad o caso (ej: un entrevistado)
    • cada columna una variable (ej: edad)


9 / 43

3. Variables

11 / 43

Definición

Una variable representa cualquier cosa o propiedad que varia y a la cuál se le asigna un valor. Es decir:

VariableConstante

Pueden ser visibles o no visibles (latentes). Y además se pueden agrupar en:

  • Variables discretas (Rango finito de valores):

    • Dicotómicas
    • Politómicas
  • Variables continuas.

    • Rango (teóricamente) infinito de valores.
12 / 43

Escalas de medición de variables

Escalas (Stevens, 1946): la asignación de medición se manifiesta en distintos niveles o escalas. (acrónimo clave: NOIR)

13 / 43
  • Nominal: Números empleados como etiquetas (ej. sexo, raza)

    • Ordinales: Distintas categorías puede sen ordenados en serie. Posición, no distancia. (ej. cargos en una empresa)

    • Intervalares: Escalas de unidades iguales. Diferencia entre dos número consecuntivos refleja diferencia empírica. (ej. Horas del día)

    • Razón: caracterizados por la presencia de un cero absoluto. (ej. frecuencias de eventos)

Escalas de Variables

14 / 43

Tipos de datos en relación a escalas de medición.

  • Datos categóricos: pueden ser medidos sólo mediante escalas nominales, u ordinales en caso de orden de rango

  • Datos continuos:

    • Medidos en escalas intervalares o de razón
    • Pueden ser transformados a datos categóricos
15 / 43

Conversión de continuo a categórico: estatura (cm) a categorías bajo – mediano – alto

Tipos de análisis en relación a tipos de datos.

Categórica Continua Categórica(y)/Categórica(x) Contínua(y)/Categórica(x)
Ejemplo Estatus Ocupacional Ingreso Estatus Ocupacional (Y) / Género (X) Ingreso (Y) / Género (X)
Tabla Sin problemas Necesidad de recodificar Tabla de Contingencia Clasificar Y
Gráfico Barras Histograma / boxplot Gráfico de barras condicionado Histograma, box plot condicionado
Estadística Frecuencias, proporciones, odds Media, medidas de dispersión. Proporciones condicionadas, odds condicionados Media condicionada, Mediana condicionada
16 / 43

Tipos de análisis estadístico bivariado.

Variable independiente x Variable dependiente Categórica Variable dependiente Continua
Categórica Análisis de tabla de Contigencia, Chi2 Análisis de Varianza ANOVA, Prueba T
Continua Regresión Logística (y probit) Regresión Lineal
17 / 43

Ojo, técnicamente tambien podemos generalizar los modelos de regresión con variables independientes categoricas, pero esto requiere unas consideraciones menores, que veremos más adelante

4. Bases estadística descriptiva:

Medidas de tendencia central y variabilidad

18 / 43

Tendencia Central

  • Moda: valor que ocurre más frecuentemente

  • Mediana: valor medio de la distribución ordenada. Si N es par, entonces es el promedio de los valores medios

  • Media o promedio aritmético: suma de los valores dividido por el total de casos

    • Desventaja: influencia de valores extremos
19 / 43

Ejemplificar con ingreso

Dispersión: Rangos

  • Rango: distancia entre los puntos extremos de la distribución

  • Rango intercuartil / semi intercuartil

    • Intercuartil: rango de acumulación del 50% de los datos Ej: 77,5-55=22,5
    • Semi- intercuartil: la mitad 22,5/2=11,25



Cuartiles Percentiles Puntajes
1 25 32,5
2 50 55
3 75 77,5
4 100 100
20 / 43

Dispersión: Varianza

  • Suma de las diferencias al cuadrado de cada valor (x) y el promedio de la distribución divididos por el total menos 1. Formalmente:

σ2=Ni=1(xiˉx)2N1

  • Considerando N-1 para la varianza de la muestra.
ID Pje (x) xˉx (xˉx)2
1 6 0.4 0.16
2 4 -1.6 2.56
3 7 1.4 1.96
4 2 -3.6 12.96
5 9 3.4 11.56
Sum 28 0 29.2
Prom 5.6

σ2=(29.2)51

=7.3

21 / 43

Desviación Estándar

  • Raiz Cuadrada de la varianza.

    • Se interpreta como la variabilidad promedio de los puntajes desde un punto de referencia común: el promedio de los datos.

    • Expresada en la mismas unidades que los puntajes.

σ=Ni=1(xiˉx)2N1

En el ejemplo anterior:

σ=(29.2)251

=2.7

22 / 43

5. Prueba de Hipótesis

23 / 43

Hipótesis

  • Proposición respecto a uno o varios parámetros
  • Prueba de hipótesis

    • Determinar si la hipótesis es congruente con los datos obtenidos en la muestra

    • Por ejemplo, si mi hipótesis es que hombres y mujeres poseen diferente rendimiento en matemática, el objetivo del análisis es encontrar diferencias estadísticamente significativas entre ambos grupos en la muestra

24 / 43

Prueba de Hipótesis y significación estadística

  • Las hipótesis no pueden ser aceptadas o descartadas 100% a partir de los estadígrafos

  • El rechazo de hipótesis tiene que ver con el concepto de PROBABILIDAD *Ej: ¿con qué nivel de probabilidad puedo decir que existen diferencias entre hombres y mujeres en rendimiento en matemáticas?

  • Por lo tanto, el elemento central en la prueba de hipótesis es establecer es la probabilidad de error que estamos cometiendo en la inferencia

25 / 43

Prueba de Hipótesis y significación estadística

  • Dada la probabilidad asociada a la inferencia, es imposible demostrar que algo es verdadero.

  • Para hacer frente a esta situación, se establecen dos tipos de hipótesis:

    -Hipótesis nula ( H0 ): no existen diferencias -Hipótesis alternativa ( Ha ): existen diferencias

  • Objetivo de la investigación: rechazar H0

26 / 43

Ejemplo

¿Tiene el entrenamiento en matemáticas un impacto en mayor puntaje SIMCE?

H0:μ0=μ1μentren=μpob Ha:μ0>μ1μentren>μpob

Tipos posibles de error

Rechazar H0 cuando esta es verdadera (Error tipo I o α)

No rechazar Ha cuando esta es falsa (Error tipo I o β)

27 / 43

simbolo "v" es el logical "or"

7. Correlación

28 / 43

Bases correlación

  • Es una técnica estadística usada para medir y describir la relación entre dos variables numéricas (nivel de medición de intervalo o de razón)

  • La medida más común de correlación es el coeficiente de correlación de Pearson ( r ).

  • Da cuenta de: Intensidad de la asociación y dirección

  • Su rango de variación es entre -1 y 1

Dirección

  1. Correlación Positiva: cuando dos variables se mueven en la misma dirección. En otras palabras, cuando valores altos de una variable están asociados a valores altos en otra variable (años de educación e ingreso)

  2. Correlación negativa: cuando las dos variables se mueven en direcciones opuestas Valores altos de una variable están asociadas con valores bajos de la otra (nivel de eficacia colectiva vecinal y sensación de inseguridad)

29 / 43

Correlación: Positiva y Negativa

30 / 43

Forma e intesidad de relación

Asociación lineal: cuando los puntos en un diagrama tienden a tener forma de una línea recta

Correlación de Pearson mide cuán bien los puntos en un gráfico se ajustan a una relación lineal

Grado de intensidad ¿Cuán exactamente se ajustan los datos a la forma lineal específica? El grado de intensidad es medido por el valor numérico de los valores del coeficiente de correlación r

  • Entre -1.0 y +1.0
  • Correlación r =0 indica ausencia absoluta de relación lineal
  • Correlación -1.0 indica correlación lineal perfecta negativa
  • Correlación +1.0 indica correlación lineal perfecta positiva
31 / 43

Nubes de puntos y correlaciones

32 / 43

Correlación de Pearson

Mide el grado y la dirección de una relación lineal entre dos variables (de nivel de medición intervalo/razón)

r=Cov(x,y)σxσy

Para calcular la correlación necesitamos algo que llamaremos suma de productos de las desviaciones (SP) de X e Y

SP=(xˉx)(yˉy) Esto es análogo a la suma de cuadrados (SC), solo que ahora se mide la covarabilidad (COVARIANZA) entre dos variables en vez de la variación de una sola variable.

SC=(xˉx)

33 / 43

r de pearson = grado de variación conjunta entre x e Y partido por el grado en el cual x e y varian separadamente.

Correlación de Pearson

La suma de productos (SP) se usa para calcular el coeficiente de correlación Pearson r junto con la suma de cuadrados de X y de Y

r=SP(xy)SCxSCy

o bien

r=(xˉx)(yˉy)(xˉx)2(yˉy)2

34 / 43

Aspectos a considerar

Correlación NO implica causalidad: x no es causa de y ni y es causa de x; solo están asociados.

La correlación debería estar informada por teoría que haga inteligible la asociación entre X e Y.

Que no exista correlación lineal no significa (necesariamente) que las variables no estén asociadas de otra forma (curvilínea, por ejemplo)

35 / 43

Aspectos a considerar: Ejemplo

36 / 43

Correlación entre el consumo de chocolate por habitantes y la cantidad de premios nobel por millon de personas.

Ejemplo de correlación

Estimar la correlación entre puntaje en lenguaje (x) y puntaje en matemáticas (y):

id x y xˉx yˉy (xˉx)(yˉy) (xˉx)2 (yˉy)2
1 17 24 -3 3 -9 9 9
2 19 23 -1 2 -2 1 4
3 14 22 -6 1 -6 36 1
4 22 17 2 -4 -8 4 16
5 15 23 -5 2 -10 25 4
6 26 21 6 0 0 36 0
7 23 18 3 -3 -9 9 9
8 21 17 1 -4 -4 1 16
9 28 21 8 0 0 64 0
10 15 24 -5 3 -15 25 9
Sum -63 210 68
Prom 20 21

r=(xˉx)(yˉy)(xˉx)2(yˉy)2 =6321068 =0.5272

37 / 43

Ejemplo cálculo en R

  • 1.Ingreso manual de datos
x <- c(17, 19, 14, 22, 15,
26, 23, 21, 28, 15)
y <- c(24, 23, 22, 17, 23,
21, 18, 17, 21, 24)
  • 2.Promedios
prom_x=mean(x)
prom_x
## [1] 20
prom_y=mean(y)
prom_y
## [1] 21
38 / 43

Ejemplo cálculo en R

  • 3.Numerador de Pearson: suma de productos de diferencias del Promedio
prod_difs_xy <- (x-(mean(x)))*(y-(mean(y)))
sum_prod_difs_xy <- sum(prod_difs_xy)
sum_prod_difs_xy
## [1] -63
39 / 43

Ejemplo cálculo en R

  • 4.Denominador Pearson: Raiz del producto de la suma de cuadrados de x por la de y
dif_x2<- (x-(mean(x)))^2
sum_dif_x2 <- sum(dif_x2)
sum_dif_x2
## [1] 210
dif_y2<- (y-(mean(y)))^2
sum_dif_y2 <- sum(dif_y2)
sum_dif_y2
## [1] 68
40 / 43

Ejemplo cálculo en R

  • 5.Pearson
corr=sum_prod_difs_xy/sqrt((sum_dif_x2)*(sum_dif_y2))
corr
## [1] -0.5272013

... y por comando en R

cor(x,y)
## [1] -0.5272013
41 / 43

Demostración en R

plot(x, y, col = "blue", main = "Gráfico de Puntos",
xlab = "Puntaje Lenguaje", ylab = "Puntaje Matemáticas")
abline(lm(y ~ x))

42 / 43

Ejercicio práctico

¿Cuál es la relación entre la temperatura y las ventas de helado?

A partir de la siguiente tabla calcule la correlación (y covarianza) entre la temperatura y las ventas de helado.

Temperatura Ventas de Helado
66 8
72 11
77 15
84 20
83 21
71 11
65 8
70 10
43 / 43

Contenidos

  1. Repaso de sesión anterior

  2. Datos

  3. Variables

  4. Bases Estadística descriptiva: Tendencia Central y Variabilidad

  5. Prueba de Hipótesis

  6. Correlación

2 / 43
Paused

Help

Keyboard shortcuts

, , Pg Up, k Go to previous slide
, , Pg Dn, Space, j Go to next slide
Home Go to first slide
End Go to last slide
Number + Return Go to specific slide
b / m / f Toggle blackout / mirrored / fullscreen mode
c Clone slideshow
p Toggle presenter mode
t Restart the presentation timer
?, h Toggle this help
Esc Back to slideshow