INICIO

APRENDER CONCEPTOS DE ESTADÍSTICA | RÁPIDO Y FÁCIL

En este artículo vamos a aprender conceptos básicos de estadística, para que cualquier persona pueda aprender desde el principio.

Veremos cosas como:

La idea es definir esos conceptos de forma clara y simple, para que puedas comprenderlos perfectamente.

¿Qué es la estadística?

Apuntar y ordenar datos.

Dicho de otra forma: recogida y ordenación de la información obtenida en una observación.

¿Para qué sirve la estadística?

Para ver qué pasa.

O lo que es lo mismo: Para tener una visión descriptiva de un fenómeno de la realidad.

Por ejemplo:

Perfecto.

¿De dónde viene la estadística?

Viene de cuando un político responsable tenía que analizar qué pasaba en su país. Estado, de ahí estad-ística. Es decir, analizar los datos económicos y de población del país.

Digamos que ahí tiene su origen, y que después se transformó en un set de herramientas y conceptos que podría ser utilizado en cualquier estudio de observación y descripción de fenómenos.

¿Y cómo funciona la estadística?

Muy fácil.

Uno mira una carrera de coches y apunta los tiempos de cada conductor.

Después hace un resumen y dice:

Y todas las cosas que a uno se le ocurran.

Eso se llama describir.

Estadística descriptiva

La estadística descriptiva es la parte fundamental de la estadística, y es la que se encarga de mantener los datos recogidos bien agrupados, para luego describirlos.

¿Cómo se describen los datos?

Pues dando información acerca de ellos.

Por ejemplo:

…Y de muchas cosas más.

Por eso, la estadística no es aburrida.

Simplemente hay que tomársela con alegría.

Ejemplo de resumen estadístico

Vamos a imaginar que tengo una tienda que se dedica a vender bocadillos de carne con queso y cerveza.

Estamos en una semana especial, porque el miércoles hay una fiesta de reggae justo al lado de la tienda.

Entonces contratamos a Harry Potter, que tiene que tener una libreta y un lápiz, y apuntar todo lo que pasa.

Recogida de datos

Y bueno, las cosas de la vida…

Harry Potter sigue apuntando todo a medida que pasan y pasan los días.

Llega el miércoles y hay mucha gente que viene a ver la fiesta reggae, porque hay un montón de cantantes y buena gente.

Y la tienda está feliz porque ha vendido muchos bocadillos.

Llega el final de la semana y le decimos a Potter que nos entregue los datos.

Ordenación de los datos

La libreta es super caótica y con un montón de anotaciones.

Pero no pasa nada, para eso está la estadística, para ordenar los datos.

Entonces yo que soy el dueño de la tienda, voy a interesarme por mis ventas.

Eso es un resumen estadístico.

Eso es estadística pura.

Lo que pasa es que hay más conceptos y más cosas, pero no hay que tener miedo de aprenderlos.

Conceptos de estadística

A ver.

Nos vamos al bosque, a coleccionar champiñones.

Queremos hacer un estudio estadístico de la altura de los champiñones.

CARÁCTER: propiedad que se analiza. [Altura]

DATO: valor del carácter analizado. [X centímetros]

INDIVIDUO: cada elemento al que le recogemos la información. [Champiñón]

POBLACIÓN: todo el conjunto de individuos. [Todos los champiñones]

MUESTRA: subconjunto de la población. [Algunos champiñones]

¿Para qué sirve la muestra?: Porque si hubiese ocho millones de champiñones en el bosque, quizás a mi no me interesaría medirlos todos, sino algunos de ellos, que sirvan como representantes. Cuando la población es demasiado grande, se realiza el estudio sobre una parte de ella. Y esa parte se llama muestra.

Vale.

¿Y qué pasa con eso?

Pues que al obtener los datos sobre el carácter de los individuos de la muestra de una población, tendremos que ordenarlos descriptivamente.

¿Cómo se hace eso?

Pues exacto, con una tabla de frecuencias.

Tabla de frecuencias

Una tabla.

De frecuencias.

Tabla hace referencia a tabla.

Frecuencia hace referencia a repetición.

¿Repetición de qué?

De los datos obtenidos.

Recordamos que el dato es la medición que se hace al carácter.

En mi caso champiñonero el carácter es la altura del champiñón.

Y los datos son estos (medidos en centímetros):

10, 3, 2, 4, 7, 4, 7, 2, 4, 3, 7, 8, 6, 7, 8, 7, 9

Eso es un total de 17 datos.

He hecho una medición en una muestra de 17 individuos, porque no tenía más ganas de agacharme tanto y entonces pues no he podido medir el carácter a la población completa de champiñones.

Frecuencia absoluta

Cantidad de veces que se repite cada dato.

Representaremos la frecuencia absoluta con la letra ni.

Dato ni
2 2
3 2
4 3
6 1
7 5
8 2
9 1
10 1
TOTAL 17

Eso ya va tomando forma estadística.

Por supuesto que sí.

Para empezar, ya tenemos una visión general de cuáles son los valores y cuáles se repiten más y cuáles menos.

Definiremos entonces un concepto nuevo.

MODA: el dato más repetido.

En este caso, la moda es el dato de altura 7cm, porque se repite más que ningún otro.

Lo llamamos moda porque había que darle un nombre, pero no hay que comerse la cabeza.

Es que cuando estés en una oficina con tus compañeros los estadísticos y tengas que hablar de muchas cosas, pues en vez de hablar de “el dato más repetido es el siete”, pues dirás que “la moda es siete” y punto.

Frecuencia relativa

Denotaremos la frecuencia relativa con una letra fi.

¿Relativa a qué?

Al total.

Llámalo porcentaje para gusto propio.

¿Cómo se calcula?

Pues como todos las cantidades relativas.

Con un cociente.

Dividiendo la cantidad (frecuencia absoluta) por el total de datos.

Es decir, la frecuencia absoluta del dato 4 es n=3.

Como el total de datos es 17.

Pues:

f=\frac{3}{17}=0.176470

Lo tomamos como 0.17.

Es decir.

Bravo!.

¿Y los demás?

Dato ni fi
2 2 2/17=0.12
3 2 2/17=0.12
4 3 3/17=0.17
6 1 1/17=0.06
7 5 5/17=0.29
8 2 2/17=0.12
9 1 1/17=0.06
10 1 1/17=0.06
TOTAL 17 1 (100%)

Si antes teníamos una visión global del asunto, ahora la visión es incluso mejor.

Porque directamente podemos ver relativamente qué cantidad de veces se repite cada dato.

Hay otras frecuencias que se usan con otros objetivos.

Pero no son diferentes, son una consecuencia de las dos que ya hemos visto.

Siempre estamos hablando de la misma cosa.

De la frecuencia de los datos.

Frecuencia absoluta acumulada

La denotaremos como Ni.

Este concepto representa la suma de la cantidad de datos total hasta un dato específico.

¿Qué?

Pues muy fácil.

¿Cuántos champiñones tienen altura 7 o inferior?

Pues los que tengan altura 2 ó 3 ó 4 ó 6 ó 7.

Es decir, la suma hasta los que tienen altura 7.

¿Para qué sirve la frecuencia absoluta acumulada?

Pues para eso mismo.

Para ver, en cada valor medido, cuántos datos hay por debajo.

Vamos a tabular la cosa.

Dato ni fi Ni
2 2 0.12 2
3 2 0.12 4
4 3 0.17 7
6 1 0.06 8
7 5 0.29 13
8 2 0.12 15
9 1 0.06 16
10 1 0.06 17
TOTAL 17 1 (100%) 17

Si miramos el dato 6, vemos que hay 8 champiñones con altura 6 o inferior.

No tiene más vuelta de hoja.

Es muy fácil.

Bien.

Si hemos visto hasta ahora:

¿Qué vamos a ver ahora?

Frecuencia relativa acumulada

¿Para qué?

Pues para ver qué porcentaje de elementos se han acumulado hasta un cierto dato.

¿Cómo la denotamos?

Exacto, como Fi.

Vamos sumando las frecuencias relativas una a una.

Dato ni fi Ni Fi
2 2 0.12 2 0.12
3 2 0.12 4 0.24
4 3 0.17 7 0.41
6 1 0.06 8 0.47
7 5 0.29 13 0.76
8 2 0.12 15 0.88
9 1 0.06 16 0.94
10 1 0.06 17 1
TOTAL 17 1 (100%) 17 1 (100%)

Podemos preguntar ahora.

¿Qué porcentaje de champiñones tiene una altura igual o inferior a 4 centímetros?

Y mirar la tabla de frecuencias para decir.

Ah, pues… el 41%.

Y en eso consiste básicamente la estadística descriptiva.

Aparte hay otras medidas establecidas, que por su interés inherente, son interesantes.

Medidas estadísticas

Mira.

Vamos a ver algunas que tengo ver yo, porque el lunes próximo tengo un examen y me las tengo que aprender.

Pero el objetivo no es el examen.

Mi objetivo es escribir esto.

El tuyo es comprenderlo.

Para luego saber que existen estas medidas y tener una ligera sniff sniff idea the what they are all about?

¿Vale bro?

Vale.

Pero antes de eso vamos a decir otra cosa.

Variables estadísticas

Hay datos que son números y datos que no son números.

Para ser más cool los estadísticos los llaman variables cuantitativas y cualitativas.

Pero no hay que darle demasiadas vueltas.

El caso de las alturas de los champiñones llevaba en él la variable altura de tipo cuantitativa.

Porque habla de cuant-os centímetros.

Si yo quiero mirar los nombres que existen en mi ciudad, la variable nombre sería una variable cualitativa.

Tipitis

Luego los estadísticos son tan estadísticos que hasta subdividen cada tipo en otro tipo.

Las cualitativas pueden ser que si nominales o que si ordinales porque bla bla bla.

No hay que comerse la pasta con tanta sal.

Al dente.

No más.

No te asustes por tantos tipos de tipos de tipos.

Mira con un ojo más general.

Estamos hablando de estadística.

Moda

Ya la hemos mencionado, pero no la hemos mencionado bien.

La moda es la que está de moda.

El dato más repetido.

¿Y si hay dos datos distintos que son empatadamente los más repetidos?

Pues los dos son la moda.

Y se llamarán elementos multimodales.

Mediana

Al obtener una distribución de datos ordenada de menor a mayor, la mediana será el valor del medio.

Si los datos no son números, no tiene sentido ordenarlos de menor a mayor, y no hay mediana.

Para un ejemplo de datos como este:

Sin ordenar: 3, 4, 2, 4, 5, 6, 7 | Ordenados: 2, 3, 4, 4, 5, 6, 7

La mediana es el 4, porque es el valor central.

¿Si hay dos datos en el centro?

Sin ordenar: 3, 4, 2, 4, 6, 9, 6, 7 | Ordenados: 2, 3, 4, 4, 6, 6, 7, 9

Calcularemos como mediana el valor medio de los dos valores centrales.

En este caso es 4+6/2=5.

¿Valor medio?

Sí, ya sabías lo que es.

Valor medio o media aritmética

También puedes llamarlo promedio.

Es el valor medio de todos los datos.

Se representa como x.

Se calcula sumando todos los datos obtenidos y dividiendo por el número total de datos.

Es como si cada dato fuese un buscador de trufas y cada uno ha encontrado un cierto número de trufas.

Para saber cuántas trufas corresponden a cada uno en una sociedad buena y generosa máxima habría que poner todas las trufas en un saco y repartirlas a partes iguales.

Partes iguales para cada uno, valor medio, media.

¿Cuál es nuestra media de altura en el caso de los champiñones?

\overline{x}=\frac{2+2+3+3+4+4+4+6+7+7+7+7+7+8+8+9+10}{17}=5.76

Bueno, pues la altura media, denotada con esa super x con un sombrerito encima, sería de unos 5.76 cm.

Desviación media

Mide cómo de dispersos están los datos que hemos coleccionado.

Cuando decimos dispersos decimos alejados entre ellos.

Por ejemplo, en el mapa del mundo, un grupo de personas está disperso si uno vive en Pekín, otro en Milán y otro en Oslo.

Pues lo mismo pasa con los datos.

Si tenemos una colección de datos así:

Datos A: 3, 4, 3, 4, 4, 4, 3, 4, 4, 4, 3, 3

Observamos que los datos están muy juntos.

En cambio, aquí están muy dispersos:

Datos B: 2, 56, 8, 2, 19, 3, 42, 7, 3

¿Cómo se mide cómo de dispersos están los datos?

Pues miraremos cuánto se alejan del valor medio x.

Por eso calcularemos primero la media para ambas colecciones de datos.

Para Datos A:

\overline{x}=\frac{3+4+3+4+4+4+3+4+4+4+3+3}{12}=3.58

Para Datos B:

\overline{x}=\frac{2+56+8+2+19+3+42+7+3}{9}=15.77

¿Y cómo sé cuánto se alejan mis datos de la media?

Pues viendo la diferencia entre ellos.

Las tomaremos en valor absoluto (valor positivo) porque no nos interesa si se alejan hacia un lado o hacia el otro.

Y porque luego realizaremos la media entre todas las diferencias, y si cogemos valores positivos y negativos, nos va a salir una cosa que no representa desviación media.

Bueno, desviación media de Datos A:

\frac{\mid 3-3.58 \mid + \mid 4-3.58 \mid + \mid 3-3.58 \mid + \mid 4-3.58 \mid + \mid 4-3.58 \mid + \mid 4-3.58 \mid + \mid 3-3.58 \mid + \mid 4-3.58 \mid + \mid 4-3.58 \mid + \mid 4-3.58 \mid + \mid 3-3.58 \mid + \mid 3-3.58 \mid }{12} D_{\overline{x}}=0.48

Y la de Datos B:

\frac{ \mid 2-15.77 \mid + \mid 56-15.77 \mid + \mid 8-15.77 \mid + \mid 2-15.77 \mid + \mid 19-15.77 \mid + \mid 3-15.77 \mid + \mid 42-15.77 \mid + \mid 7-15.77 \mid + \mid 3-15.77 \mid }{9} D_{\overline{x}}=15.47

Vemos que la desviación media no es otra cosa que la media de todos los alejamientos netos con respecto de la media.

Y eso está muy bien.

Pero en torno a este mismo concepto, giran otros conceptos parecidos.

Son bastante muy mucho enormemente similares, y eso puede llevar lugar a confusión.

Pero eso no significa que haya que confundirse.

Desviación típica

¿Qué?

¿Si ya hemos hablado de ella no?

No.

Nosotros hemos hablado ahora mismo de la desviación media.

En la desviación media se considera la diferencia con respecto a la media en valor absoluto.

Justo como acabamos de hacer.

La desviación típica es otra cosa.

Es la raíz cuadrada de la varianza.

¿La varianza?

Varianza

La variación de los datos.

Viene a ser lo mismo que la desviación media, pero en vez de tomar el valor absoluto de la diferencia, se toma esta diferencia elevada al cuadrado.

Ese cuadrado, aparte de quitar los valores negativos (igual que hacía el valor absoluto), enfatiza las desviaciones mayores, pues estas están elevadas al cuadrado.

Vamos a verlo.

Varianza de Datos A:

\frac{(3-3.58)^2 + (4-3.58)^2 + (3-3.58)^2 + (4-3.58)^2 + (4-3.58)^2 + (4-3.58)^2 + (3-3.58)^2 + (4-3.58)^2 + (4-3.58)^2 + (4-3.58)^2 + (3-3.58)^2 + (3-3.58)^2 }{12} \sigma ^2=0.24

Varianza de Datos B:

\frac{ (2-15.77)^2 + (56-15.77)^2 + (8-15.77)^2 + (2-15.77)^2 + (19-15.77)^2 + (3-15.77)^2 + (42-15.77)^2 + (7-15.77)^2 + (3-15.77)^2 }{9} \sigma ^2=351.06

Date cuenta de que la varianza de Datos B es muchísimo más grande, porque sus datos estaban más dispersos.

El cuadrado de las diferencias ha exagerado la situación.

Por eso es que se define la desviación típica que hemos mencionado.

Desviación típica o estándar

Esta es la raíz cuadrada de la varianza, y se define con dos motivos:

En nuestro caso, desviación típica para Datos A:

\sigma =\sqrt{0.24}=0.48

Y desviación típica para Datos B:

\sigma =\sqrt{0.24}=18.7

Date cuenta de que la desviación típica (σ) se parece más a la desviación media (Dx) cuando los datos están menos dispersos.

Perfecto.

Cuasivarianza

Este es otro concepto más que se mete en el saco, pero no hay que tenerle miedo.

Es casi la varianza, y su valor es igual que la varianza, pero en vez de dividir por el número total de datos, dividiremos por el número total de datos menos uno.

Servirá para cuando estudiemos otro tipo de estadística que se llama estadística inferencial.

Pero de momento está bien con saber que existe, y ni siquiera eso es necesario.

Datos agrupados

Hay veces que nuestro estudio estadístico cuenta con muchísimos valores diferentes.

Por ejemplo, mi gato se escapa muchas veces.

Y a lo largo de estos últimos días he anotado exactamente cuánto tiempo se escapa, en minutos.

He obtenido estos resultados:

32, 45, 52, 34, 23, 43, 12, 7, 42, 37, 41, 28, 32,
16, 4, 29, 58, 46, 35, 27, 19, 8, 36, 42, 12, 21,
8, 19, 13, 32, 27, 48, 39, 41, 12, 14, 23

Y bueno, podría tranquilamente hacer una tabla de frecuencias y considerar una fila para cada valor distinto.

Pero es que no tengo ganas de hacer tantas filas, hoy solo quiero hacer seis filas.

Pues para eso consideraré agrupar mis datos en intervalos.

¿Qué quiere decir eso?

Pues que voy a crear 6 grupos, que en estadística llamaremos clases, y meteré ahí los datos correspondientes.

CLASES ni fi Ni Fi
[0, 10) 4 4/37=0.11 4 0.11
[10, 20) 8 8/37=0.22 12 0.33
[20, 30) 7 7/37=0.19 19 0.52
[30, 40) 8 8/37=0.22 27 0.74
[40, 50) 8 8/37=0.22 35 0.96
[50, 60) 2 2/37=0.04 37 1
TOTAL 37 1 (100%) 37 1

Ventajas principales:

La desventaja principal es que estamos sacrificando precisión en nuestra información, porque ahora podemos ver que mi gato se ha escapado 8 veces entre 30 y 40 minutos, pero ya no puedo ver exactamente de cuánto tiempo exacto ha sido cada una de estas 8 escapadas.

De todas formas, esto de los datos agrupados no es ningún mundo mágico.

Es una simpleza muy grande que se usa para representar información ordenada y accesible.

Obviamente, si yo he hecho el registro de los tiempos precisos y específicos, conservaré mis datos originales, si es que me interesan.

Donde sí encontraremos un poco de dificultad, es en el cálculo de las medidas de dispersión.

Pero antes de hablar de eso, tenemos que definir el concepto de marca de clase.

¿Qué es la marca de clase?

Es el representante de cada clase.

Y tomaremos como representate al valor medio de los extremos del intervalo de cada clase.

CLASES Marca de clase (x) ni
[0, 10) (0+10)/2=5 4
[10, 20) (10+20)/2=15 8
[20, 30) (20+30)/2=25 7
[30, 40) (30+40)/2=35 8
[40, 50) (40+50)/2=45 8
[50, 60) (50+60)/2=55 2
🙂 TOTAL 37

¿Para qué sirve la marca de clase?

Para poder trabajar con las clases.

La marca de clase es un número representativo de cada intervalo, que usamos en las operaciones que deberían de hacerse con el intervalo.

Así, si queremos calcular la media de minutos que se escapó mi gato, utilizaríamos las marca de clase, y procederíamos igual que con los datos sin agrupar.

Miramos la marca de clase y miramos cuántas veces se repite (frecuencia absoluta).

\overline{x}=\frac{(5\times 4)+(15\times 8)+(25\times 7)+(35\times 8)+(45\times 8)+(55\times 2)}{37} \overline{x}=28.78

Es decir, que mi gato suele irse una media de media horita.

Hehe, qué gato tan listo tengo.

Calcular la moda en datos agrupados

Hoy mismo he hecho el examen de esto.

La verdad más sincera es que llevaba la fórmula apuntada en el bolsillo, por si me hacía falta.

Aunque al final me he acordado de memoria, pero es una soberana tontería.

A las fórmulas estropajosas hay que recurrir la menor cantidad de veces posibles.

Siempre que se pueda, es mejor aprender el concepto y su por qué.

Lo que pasa es que bueno, para exámenes y demás asuntos, y sobre todo con un cálculo tan irrelevante para mi vida como lo es la moda de unos datos agrupados, la verdad es que no iba a perder mucho el tiempo.

Esta fórmula sale de mirar la estructura de un histograma donde la altura es proporcional al la frecuencia de los datos, y ni siquiera es un resultado preciso.

Es una aproximación, que para el caso de clases que tienen la misma amplitud, es:

Mo=L_{i-1}+\frac{n_{i}-n_{i-1}}{2n_{i}-n_{i-1}-n_{i+1}}a

Donde:

Perfecto.