Introducción a la estadística

La estadística en las Ciencias Sociales

La Estadística constituye una poderosa herramienta para generar conocimientos y se aplica en las Ciencias Sociales para medir las relaciones entre variables y hacer predicciones sobre ellas.
La palabra Estadística quiere decir ciencia del Estado. Desde la antigüedad, los estados han recogido datos sobre sus habitantes con el objetivo principal de recaudar impuestos y tributos, y reclutar jóvenes para el ejército.
Hasta el siglo XIX, la Estadística es una ciencia descriptiva que utiliza medias y gráficos para sintetizar datos sociales y económicos. A partir del siglo XIX se va transformando paulatinamente en una ciencia normativa para extraer conclusiones de los datos, prever la evolución de variables y guiar la toma de decisiones en ambiente de incertidumbre; está transformación es posible por la incorporación del concepto de probabilidad.
La idea de probabilidad surge ligada a los juegos de azar. Cuando el ser humano se enfrentó a fenómenos que no tenían una causa clara como los asociados al clima, a la vida, o al juego, se atribuyó el resultado a la voluntad de los dioses.
En el siglo XV, en el Renacimiento italiano, algunos científicos como Galileo perciben por primera vez que hay regularidades en las tiradas de un dado al observar que, si el dado está bien hecho, todas las caras tienden a salir con la misma frecuencia a lo largo del tiempo. Esta regularidad hizo dudar de la participación de divinidades en estos fenómenos y abrió la puerta a que el análisis de los fenómenos aleatorios se extendiera más allá de los juegos de azar. El primer estudio sistemático de un juego de azar fue realizado por Pascal y Fermat en Francia durante el siglo XVIII.
Durante los siglos XVIII y XIX los científicos se dieron cuenta de que hechos como el sexo de un bebé al nacer o que un navío naufrague en una travesía son fenómenos aleatorios similares a los observados en los juegos de azar y pueden analizarse con las mismas técnicas.
El impulso fundamental para la aparición de la Estadística fue la necesidad de estimar cantidades desconocidas a partir de muestras. Este problema llevó a Gauss a introducir la distribución normal como modelo de los errores de medida y a Quetelet a utilizar una distribución para describir y estimar las características sociales medias de los miembros de una comunidad. A finales de siglo, F. Galton y K. Pearson inventaron métodos para medir relaciones entre variables sociales e introdujeron la idea de regresión y de coeficiente de correlación.
En el siglo XX la Estadística se extiende a todos los campos científicos gracias a los avances de R. A. Fisher, E. Pearson y J. Neyman. La expansión de sus aplicaciones ha dado lugar a disciplinas específicas como la Econometría, la Biometría o la Psicometría. EN la actualidad, la Estadística es una de las disciplinas más estudiadas y utilizadas.

Etapas de un estudio estadístico

Un análisis estadístico se lleva a cabo siguiendo las etapas habituales del llamado método científico. En primer lugar, el planteamiento del problema, consiste en definir el objetivo de la investigación y precisar el universo o población al que se refiere la pregunta. En segundo lugar, la recogida de información muestral consistente en la formulación de la/s pregunta/s a un grupo de personas. Los valores obtenidos constituyen una muestra. En tercer lugar, el análisis descriptivo se lleva a cabo resumiendo los datos disponibles para extraer la información relevante en nuestro estudio. En cuarto lugar, la inferencia estadística se hace suponiendo un modelo para la población e interpretando los datos a la luz del modelo para obtener conclusiones generales. Finalmente, es necesario diagnosticar la validez de los supuestos del modelo que nos han permitido interpretar los datos y llegar a conclusiones sobre la población.

Población y variables

El universo de objetos al cual se refiere un estudio que se pretende realizar recibe le nombre de población.
Cada rasgo o característica de los elementos de una población constituye lo que se llama una variable o variable estadística.
Las variables pueden ser, esencialmente, de dos tipos: cualitativas y cuantitativas.
Las variables cualitativas son aquellas que no aparecen de manera numérica, sino como categorías o atributos (sexo, color de ojos, profesión, etc). A veces también reciben el nombre de variables categóricas.
Las variables cuantitativas son las que pueden expresarse numéricamente (peso, goles, temperatura, etc). Una primera clasificación, basada en el tipo de valores que pueden tomar, permite distinguir entre variables cuantitativas discretas ( que sólo toman valores enteros) y continuas (pueden contener cifras decimales).
Dependiendo de su naturaleza y del tipo de operaciones que se pueden realizar con ellas, las variables cuantitativas se clasifican también en cuatro clases: nominales, ordinales, de intervalo y de cociente.
Las nominales son variables cualitativas que se convierten en cuantitativas asignando números a las categorías. Las variables ordinales recogen la idea de orden, pero no tiene sentido realizar operaciones aritméticas con ellas. Las variables de intervalo incluyen la noción de orden y admiten las operaciones de suma y resta. Un rasgo de este tipo de variables es que no hay un valor que sea el cero. Finalmente, las de cociente admiten cualquier tipo de operación matemática. La naturaleza de las variables con las que se trabaja es importante porque de ella depende el tipo de técnicas que pueden utilizarse para estudiarlas.

Variables cualitativas
Los datos correspondientes a las variables cualitativas se agrupan de manera natural en diferentes categorías o clases. Si la variable puede tomar valores pertenecientes a k clases, representaremos por : n1, n2,..., nk el número de datos que aparecen en cada una de ellas. El valor ni representa el número de observaciones de la clase i-ésima y recibe el nombre de frecuencia absoluta de dicha clase. La proporción ni/N (siendo N el número total de datos) de datos en cada una de las clases la denotaremos por fi y recibe el nombre de frecuencia relativa de la i-ésima clase. Las frecuencias son números no negativos de forma que la suma de las frecuencias absolutas es igual a N (el número total de observaciones) y la suma de las frecuencias relativas es uno.
El interés de las frecuencias relativas radica en que permiten comparar las frecuencias de las clases en conjuntos de datos con distinto número de observaciones. La tabla que presenta las clases o categorías de la variable y sus respectivas frecuencias se llama distribución de frecuencias y constituye el resumen más importante de la información contenida en una variable cualitativa.
Las variables cualitativas las podemos representar mediante varios tipos de representaciones gráficas. El diagrama de barras permite visualizar de manera sencilla la distribución de una variable cualitativa. Para construirlo, basta con dibujar sobre la clase correspondiente una barra (o rectángulo) cuya altura coincida con la frecuencia (absoluta o relativa) de dicha clase. Si se ordenan las clases de mayor a menor frecuencia y se dibujan rectángulos, se tiene el diagrama de Pareto. En la parte superior de la figura suele trazarse una línea que expresa la frecuencia total de cada clase y las que la preceden.
El pictograma consiste en un círculo en el que se representan sectores ( o porciones) con áreas proporcionales a las frecuencias de cada una de las clases. Se construye tomando ángulos proporcionales a las frecuencias para cada una de las clases.
La descripción numérica natural de una variables cualitativa o categórica viene dada por la frecuencia relativa fi –o proporción de datos pi- de cada una de las clases. El dato o clase de mayor frecuencia recibe el nombre de moda o clase modal y sirve como descripción de la variable en el sentido de ser el dato o clase más representativo por ser el más frecuente. Como puede existir más de una clase o dato con la máxima frecuencia, la moda no es necesariamente única.

Variables cuantitativas
La naturaleza numérica de las variables cuantitativas permite un tratamiento estadístico más elaborado, pues con ellas pueden realizarse operaciones matemáticas que llevan a una descripción más precisa y completa.

Distribución de frecuencias unidimensionales

La noción de distribución de frecuencias para variables discretas es semejante a la de variables cualitativas ya que las clases en que se agrupan los datos vienen también dadas de forma natural por los valores de la variable.
A diferencia de lo que ocurre con los datos cualitativos, ahora las clases vienen ordenadas de forma natural de menor a mayor y esto permite introducir la idea de distribución de frecuencias acumuladas. Para construirla, basta ir sumando las frecuencias de cada clase con las de las clases anteriores: si se hace con frecuencias absolutas, se obtiene la distribución de frecuencias absolutas acumuladas y si se realiza con las frecuencias relativas, se llega a la distribución de frecuencias relativas acumuladas.
La información sobre los datos que proporcionan la distribución de frecuencias y la distribución de frecuencias acumuladas es equivalente, pues cada una de ellas puede obtenerse a partir de la otra.
El análisis de la distribución de frecuencias de las variables cuantitativas continuas es más complejo ya que las categorías no vienen dadas de forma natural por la variable, sino que deben elegirse. El primer paso para construir la tabla de distribución de frecuencias es dividir el recorrido (conjunto de posibles valores de la variable) en clases o intervalos que no se solapen. Al punto central de cada uno de estos intervalos lo llamaremos marca de clase y los representaremos por ci. Una vez elegidas las clases, los elementos que aparecen en la distribución de frecuencias son los mismos que los de las variables cualitativas o las cuantitativas discretas, así denotaremos por n1, n2,..., nk las frecuencias absolutas de las k clases y por:

las correspondientes frecuencias relativas.
Igual que ocurre con las variables discretas, las clases aparecen ordenadas de manera natural y esto permite introducir la idea de distribución de frecuencias acumuladas para variables continuas.
Conviene recordar que el último valor de la distribución de frecuencias absolutas acumuladas coincide siempre con el número total de observaciones y que los valores no decrecen –se suman cantidades no negativas-. Análogamente, el último valor de la distribución de frecuencias relativas acumuladas es uno (salvo error de redondeo) y también son no decrecientes.
La distribución de frecuencias acumuladas permite conocer inmediatamente la proporción de observaciones por debajo de cierto valor, o entre dos valores especificados, o por encima de cierta cantidad.

Representaciones gráficas

Histograma de frecuencias
El histograma es un gráfico para la distribución de una variable cuantitativa continua que representa frecuencias mediante áreas. Si en la distribución se toman clases de la misma longitud, las frecuencias son proporcionales a las alturas de los rectángulos del histograma. Por tanto, en este caso, cada altura da idea de la densidad o concentración de datos en esa zona: donde hay más altura, aparecen frecuentemente valores de la variable; donde hay menos, los datos son escasos.
A diferencia del diagrama de barras y del de Pareto, los rectángulos verticales representan se representan contiguos para reflejar la idea de que la variable es continua. El área total encerrada por el histograma es uno cuando representa frecuencias relativas.
La forma del histograma refleja propiedades importantes de la variables estadística a la que se refiere. En primer lugar, hay que notar que la forma es la misma, tanto si las alturas reflejan frecuencias absolutas como si expresan frecuencias relativas (sólo se modifica la escala vertical). En cambio, el aspecto del histograma sí se ve afectado por la elección del punto donde comienza la primera clase y por el ancho de las clases. Una regla utilizada frecuentemente cuando tenemos N observaciones es tomar el número de clase igual a . En general, se puede empezar por una cantidad pequeña de clases y, a partir del histograma, decidir si aumentando su número se obtiene más información sobre las características de la variable.
El histograma -como el diagrama de barras- ayuda a poner de relieve rasgos de una variable que pueden apreciarse visualmente; en particular, es inmediato comprobar si la distribución es simétrica alrededor de algún eje vertical o si existen picos máximos –modas-. Es también útil considerar histogramas para representar gráficamente la distribución de frecuencias acumuladas de variables continuas.

El polígono de frecuencias
El polígono de frecuencias es una representación gráfica de la distribución de frecuencias que resulta esencialmente equivalente al histograma y se obtiene uniendo mediante segmentos los centros de las base superiores de sus rectángulos.
La misma idea de unir los puntos medios de las bases superiores de los rectángulos permite construir el polígono de frecuencias acumuladas a partir del histograma de frecuencias acumuladas.
La diferencia esencial entre los histogramas y los polígonos de frecuencias es que éstos proporcionan una representación más suavizada de la distribución de frecuencias.

El diagrama de tallos y hojas
El diagrama de tallos y hojas fue introducido por Tukey en 1977 y permite obtener simultáneamente una distribución de frecuencias de una variable y su representación gráfica. Para construirlo basta separar en cada dato el último dígito de la derecha (que constituye la hoja) del bloque de cifras restantes (que formará el tallo).
Una de las ventajas del diagrama de tallos y hojas es que permite recuperar los datos que conformaban el conjunto original de observaciones a partir del gráfico, cosa que no puede hacerse con el histograma o con el polígono de frecuencias.

Compartir