Población y subpoblaciones
Supongamos que en una población finita conocemos los valores que toma una variable continua en todos sus elementos. Además de la distribución de la variable en la población, es frecuente que conozcamos el valor en los elementos de una variable cualitativa (que llamaremos atributo).
Un problema importante es determinar si existe o no relación entre ambas variables. Si entre la variable continua y la cualitativa no existe relación diremos que la variable continua es homogénea respecto a la cualitativa. EN caso de que exista relación entre ambas la población puede dividirse en poblaciones más homogéneas en función de los valores de la variable cualitativa o atributo.
Cuando exista relación entre la variable cualitativa y la continua el análisis desagregado de la distribución de la variable continua, condicionada a los valores de la cualitativa tiene las ventajas siguientes:
Análisis de homogeneidad
El análisis de homogeneidad consiste en dividir la población en subpoblaciones y estudiar si la distribución de la variable es la misma en todas ellas. Cuando esto ocurra, podemos trabajar con los datos agregados. En caso contrario, conviene trabajar con las subpoblaciones existentes.
En subpoblaciones pequeñas, en lugar de estudiar la distribución completa de la variable, que es inviable con pocos datos, nos limitaremos a investigar si las medias y desviaciones típicas de la variable en las subpoblaciones son iguales. El análisis de una tabla comienza con una descomposición de cada observación en la forma:
Valor observado = valor esperado + residuo
El valor esperado para cada elemento es la media de la subpoblación a la que pertenece. El residuo recoge el efecto de los factores que producen variabilidad en los elementos de cada subpoblación. Con estos residuos podemos calcular fácilmente la desviación típica de los datos en cada grupo, que será la raíz cuadrada de la suma de los cuadrados de los residuos dividida por el número de datos. Los residuos sumarán cero dentro de cada subpoblación, ya que son simplemente las desviaciones de los datos a la media del grupo.
Gráficos de medias y desviaciones. Gráficos de caja múltiple
Cuando el número de subpoblaciones es alto las comparaciones entre ellas pueden realizarse con herramientas gráficas. Los dos gráficos más utilizados son el gráfico de medias y desviaciones, y los diagramas de caja múltiples.
El gráfico de medias y desviaciones representa cada grupo por un intervalo de valores. El centro de este intervalo es la media del grupo y el intervalo se construye restando y sumando una desviación típica a la media.
El diagrama de caja múltiple representa conjuntamente los diagramas de caja para cada una de las subpoblaciones.
Problemas de heterogeneidad
Cuando existe heterogeneidad y se ignora, las conclusiones que obtenemos del análisis de los datos agregados pueden ser erróneas.
La Paradoja de Simpson demostró que al mezclar datos que provienen de distintas poblaciones y, por tanto, son heterogéneos, podemos llegar a conclusiones opuestas a las obtenidas teniendo en cuenta las subpoblaciones.
Un caso importante de heterogeneidad es la presencia de valores atípicos. Siempre hay que tener en cuenta esta posibilidad, especialmente cuando se trabaja con grandes masas de datos. Se ha comprobado reiteradamente que, cuando se analizan poblaciones grandes, los errores de medición o de transcripción de los datos es la regla y no la excepción.
Las poblaciones humanas son casi siempre heterogéneas, y solamente las poblaciones cuyos elementos sean objetos fabricados en situaciones similares van a ser homogéneas. ¿Cómo evitar la paradoja de Simpson? ¿Cómo subdividir la población? Si la distribución de la variable en las subpoblaciones es similar, se puede olvidar esta pequeña fuente de heterogeneidad ya que no se producirán efectos graves. Sin embargo, cuando las medias de las distribuciones están muy separadas, unirlas puede dar lugar a una visión distorsionada de la distribución de cada grupo.
Supongamos que en una población finita conocemos los valores que toma una variable continua en todos sus elementos. Además de la distribución de la variable en la población, es frecuente que conozcamos el valor en los elementos de una variable cualitativa (que llamaremos atributo).
Un problema importante es determinar si existe o no relación entre ambas variables. Si entre la variable continua y la cualitativa no existe relación diremos que la variable continua es homogénea respecto a la cualitativa. EN caso de que exista relación entre ambas la población puede dividirse en poblaciones más homogéneas en función de los valores de la variable cualitativa o atributo.
Cuando exista relación entre la variable cualitativa y la continua el análisis desagregado de la distribución de la variable continua, condicionada a los valores de la cualitativa tiene las ventajas siguientes:
- Obtenemos una representación mejor de la variable;
- Mejoramos nuestra comprensión del fenómeno estudiado.
Análisis de homogeneidad
El análisis de homogeneidad consiste en dividir la población en subpoblaciones y estudiar si la distribución de la variable es la misma en todas ellas. Cuando esto ocurra, podemos trabajar con los datos agregados. En caso contrario, conviene trabajar con las subpoblaciones existentes.
En subpoblaciones pequeñas, en lugar de estudiar la distribución completa de la variable, que es inviable con pocos datos, nos limitaremos a investigar si las medias y desviaciones típicas de la variable en las subpoblaciones son iguales. El análisis de una tabla comienza con una descomposición de cada observación en la forma:
Valor observado = valor esperado + residuo
El valor esperado para cada elemento es la media de la subpoblación a la que pertenece. El residuo recoge el efecto de los factores que producen variabilidad en los elementos de cada subpoblación. Con estos residuos podemos calcular fácilmente la desviación típica de los datos en cada grupo, que será la raíz cuadrada de la suma de los cuadrados de los residuos dividida por el número de datos. Los residuos sumarán cero dentro de cada subpoblación, ya que son simplemente las desviaciones de los datos a la media del grupo.
Gráficos de medias y desviaciones. Gráficos de caja múltiple
Cuando el número de subpoblaciones es alto las comparaciones entre ellas pueden realizarse con herramientas gráficas. Los dos gráficos más utilizados son el gráfico de medias y desviaciones, y los diagramas de caja múltiples.
El gráfico de medias y desviaciones representa cada grupo por un intervalo de valores. El centro de este intervalo es la media del grupo y el intervalo se construye restando y sumando una desviación típica a la media.
El diagrama de caja múltiple representa conjuntamente los diagramas de caja para cada una de las subpoblaciones.
Problemas de heterogeneidad
Cuando existe heterogeneidad y se ignora, las conclusiones que obtenemos del análisis de los datos agregados pueden ser erróneas.
La Paradoja de Simpson demostró que al mezclar datos que provienen de distintas poblaciones y, por tanto, son heterogéneos, podemos llegar a conclusiones opuestas a las obtenidas teniendo en cuenta las subpoblaciones.
Un caso importante de heterogeneidad es la presencia de valores atípicos. Siempre hay que tener en cuenta esta posibilidad, especialmente cuando se trabaja con grandes masas de datos. Se ha comprobado reiteradamente que, cuando se analizan poblaciones grandes, los errores de medición o de transcripción de los datos es la regla y no la excepción.
Las poblaciones humanas son casi siempre heterogéneas, y solamente las poblaciones cuyos elementos sean objetos fabricados en situaciones similares van a ser homogéneas. ¿Cómo evitar la paradoja de Simpson? ¿Cómo subdividir la población? Si la distribución de la variable en las subpoblaciones es similar, se puede olvidar esta pequeña fuente de heterogeneidad ya que no se producirán efectos graves. Sin embargo, cuando las medias de las distribuciones están muy separadas, unirlas puede dar lugar a una visión distorsionada de la distribución de cada grupo.
0 comentarios:
Publicar un comentario