Datos Categóricos

¿Qué son los datos categóricos?

Los datos categóricos son aquellos que representan cualidades o características que no pueden ser medidas numéricamente, sino que pertenecen a una categoría específica. Por ejemplo, el color de los ojos, el género, el estado civil, etc. A diferencia de los datos numéricos, los datos categóricos no se ordenan de menor a mayor.

¿Cómo construir una distribución de frecuencias para datos categóricos?

  1. Identifica las categorías:

    • Haz una lista de todas las categorías posibles que puede tomar la variable. Por ejemplo, si estás analizando el color de los ojos, tus categorías podrían ser: azul, verde, café, negro, otros.
  2. Cuenta las frecuencias:

    • Revisa cada dato individual y cuenta cuántas veces aparece cada categoría. Por ejemplo, si tienes 100 personas y 30 tienen ojos azules, la frecuencia absoluta para la categoría "azul" es 30.
  3. Organiza los datos en una tabla:

    • Crea una tabla con dos columnas:
      • Categoría: Aquí anotas cada una de las categorías identificadas.
      • Frecuencia: Aquí anotas el número de veces que aparece cada categoría.
  4. Calcula la frecuencia relativa (opcional):

    • La frecuencia relativa te indica el porcentaje de datos que pertenecen a cada categoría. Se calcula dividiendo la frecuencia absoluta de cada categoría entre el número total de datos y multiplicando por 100.

Ejemplo:

Imagina que realizamos una encuesta sobre el tipo de mascota que tienen 50 personas. Los resultados son los siguientes:

  • Perro: 25
  • Gato: 15
  • Pájaro: 5
  • Otro: 5

La tabla de distribución de frecuencias quedaría así:

MascotaFrecuencia AbsolutaFrecuencia Relativa (%)
Perro2550%
Gato1530%
Pájaro510%
Otro510%

¿Para qué sirve una distribución de frecuencias para datos categóricos?

  • Visualización: Permite tener una visión rápida y clara de la distribución de los datos.
  • Comparación: Facilita la comparación entre las diferentes categorías.
  • Análisis: Sirve de base para realizar análisis más complejos, como calcular porcentajes, moda, etc.

Consideraciones adicionales:

  • Datos categóricos nominales y ordinales: Los datos categóricos pueden ser nominales (no tienen un orden natural, como el color de los ojos) u ordinales (tienen un orden natural, como niveles de educación). La construcción de la tabla de frecuencias es similar en ambos casos.
  • Gráficos: Las distribuciones de frecuencias para datos categóricos se suelen representar gráficamente mediante gráficos de barras o diagramas de sectores.

Medidas de tendencia central.

Si bien las medidas de tendencia central como la media están diseñadas principalmente para datos numéricos, podemos calcular algunas de ellas en datos categóricos, aunque con ciertas limitaciones y adaptaciones.

¿Por qué hay limitaciones?

  • Orden: La media, por ejemplo, implica un orden numérico que no existe en datos categóricos nominales.
  • Operaciones aritméticas: Muchas medidas de tendencia central requieren realizar operaciones aritméticas como sumas y divisiones, que no son aplicables a categorías.

La media o la desviación estándar.

No, no es posible calcular la media o la desviación estándar con datos categóricos. Estos cálculos requieren datos numéricos. Los datos categóricos representan categorías o grupos y no tienen un orden numérico inherente.

Para datos categóricos, se suelen utilizar otras medidas estadísticas, como la moda (la categoría más frecuente) o la frecuencia (cuántas veces aparece cada categoría). Si necesitas trabajar con datos categóricos, podrías considerar convertirlos en datos numéricos mediante técnicas como la codificación, pero esto depende del contexto y del análisis que desees realizar.

¿Qué medida podemos calcular?

La única medida de tendencia central que tiene sentido calcular en datos categóricos es la moda.

  • Moda: Representa la categoría que ocurre con mayor frecuencia. Es decir, la categoría más "popular" en el conjunto de datos.

Ejemplo:

Volviendo al ejemplo de las mascotas, donde teníamos:

MascotaFrecuencia Absoluta
Perro25
Gato15
Pájaro5
Otro5

En este caso, la moda es perro. Esto significa que, entre las personas encuestadas, la mascota más común es el perro.

¿Qué otras medidas podríamos considerar?

Aunque no son estrictamente medidas de tendencia central, podemos calcular otras estadísticas descriptivas para datos categóricos:

  • Proporciones: El porcentaje de observaciones que caen en cada categoría.
  • Frecuencias relativas: La frecuencia absoluta de cada categoría dividida por el total de observaciones.

En resumen:

Si bien no podemos calcular la media o la mediana en datos categóricos, la moda nos proporciona una valiosa información sobre la categoría más frecuente. Además, las proporciones y frecuencias relativas nos ayudan a entender la distribución de los datos en las diferentes categorías.



Comentarios

Entradas más populares de este blog

Principios SOLID

Descomposición arquitectónica de software

Gráficas de Pareto