Unidad 2. Representación numérica y gráfica de datos
La estadística se divide en dos ramas:- Estadística descriptiva: comprende la tabulación, representación y descripción de una serie de datos que pueden ser cuantitativos, como la medida de la estatura y el peso, o cualitativas, como el sexo o el nivel socioeconómico.
- Estadística inferencial: consiste en estimar las propiedades (variables) de una población a partir del conocimiento de sólo una muestra de ella. Está basada en la estadística descriptiva y la teoría de la probabilidad.
En esta unidad se estudiará a la estadística descriptiva, aprenderás a cómo organizar,
presentar e interpretar los datos que se obtienen de las muestras tomadas de las
poblaciones. Antes de comenzar con los temas, se verá de dónde y cómo se obtienen los
datos que se van a organizar.
1.1 Recolección de datos
Cuando se realiza un trabajo para analizar los datos acerca de un hecho o fenómeno, las
personas que realizan el trabajo diseñan instrumentos para recolectar la información y
obtener los datos que necesitan. Existen muchos métodos para recolectar información,
pero los más frecuentes son:
- Censos: Es una técnica de recolección de datos que se aplica a la totalidad de los elementos que componen la población o universo que se estudia. Un censo debe cumplir dos condiciones:
- Universalidad. Esto es, se debe tomar en cuenta a todos los elementos de la población.
- Simultaneidad. Debe realizarse dentro de un periodo de tiempo limitado.
- Encuestas: Esta técnica se utiliza para recolectar información de una muestra de la población. Consiste en presentar un conjunto de preguntas abiertas (preguntas que no tienen respuestas predeterminadas) o cerradas (preguntas que cuentan con una serie de respuestas establecidas).
- Experimentos: Otra de las técnicas más usadas en estadística para recolectar información es el experimento. Un experimento es una prueba que se realiza para determinar las características o comportamiento de un objeto o sujeto. Por ejemplo, experimentar con el sentido del gusto para conocer qué alimentos nos parecen más salados
Un experimento también se define como el proceso que se realiza para verificar una
serie de hipótesis relacionadas con un determinado fenómeno, en el cual se
determinan las características o comportamientos del fenómeno que se analiza. Por
ejemplo, un experimento para determinar la velocidad de la luz en el vacío, donde se está
determinando la velocidad de la luz.
La diferencia entre la primera y la segunda definición está en que en la última se parte de
una hipótesis. En el primer ejemplo, se experimentan los sabores de los alimentos sin
antes predecir cuál sabrá más salado. En el segundo ejemplo, la hipótesis, a partir de
estudios anteriores, es que la velocidad de la luz en el vacío es de 300 000 km/seg. El
experimento verificará si esta hipótesis es cierta o no y en éste cabe un margen de error
experimental.
2.1 Organización de datos y distribución de frecuencias
Como se ha dicho anteriormente, la
estadística descriptiva organiza,
representa, describe y resume los datos
obtenidos de una población o de una
muestra de ésta, sin elaborar
inferencias ni obtener conclusiones.
Con el propósito de que los datos
obtenidos de una muestra o población
sean más significativos, es común
realizar una distribución de frecuencias
y dibujar gráficas de varios tipos para
representar dichos datos. De esta forma
se pueden tener datos agrupados y no agrupados. Y si se tienen datos agrupados, se
tienen que considerar conceptos como frecuencia e intervalo.
2.1.1 Datos no agrupados
Se denominan datos no agrupados al conjunto de datos obtenidos, que por ser muy pocos, no requieren una agrupación bajo ciertas especificaciones, En este caso, se considera que el número de daros no debe sobrepasar a 30.
¿Qué procedimiento se utiliza para organizar y presentar estos datos? En ocasiones es
útil ordenar los valores de los datos en orden creciente o decreciente pero aún esto no
resulta una labor sencilla. Recientemente, se ha encontrado una técnica para ordenarlos
denominada gráfica de tronco y hoja.
Para ilustrar la técnica gráfica de tronco y hoja,
observa las siguientes calificaciones en una
prueba de coordinación física aplicada a 20
personas que habían ingerido una cantidad de
alcohol equivalente a 0.1% de su peso.
Ahora se separan las cifras de cada número en
sus decenas y unidades, disponiendo juntos los
valores que comparten las decenas. Esto es,
pensaremos en el número 69 como 6/9.
Entonces las decenas se dispondrán en forma
vertical con unidades dispuestas al lado. Para el
conjunto de las 20 calificaciones de
coordinación física, la gráfica sería la ubicada al lado de este texto.
El primer renglón de la gráfica 5 | 2 7 5 indica que la lista contiene los valores de 52,
57 y 55. El segundo renglón indica que la lista contiene ocho valores de la decena de los
60. Esta tabla se conoce como una representación gráfica de tronco y hoja porque cada
renglón representa una posición de tronco y cada dígito a la derecha de la línea vertical
se puede considerar como una hoja.
2.1.2 Datos agrupados
Se denominan datos agrupados cuando las observaciones de una muestra se agrupan en
clases o intervalos de clase. El hecho de agrupar los datos, cuando el número de
observaciones es muy grande, permite sintetizar la información para una mejor
descripción de la muestra. Para sintetizar la información, en estadística se utilizan las
frecuencias para poder condensar los datos y entender mejor su comportamiento como a
continuación se describe.
Frecuencia
- Frecuencia: es el número de veces que se repite un dato, también se le conoce como frecuencia absoluta.
- Frecuencia acumulada: es la suma de las frecuencias absolutas de las variables hasta el renglón. También es conocida como frecuencia absoluta acumulada.
- Frecuencia relativa: es el resultado de dividir la frecuencia entre el número total de datos. Este dato también puede verse como un porcentaje.
- Frecuencia relativa acumulada: es la suma de las frecuencias relativas hasta el renglón.
En la siguiente tabla puedes ver los datos anteriores organizados en una tabla para que puedas identificar los tipos de frecuencia
mencionados (los datos siempre se ordenan de manera creciente).
Distribución de frecuencias
Como se dijo anteriormente, el hecho de agrupar los datos cuando el número de
observaciones es muy grande, permite sintetizar la información para una mejor
descripción de la muestra. Para lograrlo, las observaciones se agrupan en clases o
intervalos de clase en una tabla de distribución de frecuencias.
Una vez que se han tabulado o representado los datos, se pueden calcular medidas de
tendencia central y dispersión (que se verán más adelante), las cuales describen con
mayor precisión la muestra o población de interés.
Se iniciará con la revisión de algunos conceptos sobre el intervalo, para continuar con los
pasos a seguir para elaborar una distribución de frecuencias para una muestra de datos.
Definiciones
Ejemplo de distribución de frecuencias
Para ilustrar la distribución de frecuencias de una muestra de datos se usará el siguiente
ejemplo:
El director de una consultoría en desarrollo de software desea conocer el número de
incidencias en sus desarrollos reportadas durante los meses de agosto y septiembre.
Para ello pide a uno de sus empleados que le elabore un reporte; el empleado tiene los
siguientes datos:
35, 24, 26, 23, 50, 20, 25, 56, 30, 30, 38, 36, 35, 29, 28, 30, 40, 39, 38, 40, 27, 24, 30, 32,
35, 27, 29, 22, 28, 27, 48, 40, 48, 31, 39, 28 46, 36, 37, 52, 44, 49, 52, 41, 31, 31, 56, 58,
38, 26, 25, 24, 60, 55, 48, 37, 31, 30, 22, 20.
Tablas
Existen diferentes tipos de tablas para presentar los datos, las más utilizadas son: Tabla
de datos, Tabla de frecuencias, Tabla por intervalos de clase y Tablas de doble
entrada. A continuación se presenta en qué consiste cada una.
Tabla de datos
Una tabla de datos es la forma más sencilla de organizar un conjunto de datos y se utiliza
cuando la información que se necesita son los datos mismos. Se organizan en columnas
o renglones y se registran las mediciones o datos obtenidos.
Ejemplo:
Supón que la medición de temperatura a lo largo del día da como resultado los siguientes
valores en grados Celsius: 20.4, 21.2, 22.1, 23.9, 25.3, 26.9, 27.7. Entonces se construye
una tabla como la que se muestra
Tabla de frecuencias
Ésta nos aporta mayor información pues está formada por categorías de la variable que se esté midiendo y su frecuencia (es decir, el número de ocurrencias de un valor dado).
Ejemplo:
Supón que un experimento da los siguientes valores medidos: 1,2,2,2,1,1,5,4,3,2,2,1,3,4,5,6,2,3,4,5,
5,4,3,3,2
Se procede entonces a agrupar por categorías, según la frecuencia o número de veces que aparece cada medición:
Nota: Observa que aunque los datos son numéricos, la variable es cualitativa.
Ésta nos aporta mayor información pues está formada por categorías de la variable que se esté midiendo y su frecuencia (es decir, el número de ocurrencias de un valor dado).
Ejemplo:
Supón que un experimento da los siguientes valores medidos: 1,2,2,2,1,1,5,4,3,2,2,1,3,4,5,6,2,3,4,5,
5,4,3,3,2
Se procede entonces a agrupar por categorías, según la frecuencia o número de veces que aparece cada medición:
Nota: Observa que aunque los datos son numéricos, la variable es cualitativa.
Tabla por intervalos de clase
En este tipo de tablas los datos son presentados por intervalos de clase y no por los valores correspondientes a cada variable.
Ejemplo:
En una encuesta sobre el desempleo en el Área Metropolitana de la Ciudad de México, se organizan los datos por grupos de edades (intervalos de clase) y se presenta la frecuencia de cada intervalo, teniendo un total de 23,700 desempleados.
Tabla de doble entrada
Estas tablas proporcionan información referente a dos variables o eventos relacionados entre sí. Se forma poniendo en los renglones de la tabla la información de una de las variables y en las columnas la información de la otra variable.
Ejemplo:
Supón que se mide el número de cirugías realizadas por edades en una muestra de 100 personas, encontrándose lo que se observa en la tabla.
Una tabla cualquiera puede ser vista como una tabla de doble entrada, en la cual las variables relacionadas son los rangos contra el valor de las variables en dicho rango.
Por ejemplo:
Supón que se mide la temperatura de un líquido con respecto al tiempo de calentamiento. En el renglón se colocan los tiempos y en las columnas la temperatura obtenida. Se podría considerar como una tabla de frecuencias o como una tabla de doble entrada.
Representación gráfica de datos
En el tema anterior viste cómo tabular datos de una muestra y elaborar la distribución de frecuencias. Cuando las distribuciones se estructuran para condensar numerosos datos y representarlos en forma fácil de asimilar, es mejor presentarlos gráficamente, pues como se dice en el día a día, una fotografía dice más que mil palabras.
Ahora verás la representación gráfica de los datos. Las gráficas son representaciones visuales de los datos que se muestran en una tabla, existen diferentes tipos de gráficas, cada una de ellas se elabora con base en el tipo de información que se quiere representar.
|
El histograma también proporciona visualmente el aspecto de la distribución y dispersión de las mediciones.
|
|
Barras horizontales:
Un histograma y una gráfica de barras son muy semejantes, la diferencia radica en que el histograma no presenta separación entre las barras.
|
|
|
Gráfica circular o de pastel
|
Para representar datos u observaciones de una variable cualitativa se usa una gráfica circular. Donde se divide un círculo en secciones, las cuales son proporcionales en tamaño con las frecuencias relativas o los porcentajes correspondientes.
|
|
La representación gráfica de una distribución de frecuencias relativas acumuladas se denomina ojiva, se elabora sobre un plano de manera similar al polígono de frecuencias, pero en la ojiva el eje de las abscisas corresponde a los límites de clase y el de las ordenadas a los porcentajes acumulados.
|
Ejemplos de gráficas:
Para ilustrar los tipos de gráficas, antes mencionados, se ha considerado la siguiente tabla de datos.
Análisis de datos
La finalidad de construir distribuciones de frecuencias, ya sea con datos agrupados o no agrupados, consiste en que seas capaz de analizar e interpretar los datos, para ello, recurrirás en primera instancia al análisis de datos a partir de las frecuencias y posteriormente elaborarás representaciones gráficas que te permitan visualizar el comportamiento de los datos para obtener una primera aproximación a alguna conclusión.
Frecuencias relativas
La frecuencia relativa de una clase se obtiene dividiendo la frecuencia de cada clase entre el número total de observaciones de la muestra. Cuando estos resultados se multiplican por 100 el resultado se denomina distribución de porcentajes, la suma de las frecuencias relativas es igual a 1 (que representa al 100%). Por esta razón son muy útiles para elaborar una gráfica circular, para lo cual se requiere primero convertir la distribución de frecuencias relativas en una distribución porcentual.
Frecuencias acumuladas
Cuando se quiere establecer el número de observaciones que están por debajo de determinada clase, se suman las frecuencias de una clase con la inmediata superior, a este tipo de frecuencia se le llama frecuencia acumulada de esa clase. Si ese resultado se expresa en porcentaje se denomina distribución de porcentajes acumulados.
La ojiva, llamado gráfico de porcentajes acumulados, proporciona, hablando de estatura, el porcentaje de individuos cuya estatura es superior o inferior a determinado valor.
Sesgo de la distribución
Aunque las distribuciones de frecuencias pueden tener casi cualquier contorno o forma, como lo viste en los histogramas y las gráficas de barras del ejemplo del punto anterior, la mayoría de las distribuciones que encontrarás en la práctica se pueden describir mediante alguno de los tipos siguientes.
Fuentes de consulta para reforzamiento de los temas:
Excelentes Apuntes. mil gracias por este aporte.
ResponderEliminar