Contenido Checked

Histograma

Temas relacionados: Matemáticas

Sabías ...

SOS Children, que corre cerca de 200 sos escuelas en el mundo en desarrollo, organizó esta selección. Para comparar obras de caridad de patrocinio este es el mejor vínculo de patrocinio .

Un ejemplo de histograma de las alturas de 31 Árboles Negro cereza.

En las estadísticas , un histograma es una visualización gráfica de tabulados frecuencias. Un histograma es la versión gráfica de una tabla que muestra qué proporción de casos se encuentra en cada uno de varios o muchos especificado categorías. El histograma se diferencia de una gráfico de barras en la que es la zona de la barra que indica el valor, no la altura, una distinción crucial cuando las categorías no son de anchura uniforme (Lancaster, 1974). Las categorías se suelen especificar como no se solapan intervalos de alguna variable. Las categorías (barras) deben ser adyacentes.

La palabra histograma se deriva del griego : histos 'nada estar en pie "(como los mástiles de un barco, el bar de un telar, o las barras verticales de un histograma);' dibujo, grabar, escribir 'gramma. El histograma es una de las siete herramientas básicas de control de calidad, que también incluyen la Diagrama de Pareto, verifique en la hoja, gráfico de control, diagrama de causa y efecto, diagrama de flujo, y diagrama de dispersión. Una generalización del histograma es kernel técnicas de suavizado. Esto construir una muy suave la función de densidad de probabilidad de los datos suministrados.

Ejemplos

Como ejemplo tenemos en cuenta los datos recogidos por la Oficina del Censo de Estados Unidos a tiempo para ir al trabajo (censo de 2000, , Tabla 5). El censo reveló que había 124 millones de personas que trabajan fuera de sus hogares. Se pide a las personas el tiempo que les toma llegar al trabajo, y sus respuestas se dividieron en categorías: menos de 5 minutos, más de 5 minutos y menos de 10, más de 10 minutos y menos de 15, y así sucesivamente. Las tablas muestran el número de personas por categoría en miles, por lo que 4180 significa 4.180.000.

Los datos en las siguientes tablas se muestran gráficamente por histogramas. Una característica interesante de los dos diagramas es el aumento en la categoría de 30 minutos. Parece probable que esta es una artefacto: media hora es una unidad común de medición del tiempo informal, por lo que las personas cuyos tiempos de viaje eran quizás un poco menos o un poco más de 30 minutos podrían sentirse inclinados a responder "30 minutos". Este redondeo es un fenómeno común en la recogida de datos de las personas.

Histograma de tiempo de viaje, US censo 2000. Área bajo la curva es igual al número total de casos. Este diagrama utiliza Q / anchura de la mesa.
Datos por números absolutos
Intervalo Ancho Cantidad Cantidad / ancho
0 5 4180 836
5 5 13687 2737
10 5 18618 3723
15 5 19634 3926
20 5 17981 3596
25 5 7190 1438
30 5 16369 3273
35 5 3212 642
40 5 4122 824
45 15 9200 613
60 30 6461 215
90 60 3435 57

Este histograma muestra el número de casos por cada intervalo de la unidad para que la altura de cada barra es igual a la proporción de personas en total en la encuesta que caen en esa categoría. El área bajo la curva representa el número total de casos (124 millones). Este tipo de histograma muestra números absolutos.


Histograma de tiempo de viaje, US censo 2000. Área bajo la curva es igual a 1. Este diagrama utiliza Q / Total / anchura de la mesa.
Datos por proporción
Intervalo Ancho Cantidad (Q) Q / Total / anchura
0 5 4180 0.0067
5 5 13687 0.0220
10 5 18618 0.0300
15 5 19634 0.0316
20 5 17981 0.0289
25 5 7190 0.0115
30 5 16369 0.0263
35 5 3212 0.0051
40 5 4122 0.0066
45 15 9200 0.0049
60 30 6461 0.0017
90 60 3435 0.0004

Este histograma difiere de la primera sólo en el escala vertical. La altura de cada barra es el porcentaje decimal del total que cada categoría representa, y el área total de todas las barras es igual a 1, el equivalente decimal del 100%. La curva que se muestra es un simple estimación de la densidad. Esta versión muestra proporciones, y también se conoce como un histograma unidad de área.

En otras palabras, un histograma representa una distribución de frecuencias por medio de rectángulos cuyas anchuras representan intervalos de clase y cuyas áreas son proporcionales a las frecuencias correspondientes. Sólo colocan las barras juntos para hacer que sea más fácil para comparar los datos.

Actividades y demostraciones

La Páginas de recursos SOCR contienen una serie de actividades prácticas interactivas que demuestran el concepto de un histograma, un histograma construcción y manipulación usando applets de Java y gráficos.

Definición matemática

En un sentido matemático más general, un histograma es un mapeo m_i que cuenta el número de observaciones que caen en distintas categorías disjuntos (conocidos como contenedores), mientras que la gráfica de un histograma es simplemente una manera de representar un histograma. Por lo tanto, si dejamos que n ser el número total de observaciones y k ser el número total de contenedores, el histograma m_i cumple con las siguientes condiciones:

n = \ sum_ {i = 1} ^ {k} m_i.

Histograma acumulativo

Un histograma acumulativo es un mapeo que cuenta el número acumulado de observaciones en todos los contenedores hasta la bandeja especificada. Es decir, el histograma acumulativo M_i de un histograma m_i se define como:

M_i = \ sum_ {j = 1} ^ {i} m_j

Número de contenedores y ancho

No hay "mejor" número de contenedores, y diferentes tamaños bin puede revelar diferentes características de los datos. Algunos teóricos han intentado determinar el número óptimo de contenedores, pero estos métodos generalmente hacer fuertes supuestos sobre la forma de la distribución. Siempre se debe experimentar con anchos de caja antes de elegir uno (o más) que ilustran las características más destacadas de los datos.

El número de contenedores k puede calcularse directamente, o desde una anchura bin sugerido h :

k = \ left \ lceil \ frac {\ max x - \ min x} {h} \ right \ rceil

Las llaves indican la función de techo.

Fórmula de Sturges
k = \ lceil \ log_2 n + 1 \ rceil

que basa implícitamente los tamaños de basura en el rango de los datos, y puede funcionar mal si n <30 .

Elección de Scott
h = \ frac {3,5 s} {n ^ {1/3}}

donde h es el ancho de caja común, y s es la muestra de la desviación estándar .

Elección Freedman-Diaconis '
h = 2 \ frac {\ operatorname {IQR} (x)} {n ^ {1/3}}

que se basa en la rango intercuartil

Datos continuos

La idea de un histograma puede ser generalizado a los datos continuos. Dejar f \ in L ^ 1 (R) (Ver Lebesgue espacio), entonces el operador histograma acumulativo H puede ser definido por:

H (f) (y) = con sólo un número finito intervalos de monotonía esto puede reescribirse como
h (f) (y) = \ sum _ {\ xi \ en \ {x: f (x) = y \}} \ frac {1} {| f '(\ xi) |} .

h (f) (y) no está definido si y es el valor de una punto estacionario.

Recuperado de " http://en.wikipedia.org/w/index.php?title=Histogram&oldid=203161357 "