La distribución hipergeométrica es una distribución discreta que modela el número de eventos en una muestra de tamaño fijo cuando usted conoce el número total de elementos en la población de la cual proviene la muestra. Cada elemento de la muestra tiene dos resultados posibles (es un evento o un no evento). Las muestras no tienen reemplazo, por lo que cada elemento de la muestra es diferente. Cuando se elige un elemento de la población, no se puede volver a elegir. Por lo tanto, la probabilidad de que un elemento sea seleccionado aumenta con cada ensayo, presuponiendo que aún no haya sido seleccionado.
Utilice la distribución hipergeométrica para muestras obtenidas de poblaciones relativamente pequeñas, sin reemplazo. Por ejemplo, la distribución hipergeométrica se utiliza en la prueba exacta de Fisher para probar la diferencia entre dos proporciones y en muestreos de aceptación por atributos cuando se toman muestras de un lote aislado de tamaño finito.
La distribución hipergeométrica se define por 3 parámetros: tamaño de la población, conteo de eventos en la población y tamaño de la muestra.
Supongamos que hay diez automóviles disponibles para que usted los pruebe (N = 10) y cinco de ellos tienen motores turbo (x = 5). Si prueba tres de los vehículos (n = 3), ¿cuál es la probabilidad de que dos de los tres que probará tengan motores turbo?
La probabilidad de que seleccione exactamente dos automóviles con motores turbo de forma aleatoria cuando pruebe tres de los diez vehículos es 41.67%.
Tanto la distribución hipergeométrica como la distribución binomial describen el número de veces que un evento ocurre en un número fijo de ensayos. Para la distribución binomial, la probabilidad es igual para cada ensayo. Para la distribución hipergeométrica, cada ensayo cambia la probabilidad de cada ensayo subsiguiente porque no hay reemplazo.
Utilice la distribución binomial con poblaciones tan grandes que el resultado de una prueba prácticamente no tiene efecto sobre la probabilidad de que el próximo resultado sea un evento o un no evento. Por ejemplo, en una población de 100,000 personas, 53,000 tienen sangre O+. La probabilidad de que la primera persona seleccionada aleatoriamente en una muestra tenga sangre O+ es 0.530000. Si la primera persona en una muestra tiene sangre O+, entonces la probabilidad de que la segunda persona tenga sangre O+ es 0.529995. La diferencia entre estas probabilidades es lo suficientemente pequeña como para ignorarla en la mayoría de las aplicaciones.
Utilice la distribución hipergeométrica con poblaciones que sean tan pequeñas que el resultado de un ensayo tiene un gran efecto en la probabilidad de que el próximo resultado sea un evento o un no evento. Por ejemplo, en una población de 10 personas, 7 personas tienen sangre O+. La probabilidad de que la primera persona seleccionada aleatoriamente en una muestra tenga sangre O+ es 0.7000. Si la primera persona en la muestra tiene sangre O+, entonces la probabilidad de que la segunda persona tenga sangre O+ es 0.66667. La diferencia puede aumentar a medida que aumenta el tamaño de la muestra. La diferencia entre estas probabilidades es demasiado grande como para ignorarla en muchas aplicaciones.