intervalos de confianza
En estadística, se llama intervalo de confianza a un par o varios pares de números entre los cuales se estima que estará cierto valor desconocido con un determinado nivel de confianza. Formalmente, estos números determinan un intervalo, que se calcula a partir de datos de una muestra, y el valor desconocido es un parámetro poblacional. El nivel de confianza representa el porcentaje de intervalos que tomados de 100 muestras independientes distintas contienen en realidad el valor desconocido. En estas circunstancias, α es el llamado error aleatorio o nivel de significación, esto es, el número de intervalos sobre 100 que no contienen el valor1
El nivel de confianza y la amplitud del intervalo varían conjuntamente, de forma que un intervalo más amplio tendrá más probabilidad de acierto (mayor nivel de confianza), mientras que para un intervalo más pequeño, que ofrece una estimación más precisa, aumenta su probabilidad de error.
Para la construcción de un determinado intervalo de confianza es necesario conocer la distribución teórica que sigue el parámetro a estimar, θ.2 Es habitual que el parámetro presente una distribución normal. También pueden construirse intervalos de confianza con la desigualdad de Chebyshev.
En definitiva, un intervalo de confianza al 1 - α por ciento para la estimación de un parámetro poblacional θ que sigue una determinada distribución de probabilidad, es una expresión del tipo [θ1, θ2] tal que P[θ1 ≤ θ ≤ θ2] = 1 - α, donde P es la función de distribución de probabilidad de θ.
Ejemplos[editar]
Intervalo de confianza de la media de una población[editar]
De una población de media y desviación típica se pueden tomar muestras de elementos. Cada una de estas muestras tiene a su vez una media. Se puede demostrar que la media de todas las medias muestrales coincide con la media poblacional:3
Pero además, si el tamaño de las muestras es lo suficientemente grande,4 o la distribución poblacional es normal, la distribución de medias muestrales es, prácticamente, una distribución normal (o gaussiana) con media μ y una desviación típica dada por la siguiente expresión: . Esto se representa como sigue: . Si estandarizamos, se sigue que:
En una distribución Z ~ N(0, 1) puede calcularse fácilmente un intervalo dentro del cual caigan un determinado porcentaje de las observaciones, esto es, es sencillo hallar z1 y z2 tales que P[z1 ≤ z ≤ z2] = 1 - α, donde (1 - α)·100 es el porcentaje deseado (véase el uso de las tablas en una distribución normal).
En esta distribución normal de medias se puede calcular el intervalo de confianza donde se encontrará la media poblacional si solo se conoce una media muestral (), con una confianza determinada. Habitualmente se manejan valores de confianza del 95 y del 99 por ciento. A este valor se le llamará (debido a que es el error que se cometerá, un término opuesto).
Para ello se necesita calcular el punto —o, mejor dicho, su versión estandarizada o valor crítico— junto con su "opuesto en la distribución" . Estos puntos delimitan la probabilidad para el intervalo, como se muestra en la siguiente imagen:
Dicho punto es el número tal que:
Y en la versión estandarizada se cumple que:
Así:
De lo cual se obtendrá el intervalo de confianza:
Obsérvese que el intervalo de confianza viene dado por la media muestral ± el producto del valor crítico por el error estándar .
Si no se conoce y n es grande (habitualmente se toma n ≥ 30):5
Intervalo de confianza de una proporción[editar]
El intervalo de confianza para estimar una proporción p, conocida como una proporción muestral pn de una muestra de tamaño n, a un nivel de confianza del (1-α)·100% es:
En la demostración de estas fórmulas están involucrados el Teorema Central del Límite y la aproximación de una binomial por una normal.7
Ejemplo práctico[editar]
Una máquina llena tazas con helado, y se supone que está ajustada para verter la cantidad de 250 g. Como la máquina no puede llenar cada taza con exactamente 250 g, el contenido que se añade a cada taza individual presenta cierta variación y se le asigna una variable aleatoria X. Se asume que esta variación se ajusta a una distribución normal de alrededor de la cantidad promedio deseada de 250 g, con una desviación estándar de 2.5 g.
Para determinar si la máquina está adecuadamente calibrada, se toma una muestra aleatoria de n = 25 tazas de helado para pesarlas. La medición resultante es X1, ..., X25, una muestra aleatoria procedente de X.
Para μ, es suficiente con dar una estimación. El estimador adecuado es la media muestral:
La muestra señala los pesos reales x1, ..., x25, con media:
Comentarios
Publicar un comentario