Muestras definitivas
Simulación de muestras y estimación de proporciones
F. Montes
Departament d’Estadística i Investigació Operativa
Universitat de València
Para estimar la proporción de elementos de una población que cumplen cierta
condición, podemos extraer una muestra de tamaño n y ver cuantos de sus elementos
cumplen la condición. Si son m los que la satisfacen, la proporción que estimaremos
valdrá
n
m
pˆ = .
Como el tamaño de la muestra es fijo, la cantidad que puede variar de muestra a
muestra, si tomamos varias, es m, el número de elementos que satisfacen la condición
deseada, éxitos. Observemos que si la muestra cumple las condiciones de aleatoriedad
exigible a toda muestra, el número de éxitos, N, será una variable Binomial con
parámetros n y p, N∼B(n,p), siendo p la proporción que queremos estimar. La
consecuencia inmediata es que la proporción estimada, N/n, será también una cantidad
aleatoria.
Nuestro interés es estudiar cómo se comporta la proporción estimada. La razón
para ello es que lo habitual es trabajar con una muestra única y disponer, por tanto, de
una única estimación para la proporción desconocida. Es conveniente poder añadir
alguna información adicional a dicha estimación, por ejemplo, con que probabilidad
superará determinados límites o cómo influye el tamaño de la muestra en la calidad de
la estimación. Este comportamiento puede deducirse teóricamente, pero los
conocimientos necesarios para ello están fuera del alcance de este curso, por esta razón
llevaremos a cabo un estudio de simulación. Más interesante si cabe que conocer cómo
se comporta la proporción estimada es conocer cómo lo hace la diferencia entre pˆ y p y,
en particular, cómo depende del tamaño de la muestra para así poder determinar uno en
función de la otra o viceversa. La simulación también se habrá de ocupar de estas
diferencias.
El estudio de simulación consiste en simular un gran número de muestras,
estimar las proporciones en cada una de ellas y efectuar un sencillo análisis descriptivo.
Todo ellos puede llevarse a cabo con ayuda de una herramienta de sencillo manejo
como es la hoja de cálculo EXCEL
. Vamos a explicar cómo hacerlo en lo que sigue.
1 Generación de muestras de una B(n,p)
En la barra de herramientas seleccionamos consecutivamente
1 Herramientas
2 Análisis de Datos
3 Generación de números aleatorios
Se despliegan las ventanas de diálogo que se muestran a continuación. La última
de ellas permite especificar qué variable queremos generar y en cuantas ocasiones. Los
valores que aparecen en el cuadro indican que queremos generar 2000 valores de una
variable B(100,0.23), que serán escritos en la columna A desde la celda A1 hasta la
celda A2000. Es decir, vamos a generar 2000 muestras de tamaño 100 extraídas de una
población en la que la proporción de individuos que poseen la característica que nos
interesa (fumar, beber cierta marca de cola, votar a determinado partido, etc.) es 0,23.
2
El resultado es como el que muestra la imagen. La
columna A contiene la generación de muestras de tamaño
100, la B de tamaño 200 y la C de tamaño 300. Por
ejemplo, en la 1ª muestra de tamaño 100 hemos obtenido
29 individuos con la característica de interés, en la 3ª
muestra de tamaño 200 han sido 50 y en la 6ª de tamaño
300 han sido 68. Bastará dividir por el correspondiente
tamaño para obtener la estimación de la proporción:
pˆ
100 1, = ,0 29 pˆ
200 3, = ,0 25 pˆ
300 6, = ,0 2267
La hoja de cálculo permite obtener con facilidad las proporciones asociadas a
cada valor de la Binomial generado. Basta escribir la expresión en una celda, de esa
hoja o de hoja distinta, y arrastrar con el ratón sobre las sucesivas celdas de la columna.
3
El resultado será el que muestra parcialmente la imagen. En ella también aparecen
valores obtenidos a partir de muestras de tamaño 400 y 500.
2 Análisis descriptivo de las proporciones estimadas
Cada una de las muestras de los distintos tamaños nos ha proporcionado una
estimación de p. Tenemos pues 2000 estimaciones para cada tamaño que vamos a
analizar separadamente. Obtendremos algunos estadísticos de interés como la media, la
desviación típica, …., de fácil obtención con la hoja EXCEL. Para ello seleccionamos
consecutivamente en la barra de herramientas
1 Insertar
2 Función
3 Categoría y tipo de función de entre las posibles
Se despliegan las ventanas de diálogo que se muestran a continuación.
4
La Tabla 1 nos muestra los estadísticos descriptivos obtenidos a partir de las 2000
proporciones estimadas con cada tamaño de muestra.
Tabla 1.- Estadísticos descriptivos de las proporciones estimadas a partir de 2000 muestras de
diferentes tamaños
Algunas cosas a destacar de la Tabla 1:
1. Las medias de las proporciones estimadas prácticamente coinciden con la
verdadera proporción, p=0,23.
2. La desviación típica, que nos da una idea de la variabilidad de las
estimaciones, disminuye a medida que aumenta el tamaño de la muestra,
confirmando lo que la intuición nos hacía suponer, que la calidad de la
estimación (precisión) es tanto mejor cuanto mayor es la muestra.
3. Hemos incluido en la tabla los percentiles 2,5 y 97,5. Si recordamos el
significado del percentil, el 95% de las proporciones estimadas están
comprendidos entre ambos percentiles. Así, para n=100, el 2,5% de las
estimaciones son menores que 0,15, otro 2,5% son mayores que 0,31 y el
95% restante está entre ambos valores. La amplitud de este intervalo, lo que
llamamos AO en la última fila, decrece con el tamaño de la muestra
corroborando lo que dijimos en el apartado anterior.
Comentarios
Publicar un comentario