Muestras definitivas

Simulación de muestras y estimación de proporciones F. Montes Departament d’Estadística i Investigació Operativa Universitat de València Para estimar la proporción de elementos de una población que cumplen cierta condición, podemos extraer una muestra de tamaño n y ver cuantos de sus elementos cumplen la condición. Si son m los que la satisfacen, la proporción que estimaremos valdrá n m pˆ = . Como el tamaño de la muestra es fijo, la cantidad que puede variar de muestra a muestra, si tomamos varias, es m, el número de elementos que satisfacen la condición deseada, éxitos. Observemos que si la muestra cumple las condiciones de aleatoriedad exigible a toda muestra, el número de éxitos, N, será una variable Binomial con parámetros n y p, N∼B(n,p), siendo p la proporción que queremos estimar. La consecuencia inmediata es que la proporción estimada, N/n, será también una cantidad aleatoria. Nuestro interés es estudiar cómo se comporta la proporción estimada. La razón para ello es que lo habitual es trabajar con una muestra única y disponer, por tanto, de una única estimación para la proporción desconocida. Es conveniente poder añadir alguna información adicional a dicha estimación, por ejemplo, con que probabilidad superará determinados límites o cómo influye el tamaño de la muestra en la calidad de la estimación. Este comportamiento puede deducirse teóricamente, pero los conocimientos necesarios para ello están fuera del alcance de este curso, por esta razón llevaremos a cabo un estudio de simulación. Más interesante si cabe que conocer cómo se comporta la proporción estimada es conocer cómo lo hace la diferencia entre pˆ y p y, en particular, cómo depende del tamaño de la muestra para así poder determinar uno en función de la otra o viceversa. La simulación también se habrá de ocupar de estas diferencias. El estudio de simulación consiste en simular un gran número de muestras, estimar las proporciones en cada una de ellas y efectuar un sencillo análisis descriptivo. Todo ellos puede llevarse a cabo con ayuda de una herramienta de sencillo manejo como es la hoja de cálculo EXCEL . Vamos a explicar cómo hacerlo en lo que sigue. 1 Generación de muestras de una B(n,p) En la barra de herramientas seleccionamos consecutivamente 1 Herramientas 2 Análisis de Datos 3 Generación de números aleatorios Se despliegan las ventanas de diálogo que se muestran a continuación. La última de ellas permite especificar qué variable queremos generar y en cuantas ocasiones. Los valores que aparecen en el cuadro indican que queremos generar 2000 valores de una variable B(100,0.23), que serán escritos en la columna A desde la celda A1 hasta la celda A2000. Es decir, vamos a generar 2000 muestras de tamaño 100 extraídas de una población en la que la proporción de individuos que poseen la característica que nos interesa (fumar, beber cierta marca de cola, votar a determinado partido, etc.) es 0,23. 2 El resultado es como el que muestra la imagen. La columna A contiene la generación de muestras de tamaño 100, la B de tamaño 200 y la C de tamaño 300. Por ejemplo, en la 1ª muestra de tamaño 100 hemos obtenido 29 individuos con la característica de interés, en la 3ª muestra de tamaño 200 han sido 50 y en la 6ª de tamaño 300 han sido 68. Bastará dividir por el correspondiente tamaño para obtener la estimación de la proporción: pˆ 100 1, = ,0 29 pˆ 200 3, = ,0 25 pˆ 300 6, = ,0 2267 La hoja de cálculo permite obtener con facilidad las proporciones asociadas a cada valor de la Binomial generado. Basta escribir la expresión en una celda, de esa hoja o de hoja distinta, y arrastrar con el ratón sobre las sucesivas celdas de la columna. 3 El resultado será el que muestra parcialmente la imagen. En ella también aparecen valores obtenidos a partir de muestras de tamaño 400 y 500. 2 Análisis descriptivo de las proporciones estimadas Cada una de las muestras de los distintos tamaños nos ha proporcionado una estimación de p. Tenemos pues 2000 estimaciones para cada tamaño que vamos a analizar separadamente. Obtendremos algunos estadísticos de interés como la media, la desviación típica, …., de fácil obtención con la hoja EXCEL. Para ello seleccionamos consecutivamente en la barra de herramientas 1 Insertar 2 Función 3 Categoría y tipo de función de entre las posibles Se despliegan las ventanas de diálogo que se muestran a continuación. 4 La Tabla 1 nos muestra los estadísticos descriptivos obtenidos a partir de las 2000 proporciones estimadas con cada tamaño de muestra. Tabla 1.- Estadísticos descriptivos de las proporciones estimadas a partir de 2000 muestras de diferentes tamaños Algunas cosas a destacar de la Tabla 1: 1. Las medias de las proporciones estimadas prácticamente coinciden con la verdadera proporción, p=0,23. 2. La desviación típica, que nos da una idea de la variabilidad de las estimaciones, disminuye a medida que aumenta el tamaño de la muestra, confirmando lo que la intuición nos hacía suponer, que la calidad de la estimación (precisión) es tanto mejor cuanto mayor es la muestra. 3. Hemos incluido en la tabla los percentiles 2,5 y 97,5. Si recordamos el significado del percentil, el 95% de las proporciones estimadas están comprendidos entre ambos percentiles. Así, para n=100, el 2,5% de las estimaciones son menores que 0,15, otro 2,5% son mayores que 0,31 y el 95% restante está entre ambos valores. La amplitud de este intervalo, lo que llamamos AO en la última fila, decrece con el tamaño de la muestra corroborando lo que dijimos en el apartado anterior.

Comentarios