DISEÑO DE LA CALIDAD DE LA SIMULACION
Hasta ahora hemos estudiado cómo simular probabilidades de elección pero no hemos estudiado las
propiedades de los estimadores de los parámetros que se basan en estas probabilidades simuladas. En
los casos que hemos presentado, simplemente hemos insertado las probabilidades simuladas en la
función log-verosimilitud y hemos maximizado dicha función, de la misma forma que lo habríamos
hecho si las probabilidades hubieran sido exactas. Este procedimiento parece intuitivamente razonable.
Sin embargo, no hemos mostrado realmente, al menos hasta ahora, que el estimador resultante tenga
propiedades deseables, como consistencia, normalidad asintótica o eficiencia. Tampoco hemos
explorado la posibilidad de que otras formas de estimación puedan ser preferibles cuando usamos
simulación, en lugar de las probabilidades exactas.
El propósito de este capítulo es examinar varios métodos de estimación en el contexto de la simulación.
Derivaremos las propiedades de estos estimadores y mostraremos las condiciones en las que cada
estimador es consistente y asintóticamente equivalente al estimador que obtendríamos si usásemos
valores exactos en lugar de simulación. Estas condiciones proporcionan una guía al investigador sobre
cómo debe llevarse a cabo la simulación para obtener estimadores con propiedades deseables. El
análisis también pone en evidencia las ventajas y limitaciones de cada forma de estimación, facilitando
así la elección del investigador entre los diferentes métodos.
Consideraremos 3 métodos de estimación:
1. Máxima verosimilitud simulada (maximum simulated likelihood, MSL): Este procedimiento es
igual al de máxima verosimilitud (ML) excepto que emplea las probabilidades simuladas en
lugar de las probabilidades exactas. Las propiedades del método MSL han sido obtenidas, por
ejemplo, por Gourieroux y Monfort, (1993), Lee (1995), y Hajivassiliou y Ruud (1994).
2. Método de momentos simulados (method of simulated moments, MSM): Este procedimiento,
sugerido por McFadden (1989), es el análogo simulado del método de momentos tradicional
(method of moments, MOM). Usando el MOM tradicional en elección discreta, los residuos se
definen como la diferencia entre la variable dependiente 0-1 que identifica la alternativa
elegida y la probabilidad de dicha alternativa. Se identifican variables exógenas que no estén
correlacionadas con los residuos del modelo en la población. Las estimaciones son los valores
de los parámetros que hacen que las variables y los residuos no estén correlacionados en la
10
ESTIMACIÓN ASISTIDA POR SIMULACIÓN 211
MÉTODOS DE ELECCIÓN DISCRETA CON SIMULACIÓN
muestra. La versión simulada de este procedimiento calcula los residuos con las probabilidades
simuladas en lugar de las probabilidades exactas.
3. Método de puntuaciones simuladas (method of simulated scores, MSS): Como vimos en el
Capítulo 8, el gradiente de la función log-verosimilitud de una observación recibe el nombre de
puntuación (score) de la observación. El método de puntuaciones encuentra los valores de los
parámetros que hacen que la puntuación media sea cero. Cuando se utilizan probabilidades
exactas, el método de las puntuaciones es el mismo que el de máxima verosimilitud, ya que la
función log-verosimilitud se maximiza cuando la puntuación media es cero. Hajivassiliou y
McFadden (1998) sugirieron el uso de puntuaciones simuladas en lugar de puntuaciones exactas.
Ellos mostraron que, dependiendo de cómo se simulan las puntuaciones, MSS puede diferir de
MSL y, más importante, puede alcanzar consistencia y eficiencia bajo condiciones más relajadas.
En la siguiente sección definimos estos estimadores más formalmente y los relacionamos con sus
equivalentes no simulados. A continuación describimos las propiedades de cada estimador en dos
etapas. En primer lugar, se obtienen las propiedades del estimador tradicional basado en los valores
exactos. En segundo lugar, se muestra cómo cambia la formulación cuando se utilizan valores simulados
y no valores exactos. Mostramos que la simulación añade elementos adicionales a la distribución
muestral del estimador. El análisis nos permite identificar las condiciones en que estos elementos
adicionales desaparecen asintóticamente para que el estimador sea asintóticamente equivalente a su
análogo no simulado. También identificamos las condiciones más relajadas en las que el estimador,
aunque no sea asintóticamente equivalente a su homólogo no simulado, es sin embargo consistente.
10.2 Definición de estimadores
10.2.1 Máxima Verosimilitud Simulada (maximum simulated likelihood, MSL)
La función de verosimilitud es
𝐿𝐿(𝜃) = �𝑙𝑛 𝑃𝑛(𝜃)
𝑛
,
donde 𝜃 es un vector de parámetros, 𝑃𝑛(𝜃) es la probabilidad (exacta) de la elección observada
correspondiente a la observación n, y el sumatorio es sobre una muestra de N observaciones
independientes. El estimador ML es el valor de 𝜃 que maximiza 𝐿𝐿(𝜃). Dado que el gradiente de 𝐿𝐿(𝜃)
es cero en el máximo, el estimador ML también se puede definir como el valor de 𝜃 en el que
�𝑠𝑛(𝜃)
𝑛
= 0,
donde 𝑠𝑛(𝜃) = 𝜕 ln 𝑃𝑛(𝜃) /𝜕𝜃 es la puntuación de la observación 𝑛.
Sea 𝑃�
𝑛(𝜃) una aproximación simulada de 𝑃𝑛(𝜃). La función log-verosimilitud simulada es 𝑆𝐿𝐿(𝜃) =
∑ 𝑙𝑛 𝑃� 𝑛 𝑛(𝜃) y el estimador MSL es el valor de 𝜃 que maximiza 𝑆𝐿𝐿(𝜃). Dicho de forma equivalente, el
estimador es el valor de 𝜃 en el que ∑ 𝑠𝑛̌ (𝜃) 𝑛 = 0, donde 𝑠𝑛̌ (𝜃) = 𝜕 ln 𝑃�
𝑛(𝜃) /𝜕𝜃.
Podemos echar ahora un primer vistazo a las propiedades del estimador MSL, reservando una
explicación completa para la siguiente sección. El principal problema con el estimador MSL surge
debido a la transformación logarítmica. Supongamos que 𝑃�
𝑛(𝜃) es un simulador no sesgado de 𝑃𝑛(𝜃),
de manera que 𝐸𝑟𝑃�
𝑛(𝜃) = 𝑃𝑛(𝜃), donde la esperanza es sobre los valores extraídos al azar utilizados
en la simulación. Todos los simuladores que hemos considerado son no sesgados respecto a la
ESTIMACIÓN ASISTIDA POR SIMULACIÓN 212
MÉTODOS DE ELECCIÓN DISCRETA CON SIMULACIÓN
verdadera probabilidad. Sin embargo, dado que el operador logarítmico es una transformación no
lineal, ln 𝑃�
𝑛(𝜃) es sesgado respecto a ln 𝑃𝑛(𝜃) a pesar de que 𝑃�
𝑛(𝜃) es no sesgado respecto 𝑃𝑛(𝜃). El
sesgo en el simulador de ln 𝑃𝑛(𝜃) se traduce en un sesgo en el estimador MSL. Este sesgo disminuye a
medida que se utilizan más valores en la simulación.
Para determinar las propiedades asintóticas del estimador MSL, se plantea la cuestión de cómo se
comporta el sesgo de simulación cuando el tamaño de la muestra aumenta. La respuesta depende
críticamente de la relación entre el número de valores que se utilizan en la simulación, etiquetado
como 𝑅, y el tamaño de la muestra 𝑁. Si 𝑅 se considera fijo, entonces el estimador MSL no converge a
los parámetros reales, debido al sesgo de simulación en ln 𝑃�
𝑛(𝜃). Supongamos por el contrario que R
se eleva con 𝑁; es decir, el número de valores usados en la simulación aumenta con el tamaño de la
muestra. En este caso, el sesgo de simulación desaparece a medida que 𝑁 (y por lo tanto 𝑅) se eleva
sin límite. MSL es consistente en este caso. Como veremos, si 𝑅 aumenta más rápidamente que √𝑁,
MSL no sólo es consistente sino también eficiente, asintóticamente equivalente a la máxima
verosimilitud con probabilidades exactas.
En resumen, si 𝑅 es fijo, entonces MSL es inconsistente. Si 𝑅 se eleva con 𝑁 en cualquier proporción,
MSL es consistente. Si 𝑅 se eleva más rápido que √𝑁, MSL es asintóticamente equivalente a ML.
La principal limitación de MSL es que es inconsistente para un 𝑅 fijo. Los otros estimadores que
consideraremos están motivados por el deseo de tener un estimador basado en simulación que sea
consistente para un 𝑅 fijo. Tanto MSM como MSS, si se estructuran adecuadamente, logran este
objetivo. Este beneficio tiene un precio, sin embargo, como veremos en la siguiente sección.
10.2.2 Método de momentos simulados (method of simulated moments, MSM)
El método de momentos tradicional (method of moments, MOM) está motivado por el hecho de que los
residuos de un modelo están necesariamente incorrelacionados en la población con factores que son
exógenos al comportamiento que está siendo modelado. El estimador MOM es el valor de los
parámetros que hace que los residuos en la muestra no estén correlacionados con las variables
exógenas. Para los modelos de elección discreta, MOM se define como los parámetros que resuelven la
ecuación
(10.1) ∑𝑛 ∑𝑗[𝑑𝑛𝑗 − 𝑃𝑛𝑗 (𝜃)] 𝑧𝑛𝑗 = 0,
donde
• 𝑑𝑛𝑗 es la variable dependiente que identifica la alternativa elegida: 𝑑𝑛𝑗 = 1 si n eligió j, y
𝑑𝑛𝑗 = 0 en caso contrario, y
• 𝑧𝑛𝑗 es un vector de variables exógenas llamadas instrumentos (instruments).
Los residuos son 𝑑𝑛𝑗 − 𝑃𝑛𝑗 (𝜃), y el estimador MOM es el conjunto de valores de los parámetros para
los que los residuos no están correlacionados con los instrumentos en la muestra.
Este estimador MOM es análogo a los estimadores MOM de los modelos de regresión estándar. Un
modelo de regresión adopta la forma 𝑦𝑛 = 𝑥𝑛
′ 𝛽 + 𝜀𝑛. El estimador MOM para esta regresión es la 𝛽
en la que
�(𝑦𝑛 − 𝑥𝑛
′ 𝛽)𝑧𝑛
𝑛
= 0
ESTIMACIÓN ASISTIDA POR SIMULACIÓN 213
MÉTODOS DE ELECCIÓN DISCRETA CON SIMULACIÓN
para un vector de instrumentos exógenos 𝑧𝑛. Cuando las variables explicativas en el modelo son
exógenas, entonces éstas sirven como instrumentos. En este caso, el estimador MOM se convierte en el
estimador de mínimos cuadrados ordinarios:
�(𝑦𝑛 − 𝑥𝑛
′ 𝛽)𝑥𝑛
𝑛
= 0,
�𝑥𝑛𝑦𝑛
𝑛
= �𝑥𝑛𝑥𝑛
′ 𝛽,
𝑛
𝛽̂ = ��𝑥𝑛𝑥𝑛
′
𝑛
�
−1
��𝑥𝑛𝑦𝑛
𝑛
�,
que es la fórmula para el estimador de mínimos cuadrados. Cuando los instrumentos se especifican para
que sean otras variables distintas a las variables explicativas, el estimador se convierte en el estimador
de variables instrumentales estándar:
�(𝑦𝑛 − 𝑥𝑛
′ 𝛽)𝑧𝑛
𝑛
= 0,
�𝑧𝑛𝑦𝑛
𝑛
= �𝑧𝑛𝑥𝑛
′ 𝛽,
𝑛
𝛽̂ = ��𝑧𝑛𝑥𝑛
′
𝑛
�
−1
��𝑧𝑛𝑦𝑛
𝑛
�,
que es la fórmula para el estimador de variables instrumentales. Este estimador es consistente si los
instrumentos son independientes de 𝜀 en la población. El estimador es más eficiente cuanto más
correlacionados están los instrumentos con las variables explicativas del modelo. Cuando las variables
explicativas, 𝑥𝑛, son a su vez exógenas, los instrumentos ideales (es decir, los que dan la eficiencia
más alta) son las propias variables explicativas, 𝑧𝑛 = 𝑥𝑛.
Para los modelos de elección discreta, MOM se define de forma análoga y tiene una relación similar a
otros estimadores, especialmente ML. El investigador identifica los instrumentos 𝑧𝑛𝑗 que son
variables exógenas y por lo tanto independientes de los residuos �𝑑𝑛𝑗 − 𝑃𝑛𝑗 (𝜃)� en la población. El
estimador MOM es el valor de 𝜃 en el que la correlación de la muestra entre los instrumentos y los
residuos es cero. A diferencia del caso lineal, la ecuación (10.1) no se puede resolver de forma
explícita para 𝜃�. En lugar de ello, se utilizan procedimientos numéricos para encontrar el valor de 𝜃
que resuelve esta ecuación.
Al igual que sucede con la regresión, ML para un modelo de elección discreta es un caso especial de
MOM. Hagamos que los instrumentos sean las puntuaciones: 𝑧𝑛𝑗 = 𝜕 ln 𝑃𝑛𝑗(𝜃)/𝜕𝜃. Con estos
instrumentos, MOM es el mismo que ML:
��[𝑑𝑛𝑗 − 𝑃𝑛𝑗 (𝜃)] 𝑧𝑛𝑗
𝑛 𝑗
= 0,
ESTIMACIÓN ASISTIDA POR SIMULACIÓN 214
MÉTODOS DE ELECCIÓN DISCRETA CON SIMULACIÓN
����𝑑𝑛𝑗
𝜕 𝑙𝑛 𝑃𝑛𝑗(𝜃)
𝜕𝜃
𝑗
� − ��𝑃𝑛𝑗(𝜃)
𝜕 𝑙𝑛 𝑃𝑛𝑗(𝜃)
𝜕𝜃
𝑗
��
𝑛
= 0,
�𝜕 𝑙𝑛 𝑃𝑛𝑖(𝜃)
𝜕𝜃 𝑛
− �
𝑛
�𝑃𝑛𝑗(𝜃)
1
𝑃𝑛𝑗(𝜃)
𝜕𝑃𝑛𝑗(𝜃)
𝜕𝜃
𝑗
= 0,
�𝑠𝑛(𝜃)
𝑛
− �
𝑛
� 𝜕𝑃𝑛𝑗(𝜃)
𝜕𝜃
𝑗
= 0,
�𝑠𝑛(𝜃)
𝑛
= 0,
que es la condición que define ML. En la tercera línea, i es la alternativa elegida, reconociendo que
𝑑𝑛𝑗 = 0 para todo j ≠ i. La cuarta línea utiliza el hecho de que la suma de 𝜕𝑃𝑛𝑗 (𝜃)/𝜕𝜃 sobre las
alternativas es cero, ya que las probabilidades deben sumar 1 antes y después del cambio en 𝜃.
Dado que MOM se convierte en ML y por lo tanto es plenamente eficiente cuando los instrumentos son
las puntuaciones, las puntuaciones son llamadas instrumentos ideales. MOM es consistente siempre
que los instrumentos sean independientes de los residuos del modelo. Es más eficiente cuanto mayor es
la correlación entre los instrumentos y los instrumentos ideales.
Una simplificación interesante surge con el modelo logit estándar. Para el modelo logit estándar, los
instrumentos ideales son las propias variables explicativas. Como se muestra en la sección 3.7.1, el
estimador ML para logit estándar es el valor de 𝜃 que resuelve ∑𝑛 ∑𝑗[𝑑𝑛𝑗 − 𝑃𝑛𝑗 (𝜃)] 𝑥𝑛𝑗 = 0,
donde 𝑥𝑛𝑗 son las variables explicativas. Se trata de un estimador MOM con las variables explicativas
como instrumentos.
Una versión simulada de MOM, llamado el método de momentos simulados (method of simulated
moments, MSM), se obtiene mediante la sustitución de las probabilidades exactas 𝑃𝑛𝑗 (𝜃) por las
probabilidades simuladas 𝑃�
𝑛𝑗 (𝜃). El estimador MSM es el valor de 𝜃 que resuelve
��[𝑑𝑛𝑗 − 𝑃�
𝑛𝑗 (𝜃)] 𝑧𝑛𝑗
𝑛 𝑗
= 0,
para los instrumentos 𝑧𝑛𝑗. Al igual que sucede con su analógo no simulado, MSM es consistente si 𝑧𝑛𝑗 es
independiente de 𝑑𝑛𝑗 − 𝑃�
𝑛𝑗 (𝜃).
La característica importante de este estimador es que 𝑃�
𝑛𝑗 (𝜃) entra en la ecuación linealmente. Como
resultado, si 𝑃�
𝑛𝑗 (𝜃) es un simulador no sesgado de 𝑃𝑛𝑗 (𝜃), entonces [𝑑𝑛𝑗 − 𝑃�
𝑛𝑗 (𝜃)] 𝑧𝑛𝑗 es no
sesgado respecto [𝑑𝑛𝑗 − 𝑃𝑛𝑗 (𝜃)] 𝑧𝑛𝑗. Puesto que no hay sesgo de simulación en la condición de
estimación, el estimador MSM es consistente, incluso cuando el número 𝑅 de valores extraídos para la
simulación es fijo. Por el contrario, MSL contiene sesgo de simulación debido a la transformación
logarítmica de las probabilidades simuladas. Al no hacer una transformación no lineal de las
probabilidades simuladas, MSM evita el sesgo de simulación.
ESTIMACIÓN ASISTIDA POR SIMULACIÓN 215
MÉTODOS DE ELECCIÓN DISCRETA CON SIMULACIÓN
Aun así, MSM contiene ruido de simulación (la varianza debida a la simulación). Este ruido se reduce a
medida que 𝑅 se eleva y desaparece cuando 𝑅 aumenta sin límite. Como resultado, MSM es
asintóticamente equivalente a MOM si 𝑅 aumenta con 𝑁.
Al igual que su análogo no simulado, MSM es menos eficiente que MSL a no ser que se utilicen los
instrumentos ideales. Sin embargo, los instrumentos ideales son funciones de ln 𝑃𝑛𝑗. Estos no pueden ser
calculados de forma exacta excepto para los modelos más simples y, si son simulados utilizando la
probabilidad simulada, se introduce sesgo de simulación debido a la operación logarítmica. MSM se aplica
por lo general con pesos no ideales, lo que significa que se produce una pérdida de eficiencia. MSM con
pesos ideales simulados sin sesgo se convierte en MSS, algo que veremos en la siguiente sección.
En resumen, MSM tiene la ventaja sobre MSL de ser consistente usando un número fijo de valores
extraídos para simulación. Sin embargo, nada es gratuito, y el costo de esta ventaja es una pérdida de
eficiencia cuando se utilizan pesos no ideales.
10.2.3 Método de puntuaciones simuladas (method of simulated scores, MSS)
MSS proporciona una posibilidad de lograr consistencia sin pérdida de eficiencia. El costo de esta doble
ventaja es numérico: las versiones de MSS que proporcionan eficiencia tienen propiedades numéricas
bastante pobres, de manera que el cálculo del estimador puede ser difícil.
El método de puntuaciones se define por la condición
�𝑠𝑛(𝜃)
𝑛
= 0,
donde 𝑠𝑛(𝜃) = 𝜕𝑃𝑛(𝜃)/𝜕𝜃 es la puntuación de la observación 𝑛. Esta es la misma condición que define
ML: cuando se utilizan probabilidades exactas, el método de puntuaciones es simplemente ML.
El método de puntuaciones simuladas reemplaza la puntuación exacta por su análogo simulado. El
estimador MSS es el valor de 𝜃 que resuelve
�𝑠̌
𝑛(𝜃)
𝑛
= 0,
donde 𝑠𝑛̌ (𝜃) es un simulador de la puntuación. Si 𝑠𝑛̌ (𝜃) se calcula como la derivada del logaritmo de la
probabilidad simulada, es decir, 𝑠𝑛̌ (𝜃) = 𝜕𝑃�
𝑛(𝜃)/𝜕𝜃, entonces MSS es igual a MSL. Sin embargo, la
puntuación se puede simular de otras maneras. Cuando la puntuación se simula de otras maneras, MSS
difiere de MSL y tiene propiedades diferentes.
Supongamos que es posible construir un simulador no sesgado de la puntuación. Con este simulador, la
ecuación que define el método, ∑ 𝑠𝑛̌ (𝜃) 𝑛 = 0, no incorpora ningún sesgo de simulación, ya que el
simulador entra en la ecuación de forma lineal. Por lo tanto, MSS es consistente con una 𝑅 fija. El ruido
de simulación disminuye a medida que aumenta 𝑅, de tal forma que MSS es asintóticamente eficiente,
equivalente a MSL, cuando 𝑅 aumenta con 𝑁. En contraste, MSL utiliza el simulador de puntuación
sesgado 𝑠𝑛̌ (𝜃) = 𝜕𝑃�
𝑛(𝜃)/𝜕𝜃, que es sesgado debido al uso del operador logarítmico. Por lo tanto, MSS
con un simulador de puntuación no sesgado es mejor que MSL con su simulador de puntuación sesgado,
en dos aspectos: es consistente en condiciones menos estrictas (para una 𝑅 fija en lugar de una 𝑅
creciente con N) y es eficiente en condiciones menos estrictas (𝑅 creciente con 𝑁 en cualquier
proporción, en lugar de 𝑅 creciendo más rápido que √𝑁).
La dificultad en el uso de MSS está en encontrar un simulador de puntuación no sesgado. La puntuación
puede ser reescrita como
ESTIMACIÓN ASISTIDA POR SIMULACIÓN 216
MÉTODOS DE ELECCIÓN DISCRETA CON SIMULACIÓN
𝑠𝑛(𝜃) = 𝜕 𝑙𝑛 𝑃𝑛𝑗(𝜃)
𝜕𝜃 = 1
𝑃𝑛𝑗(𝜃)
𝜕𝑃𝑛𝑗
𝜕𝜃 .
Un simulador no sesgado para el segundo término 𝜕𝑃𝑛𝑗 (𝜃)/𝜕𝜃 se obtiene fácilmente tomando la
derivada de la probabilidad simulada. Puesto que la diferenciación es una operación lineal, 𝜕𝑃�
𝑛𝑗(𝜃)/𝜕𝜃
es no sesgado respecto 𝜕𝑃𝑛𝑗(𝜃)/𝜕𝜃 si 𝑃�
𝑛𝑗(𝜃) es a su vez no sesgado respecto 𝑃𝑛𝑗 (𝜃). Dado que el
segundo término de la puntuación puede ser simulado sin sesgo, la dificultad se presenta en la
búsqueda de un simulador no sesgado para el primer término 1/𝑃𝑛𝑗(𝜃). Por supuesto, simplemente
tomar la inversa de la probabilidad simulada no proporciona un simulador no sesgado, ya que
E𝑟(1/𝑃�
𝑛𝑗(𝜃)) ≠ 1/𝑃𝑛𝑗(𝜃). Al igual que la operación logarítmica, una inversa introduce sesgo.
Una propuesta para resolver este problema se basa en el hecho de que 1/𝑃𝑛𝑗(𝜃) es el número esperado
de valores extraídos al azar de los términos aleatorios que se necesitan hasta lograr una "aceptación".
Para ilustrar esta idea, considere la extracción de bolas de una urna que contiene muchas bolas de
diferentes colores. Supongamos que la probabilidad de obtener una bola roja es 0.20. Es decir, una
quinta parte de las bolas son de color rojo. ¿Cuántas extracciones se necesitarían, en promedio, para
obtener una bola roja? La respuesta es 1/0.2 = 5. La misma idea se puede aplicar a las probabilidades de
elección. 𝑃𝑛𝑗 (𝜃) es la probabilidad de que una extracción de los términos aleatorios del modelo resulte
en que la alternativa j tenga la mayor utilidad. La inversa 1/𝑃𝑛𝑗 (𝜃) se puede simular como sigue:
1. Extraiga un valor al azar de los términos aleatorios a partir de su densidad.
2. Calcule la utilidad de cada alternativa con este valor.
3. Determine si la alternativa j tiene la mayor utilidad.
4. Si es así, catalogue el valor como una “aceptación”. Si no es así, catalogue el valor como un
“rechazo” y repita los pasos 1 a 3 con un nuevo valor. Defina B𝑟 como el número de
extracciones que se realizan hasta que se obtiene la primera aceptación.
5. Realice los pasos 1 a 4 R veces, obteniendo B𝑟 para r = 1, … , R. El simulador de 1/𝑃𝑛𝑗(𝜃) es
(1/R) ∑ B 𝑅 𝑟 𝑟=1 .
Este simulador es no sesgado respecto 1/𝑃𝑛𝑗(𝜃). El producto de este simulador con el simulador
𝜕𝑃�
𝑛𝑗(𝜃)/𝜕𝜃 proporciona un simulador no sesgado de la puntuación. MSS basado en este simulador de
puntuación no sesgado es consistente para un R fijo y asintóticamente eficiente cuando R aumenta con N.
Por desgracia, el simulador de 1/𝑃𝑛𝑗 (𝜃) tiene las mismas dificultades que los simuladores de
aceptación-rechazo que vimos en la sección 5.6. No hay garantía de que vayamos a obtener una
aceptación dentro de un número dado de valores extraídos. Además, el simulador no es continuo en los
parámetros. La discontinuidad dificulta los procedimientos numéricos que se utilizan para localizar los
parámetros que resuelven la ecuación de MSS.
En resumen, MSS tiene ventajas y desventajas en relación a MSL, al igual que sucede con MSM. La
comprensión de las capacidades de cada estimador permite al investigador realizar una elección
informada entre ellos.
10.3 El teorema del límite central
Antes de obtener las propiedades de nuestros estimadores, es útil revisar el teorema del límite central.
Este teorema proporciona la base de las distribuciones de los estimadores.
Uno de los resultados más básicos en estadísticas es que, si extraemos valores al azar de una
distribución con media 𝜇 y varianza 𝜎, la media de estos valores se distribuye normalmente con media 𝜇
ESTIMACIÓN ASISTIDA POR SIMULACIÓN 217
MÉTODOS DE ELECCIÓN DISCRETA CON SIMULACIÓN
y varianza 𝜎/𝑁, donde 𝑁 es un número grande de valores extraídos. Este resultado es el teorema del
límite central, expresado de forma intuitiva en lugar de precisa. Vamos a ofrecer un desarrollo más
completo y preciso de estas ideas.
Sea 𝑡 = (1/𝑁) ∑𝑛 𝑡𝑛, donde cada 𝑡𝑛 es un valor extraído al azar de una distribución con media 𝜇 y
varianza 𝜎. Una realización concreta de valores extraídos al azar recibe el nombre de muestra y 𝑡 es la
media de la muestra. Si tomamos una muestra diferente (es decir, obtenemos diferentes valores para
las extracciones de cada 𝑡𝑛), entonces obtenemos un valor diferente para el estadístico 𝑡. Nuestro
objetivo es obtener la distribución muestral de 𝑡.
Para la mayoría de estadísticos, no podemos determinar con exactitud la distribución muestral para un
tamaño de muestra dado. En su lugar, analizamos cómo se comporta la distribución muestral a medida
que el tamaño de la muestra aumenta sin límite. Llegados a este punto, debemos hacer una distinción
entre la distribución límite (limiting distribution) y la distribución asintótica (asymptotic distribution) de
un estadístico. Supongamos que, a medida que aumenta el tamaño de la muestra, la distribución
muestral del estadístico 𝑡 converge a una distribución fija. Por ejemplo, la distribución muestral de 𝑡
podría llegar a estar arbitrariamente cerca de una normal con media 𝑡∗ y varianza 𝜎. En este caso,
decimos que 𝑁(𝑡∗
, 𝜎) es la distribución límite de 𝑡 y que 𝑡 converge en distribución a 𝑁(𝑡∗
, 𝜎).
Denotamos esta situación como 𝑡
𝑑
→ 𝑁(𝑡∗
, 𝜎).
En muchos casos, un estadístico no tendrá una distribución límite. A medida que aumenta 𝑁, la
distribución muestral sigue cambiando. La media de una muestra de valores extraídos es un ejemplo de
un estadístico sin una distribución límite. Como se ha indicado anteriormente, si 𝑡 es la media de una
muestra de valores extraídos de una distribución con media 𝜇 y varianza 𝜎, entonces 𝑡 se distribuye
normalmente con media 𝜇 y varianza 𝜎/𝑁. La varianza disminuye a medida que 𝑁 se eleva. La
distribución cambia a medida que 𝑁 aumenta, siendo cada vez más y más estrecha alrededor de la
media. Si se tuviera que definir una distribución límite para este caso, tendría que ser la distribución
degenerada en 𝜇: a medida que 𝑁 se eleva sin límite, la distribución de 𝑡 colapsa en 𝜇. Esta distribución
límite es inútil para la comprensión de la varianza del estadístico, ya que la varianza de esta distribución
límite es cero. ¿Qué hacemos en este caso para comprender las propiedades del estadístico?
Si nuestro estadístico original no tiene una distribución límite, a menudo podemos transformar el
estadístico de tal manera que el estadístico transformado sí tenga una distribución límite. Supongamos,
como en nuestro ejemplo de una media de la muestra, que el estadístico que nos interesa no tiene una
distribución límite porque su varianza disminuye a medida que aumenta 𝑁. En ese caso, podemos
considerar una transformación del estadístico normalizado respecto al tamaño muestral. En particular,
podemos considerar √𝑁(𝑡 − 𝜇). Supongamos que este estadístico sí tiene una distribución límite, por
ejemplo, √𝑁(𝑡 − 𝜇)
𝑑
→ 𝑁(0, 𝜎). En este caso, podemos obtener las propiedades de nuestro estadístico
original a partir de la distribución límite del estadístico transformado. Recordemos, a partir de principios
básicos de probabilidad, que para unos valores 𝑎 y 𝑏 dados, si 𝑎(𝑡 − 𝑏) se distribuye normalmente con
media cero y varianza 𝜎, entonces 𝑡 se distribuye normalmente con media 𝑏 y varianza 𝜎/𝑎2. Esta
relación puede aplicarse a nuestra distribución límite. Para un 𝑁 suficientemente grande, √𝑁(𝑡 − 𝜇) se
distribuye aproximadamente 𝑁(0, 𝜎). Por lo tanto, para un 𝑁 suficientemente grande, 𝑡 se distribuye
aproximadamente 𝑁(𝜇, 𝜎/𝑁). Denotamos esto como 𝑡~𝑎𝑁(𝜇, 𝜎/𝑁). Observe que ésta no es la
distribución límite de 𝑡, ya que 𝑡 no tiene una distribución límite no degenerada. En su lugar, se
denomina distribución asintótica de 𝑡, obtenida a partir de la distribución límite de √𝑁(𝑡 − 𝜇).
Ahora podemos re-expresar de forma precisa nuestros conceptos acerca de la distribución muestral de
la media de la muestra. El teorema del límite central establece lo siguiente. Supongamos que t es la
ESTIMACIÓN ASISTIDA POR SIMULACIÓN 218
MÉTODOS DE ELECCIÓN DISCRETA CON SIMULACIÓN
media de una muestra de N valores extraídos de una distribución con media 𝜇 y varianza 𝜎. Entonces
√𝑁(𝑡 − 𝜇)
𝑑
→ 𝑁(0, 𝜎). Con esta distribución límite, podemos decir que 𝑡~𝑎𝑁(𝜇, 𝜎/𝑁).
Hay otra versión, más general, del teorema del límite central. En la versión que acabamos de exponer,
cada 𝑡𝑛 es una extracción de la misma distribución. Supongamos que 𝑡𝑛 es una extracción de una
distribución con media 𝜇 y varianza 𝜎𝑛, para 𝑛 = 1, … , 𝑁. Es decir, cada 𝑡𝑛 proviene de una distribución
diferente; las distribuciones tienen la misma media pero diferentes varianzas. La versión generalizada
del teorema del límite central establece que √𝑁(𝑡 − 𝜇)
𝑑
→ 𝑁(0, 𝜎), donde 𝜎 es ahora la varianza media:
𝜎 = (1/𝑁) ∑𝑛 𝜎𝑛. Dada esta distribución límite, podemos decir que 𝑡~𝑎𝑁(𝜇, 𝜎/𝑁). Vamos a utilizar
ambas versiones del teorema del límite central al obtener las distribuciones de nuestros estimadores.
10.4 Propiedades de los estimadores tradicionales
En esta sección, revisaremos el procedimiento para obtener las propiedades de los estimadores y
aplicaremos este procedimiento para los estimadores tradicionales, no basados en simulación. Esta
exposición es el fundamento del análisis de las propiedades de los estimadores basados en simulación
que abordaremos en la siguiente sección.
Denotemos el verdadero valor de los parámetros como 𝜃∗. Los estimadores ML y MOM son las raíces de
una ecuación que toma la forma
(10.2) ∑𝑛 𝑔𝑛�𝜃��/𝑁 = 0.
Es decir, el estimador 𝜃� es el valor de los parámetros que resuelve esta ecuación. Dividimos por 𝑁, a
pesar de que esta división no afecta a la raíz de la ecuación, ya que al hacerlo facilitamos el cálculo de
las propiedades de los estimadores. La condición establece que el valor promedio de 𝑔𝑛(𝜃) en la
muestra es cero en los parámetros estimados. Para ML, 𝑔𝑛(𝜃) es la puntuación 𝜕 ln 𝑃𝑛(𝜃) /𝜕𝜃. Para
MOM, 𝑔𝑛(𝜃) es el conjunto de los primeros momentos de los residuos respecto a un vector de
instrumentos, ∑𝑗�𝑑𝑛𝑗 − 𝑃𝑛𝑗 �𝑧𝑛𝑗. La ecuación (10.2) se llama a menudo la condición de momento. En su
forma no simulada, el método de puntuaciones es igual a ML y por lo tanto no necesita ser considerado
por separado en esta sección. Tenga en cuenta que nosotros llamamos ecuación a (10.2) a pesar de que
en realidad es un conjunto de ecuaciones, ya que 𝑔𝑛(𝜃) es un vector. Los parámetros que resuelven
estas ecuaciones son los estimadores.
En cualquier valor particular de 𝜃 pueden calcularse la media y la varianza de 𝑔𝑛(𝜃) en la muestra.
Etiquete la media como g(𝜃) y la varianza como W(𝜃). Estamos especialmente interesados en la media
muestral y la varianza de 𝑔𝑛(𝜃) en los verdaderos parámetros, 𝜃∗, ya que nuestro objetivo es estimar
estos parámetros.
La clave para entender las propiedades de un estimador está en darse cuenta de que cada 𝑔𝑛(𝜃∗) es
una extracción de una distribución de 𝑔𝑛(𝜃∗)'s en la población. No sabemos los verdaderos parámetros,
pero sabemos que cada observación tiene un valor de 𝑔𝑛(𝜃∗) en los verdaderos parámetros. El valor de
𝑔𝑛(𝜃∗) varía entre personas de la población. Así, extrayendo una persona de nuestra muestra,
básicamente estamos extrayendo un valor de 𝑔𝑛(𝜃∗) de su distribución en la población.
La distribución de 𝑔𝑛(𝜃∗) en la población tiene una media y una varianza. Etiquete la media de 𝑔𝑛(𝜃∗)
en la población como 𝐠 y su varianza en la población como 𝐖. La media y la varianza muestral en los
verdaderos parámetros, 𝑔(𝜃∗) y 𝑊(𝜃∗), son el equivalente en la muestra a la media y varianza en la
población, 𝐠 y 𝐖.
Asumimos que 𝐠 = 0. Es decir, asumimos que el promedio de 𝑔𝑛(𝜃∗) en la población es cero en los
parámetros verdaderos. Bajo este supuesto, el estimador proporciona un análogo en la muestra a la
ESTIMACIÓN ASISTIDA POR SIMULACIÓN 219
MÉTODOS DE ELECCIÓN DISCRETA CON SIMULACIÓN
esperanza en la población: 𝜃� es el valor de los parámetros en los cuales el promedio de 𝑔𝑛(𝜃) en la
muestra es igual a cero, como se indica en la condición definitoria (10.2). Para ML, la suposición de que
𝐠 = 0 simplemente establece que la puntuación media en la población es cero, cuando se evalúa en los
verdaderos parámetros. En cierto sentido, esto se puede considerar la definición de parámetros reales,
es decir, 𝜃∗ son los parámetros en los que la función log-verosimilitud para toda la población obtiene su
máximo y por lo tanto tiene pendiente cero. Los parámetros estimados son los valores que hacen que la
pendiente de la función de verosimilitud en la muestra sea cero. Para MOM, el supuesto se cumple si los
instrumentos son independientes de los residuos. En cierto sentido, la hipótesis con MOM es
simplemente una reiteración de que los instrumentos son exógenos. Los parámetros estimados son los
valores que hacen que los instrumentos y los residuos no estén correlacionados en la muestra.
Ahora consideraremos la varianza en la población de 𝑔𝑛(𝜃∗), lo que hemos denotado como 𝐖. Cuando
𝑔𝑛(𝜃) es la puntuación, como sucede en ML, esta varianza tiene un significado especial. Como se ha
mostrado en la sección 8.7, la identidad de información establece que 𝐕 = −𝐇, donde
−𝑯 = −𝐸 �
𝜕2 𝑙𝑛 𝑃𝑛(𝜃∗)
𝜕𝜃𝜕𝜃′ �
es la matriz de información y 𝐕 es la varianza de las puntuaciones evaluadas en los verdaderos
parámetros: 𝐕 = Var(𝜕 ln 𝑃𝑛(𝜃∗) /𝜕𝜃). Cuando 𝑔𝑛(𝜃) es la puntuación, 𝐖 = 𝐕 por definición y, por
tanto, 𝐖 = −𝐇 por la identidad de información. Es decir, cuando 𝑔𝑛(𝜃) es la puntuación, 𝐖 es la
matriz de información. Para MOM con instrumentos no ideales, 𝐖 ≠ −𝐇, de modo que 𝐖 no es igual a
la matriz de información.
¿Por qué es importante esta distinción? Veremos que saber si 𝐖 es igual a la matriz de información nos
permite determinar si el estimador es eficiente. La menor varianza que un estimador cualquiera puede
lograr es −𝐇−1/𝑁. Para obtener una prueba, véase, por ejemplo, Greene (2000) o Ruud (2000). Un
estimador es eficiente si su varianza alcanza este límite inferior. Como veremos, este límite inferior se
logra cuando 𝐖 = −𝐇, pero no cuando 𝐖 ≠ −𝐇.
Nuestro objetivo es determinar las propiedades de 𝜃�. Derivamos estas propiedades en un proceso en
dos pasos. En primer lugar, se analiza la distribución de g(𝜃∗), que, como se estableció anteriormente,
es la media muestral de 𝑔𝑛(𝜃∗). En segundo lugar, la distribución de 𝜃� se obtiene de la distribución de
g(𝜃∗). Este proceso en dos pasos no es necesariamente la forma más directa de examinar estimadores
tradicionales. Sin embargo, como veremos en la siguiente sección, proporciona una forma muy
conveniente de generalizar el análisis a estimadores basados en simulación.
Paso 1: Distribución de 𝐠(𝜽∗)
Recuerde que el valor de 𝑔𝑛(𝜃∗) varía entre decisores de la población. Al tomar una muestra, el
investigador está extrayendo valores 𝑔𝑛(𝜃∗) de su distribución en la población. Esta distribución tiene
media cero por hipótesis y una varianza denotada por 𝐖. El investigador calcula la media de la muestra
de estos valores extraídos, g(𝜃∗). Por el teorema del límite central, √N(g(𝜃∗) − 0)
𝑑
→ 𝑁(0, 𝐖), de tal
manera que la media de la muestra tiene una distribución g(𝜃∗)~𝑎𝑁(0, 𝐖/N).
Paso 2: Obtenga la distribución de 𝜽� a partir de la distribución de 𝐠(𝜽∗)
Podemos relacionar el estimador 𝜃� con su término definitorio g(𝜃) de la siguiente manera. Tome una
expansión de Taylor de primer orden de g�𝜃�� alrededor g(𝜃∗):
(10.3) 𝑔(𝜃�) = 𝑔(𝜃∗) + 𝐷[𝜃� − 𝜃∗],
ESTIMACIÓN ASISTIDA POR SIMULACIÓN 220
MÉTODOS DE ELECCIÓN DISCRETA CON SIMULACIÓN
donde 𝐷 = 𝜕𝑔(𝜃∗
)/𝜕𝜃′
. Por definición de 𝜃� (es decir, mediante la definición de la condición (10.2)),
g�𝜃�� = 0, de manera que el lado derecho de esta expansión es 0. Entonces
0 = 𝑔(𝜃∗) + 𝐷�𝜃� − 𝜃∗�,
𝜃� − 𝜃∗ = −𝐷−1𝑔(𝜃∗),
(10.4) √𝑁�𝜃� − 𝜃∗� = √𝑁(−𝐷−1)𝑔(𝜃∗).
Denotemos la media de 𝜕𝑔𝑛(𝜃∗)/𝜕𝜃′ en la población como 𝑫. La media de 𝜕𝑔𝑛(𝜃∗)/𝜕𝜃′ en la muestra
es 𝐷, tal y como se define por la ecuación (10.3). La media en la muestra 𝐷 converge a la media
poblacional 𝑫 a medida que el tamaño de la muestra crece. Sabemos del paso 1 que √Ng(𝜃∗)
𝑑
→ 𝑁(0,𝐖). Usando este hecho en (10.4), tenemos
(10.5) √𝑁�𝜃� − 𝜃∗� 𝑑
→ 𝑁(0, 𝑫−1𝑾𝑫−1).
Esta distribución límite nos dice que 𝜃�~𝑎𝑁(𝜃∗, 𝑫−1𝑾𝑫−1/𝑁).
Ahora podemos observar las propiedades del estimador. La distribución asintótica de 𝜃� se centra en el
valor verdadero, y su varianza disminuye a medida que el tamaño de la muestra crece. Como resultado,
𝜃� converge en probabilidad a 𝜃∗ a medida que el tamaño de la muestra se eleva sin límite: 𝜃� 𝑝
→ 𝜃. Por
consiguiente, el estimador es consistente. El estimador es asintóticamente normal. Y su varianza es
𝑫−1𝑾𝑫−1/𝑁, que puede ser comparada con la varianza más baja posible, −𝑯−1/𝑁, para determinar si
es eficiente.
Para ML, 𝑔𝑛(·) es la puntuación, de manera que la varianza de 𝑔𝑛(𝜃∗) es la varianza de las puntuaciones:
𝑾 = 𝑽. Además, la derivada media de 𝑔𝑛(𝜃∗) es la derivada media de las puntuaciones: 𝑫 = 𝑯 =
𝐸(𝜕2 ln 𝑃𝑛(𝜃∗) /𝜕𝜃𝜕𝜃′
), donde la esperanza se calcula en la población. Por la identidad de información, 𝑽 =
−𝑯. La varianza asintótica de 𝜃� se convierte en 𝑫−1𝑾𝑫−1/𝑁 = 𝑯−1𝑽𝑯−1/𝑁 = 𝑯−1(−𝑯)𝑯−1/𝑁 =
−𝑯−1/𝑁, que es la varianza más baja posible de cualquier estimador. Por lo tanto, ML es eficiente. Puesto
que 𝑽 = −𝑯, la varianza del estimador ML también puede ser expresada como 𝑽−𝟏/𝑁, que tiene un
significado fácilmente interpretable: la varianza del estimador es igual a la inversa de la varianza de las
puntuaciones evaluadas en los verdaderos parámetros, dividida por el tamaño de la muestra.
Para MOM, 𝑔𝑛(·) es un conjunto de momentos. Si se utilizan los instrumentos ideales, entonces MOM
se convierte en ML y es eficiente. Si se utilizan otros instrumentos, entonces MOM no es ML . En este
caso, 𝑾 es la varianza en la población de los momentos y 𝑫 es la derivada media de los momentos, en
lugar de la varianza y derivada media de las puntuaciones. La varianza asintótica de 𝜃� no es igual
−𝑯−1/𝑁. Por lo tanto, MOM sin pesos ideales no es eficiente.
10.5 Propiedades de los estimadores basados en simulación
Supongamos que los términos que entran en la ecuación definitoria de un estimador se obtienen por
simulación en lugar de calcularse con exactitud. Sea 𝑔�𝑛(𝜃) el valor simulado de 𝑔𝑛(𝜃), y 𝑔�(𝜃) la media
de estos valores simulados en la muestra, de manera que 𝑔�(𝜃) es la versión simulada de 𝑔(𝜃).
Llamaremos 𝑅 al número de valores extraídos al azar que usamos en la simulación para cada 𝑛, y
asumiremos que para cada 𝑛 usamos valores extraídos de forma independiente (por ejemplo, usando
extracciones separadas para cada 𝑛). Supondremos, además, que los mismos valores extraídos al azar se
utilizan para cada valor de 𝜃 en el cálculo de 𝑔�𝑛(𝜃). Este procedimiento evita vibraciones (chatter) en la
ESTIMACIÓN ASISTIDA POR SIMULACIÓN 221
MÉTODOS DE ELECCIÓN DISCRETA CON SIMULACIÓN
simulación: la diferencia entre 𝑔�(𝜃1) y 𝑔�(𝜃2) para dos valores diferentes de 𝜃 no se debe al uso de
diferentes valores extraídos al azar.
Estos supuestos sobre los valores extraídos al azar empleados en la simulación son fáciles de
implementar para el investigador y simplifican nuestro análisis considerablemente. Para los lectores
interesados , Lee (1992) examina el caso en que se usan los mismos valores extraídos al azar para todas
las observaciones. Pakes y Pollard (1989) proporcionan una manera de caracterizar una condición de
equicontinuidad que, cuando se satisface, facilita el análisis de los estimadores basados en simulación.
McFadden (1989) caracteriza esta condición de un modo diferente y muestra que se puede cumplir
mediante el uso de los mismos valores extraídos al azar para cada valor de 𝜃, que es la hipótesis que
nosotros asumimos. McFadden (1996) ofrece una útil síntesis que incluye un análisis de la necesidad de
prevenir la vibración (chatter)
El estimador se define por la condición 𝑔��𝜃�� = 0. Derivamos las propiedades de 𝜃� mediante los dos
mismos pasos que hemos empleado para los estimadores tradicionales.
Paso 1 : Distribución de 𝒈�(𝜽∗)
Para identificar los distintos componentes de esta distribución, vamos a re-expresar 𝑔�(𝜃∗) sumando y
restando algunos términos, así como reordenando:
𝑔�(𝜃∗) = 𝑔�(𝜃∗) + 𝑔(𝜃∗) − 𝑔(𝜃∗) + 𝐸𝑟𝑔�(𝜃∗) − 𝐸𝑟𝑔�(𝜃∗)
= 𝑔(𝜃∗) + [𝐸𝑟𝑔�(𝜃∗) − 𝑔(𝜃∗)] + [𝑔�(𝜃∗) − 𝐸𝑟𝑔�(𝜃∗)],
donde g(𝜃∗) es el valor no simulado y 𝐸𝑟𝑔�(𝜃∗) es la esperanza del valor simulado entre los valores al
azar utilizados en la simulación. Sumar y restar términos obviamente no cambia 𝑔�(𝜃∗). Sin embargo, la
posterior reordenación de los términos nos permite identificar los componentes que tienen un
significado intuitivo.
El primer término g(𝜃∗) es el mismo que aparece para el estimador tradicional. Los otros dos términos
son elementos adicionales que surgen debido a la simulación. El término 𝐸𝑟𝑔�(𝜃∗) − g(𝜃∗) capta el
sesgo, si existe, en el simulador de g(𝜃∗). Es la diferencia entre el valor real de g(𝜃∗) y la esperanza del
valor simulado. Si el simulador de g(𝜃∗) es no sesgado, entonces 𝐸𝑟𝑔�(𝜃∗) = g(𝜃∗) y este término
desaparece. A menudo, sin embargo, el simulador de g(𝜃∗) es sesgado. Por ejemplo, con MSL,
𝑔�𝑛(𝜃) = 𝜕 ln 𝑃�
𝑛(𝜃)/𝜕𝜃, donde 𝑃�
𝑛(𝜃) es un simulador no sesgado de 𝑃𝑛(𝜃). Dado que 𝑃�
𝑛(𝜃) entra de
forma no lineal a través del operador logarítmico, 𝑔�𝑛(𝜃) es sesgado. El tercer término, 𝑔�(𝜃∗) −
𝐸𝑟𝑔�(𝜃∗), capta el ruido de simulación, es decir, la desviación del simulador para cada valor al azar
empleado, respecto a su esperanza calculada sobre todos los posibles valores al azar.
Combinando todo estos conceptos, tenemos
(10.6) 𝑔�(𝜃) = 𝐴 + 𝐵 + 𝐶,
donde
𝐴 es el mismo que en el estimador tradicional,
𝐵 es el sesgo de la simulación,
𝐶 es el ruido de simulación.
Para ver cómo los estimadores basados en simulación difieren de sus equivalentes tradicionales,
examinaremos el sesgo de simulación 𝐵 y el ruido 𝐶.
ESTIMACIÓN ASISTIDA POR SIMULACIÓN 222
MÉTODOS DE ELECCIÓN DISCRETA CON SIMULACIÓN
Consideremos primero el ruido. Este término puede ser re-expresado como
𝐶 = 𝑔�(𝜃∗) − 𝐸𝑟𝑔�(𝜃∗)
= 1
𝑁�[𝑔�𝑛(𝜃∗) − 𝐸𝑟𝑔�𝑛(𝜃∗)]
𝑛
= �𝑑𝑛/𝑁,
𝑛
donde 𝑑𝑛 es la desviación del valor simulado para la observación n respecto su esperanza. La clave para
entender el comportamiento del ruido de simulación está en observar que 𝑑𝑛 es simplemente un
estadístico para la observación n. La muestra está constituida por N extracciones al azar de este
estadístico, uno para cada observación: 𝑑𝑛, 𝑛 = 1, … , 𝑁. El ruido de simulación C es el promedio de
estas N extracciones al azar. Por lo tanto, el teorema del límite central nos da la distribución de C.
En particular, para una observación dada, los valores extraídos al azar que se utilizan en la simulación
proporcionan un valor particular de 𝑑𝑛. Si se hubieran extraído valores diferentes, entonces se habría
obtenido un valor diferente de 𝑑𝑛. Hay una distribución de los valores de 𝑑𝑛 sobre las posibles
realizaciones de los valores al azar utilizados en simulación. La distribución tiene media cero, ya que la
esperanza de los valores extraídos al azar se resta en el momento de crear 𝑑𝑛. Etiquetemos la varianza
de la distribución como 𝑆𝑛/𝑅, donde 𝑆𝑛 es la varianza cuando se utiliza un valor extraído al azar en la
simulación. Hay dos cosas a tener en cuenta acerca de esta varianza. En primer lugar, 𝑆𝑛/𝑅 es
inversamente proporcional a R, el número de valores al azar que se utilizan en la simulación. En segundo
lugar, la variación es diferente para diferentes n. Dado que𝑔𝑛(𝜃∗) es diferente para diferentes n, la
varianza de la desviación de simulación también difiere.
Extraemos un valor al azar de 𝑑𝑛 para cada una de las N observaciones; el ruido de simulación global, C,
es el promedio de estos N valores de ruido de simulación específico de cada observación. Como
acabamos de establecer, cada 𝑑𝑛 es un valor extraído de una distribución con media cero y varianza
𝑆𝑛/𝑅. La versión generalizada del teorema del límite central nos permite calcular la distribución de un
promedio en la muestra de valores extraídos al azar de distribuciones que tienen la misma media pero
diferentes varianzas. En nuestro caso,
√𝑁𝐶
𝑑
→ 𝑁(0, 𝑺/𝑅),
donde 𝐒 es la media de 𝑆𝑛 en la población. Por lo tanto 𝐶 ~𝑎 𝑁(0, 𝑺/(N𝑅)).
La característica más relevante de la varianza asintótica de 𝐶 es que disminuye a medida que 𝑁 se
incrementa, incluso cuando 𝑅 es fija. El ruido de simulación desaparece a medida que aumenta el
tamaño de la muestra, incluso sin aumentar el número de valores al azar utilizados en la simulación.
Este es un hecho muy importante y de gran alcance. Significa que el aumento del tamaño de la muestra
es una forma de disminuir los efectos de la simulación en el estimador. El resultado es intuitivamente
lógico. Básicamente, el ruido de simulación se cancela entre observaciones. La simulación de una
observación podría, por casualidad, hacer la 𝑔�𝑛(𝜃) de esa observación demasiado grande. Sin embargo,
la simulación para otra observación es probable que, por casualidad, sea demasiado pequeña.
Promediando las simulaciones entre observaciones, los errores tienden a anularse entre sí. A medida
que el tamaño de la muestra aumenta, esta propiedad de cancelación se vuelve más relevante hasta
que, con muestras lo suficientemente grandes, el ruido de simulación es insignificante.
ESTIMACIÓN ASISTIDA POR SIMULACIÓN 223
MÉTODOS DE ELECCIÓN DISCRETA CON SIMULACIÓN
Consideremos ahora el sesgo. Si 𝑔�(𝜃) es un simulador no sesgado de 𝑔(𝜃), entonces el término de
sesgo 𝐵 expresado en (10.6) es cero. Si por el contrario el simulador es sesgado, como sucede con MSL,
entonces el efecto de este sesgo en la distribución de 𝑔�(𝜃∗) debe ser considerado.
Por lo general, el término definitorio 𝑔𝑛(𝜃) es una función de un estadístico, 𝑙𝑛, que puede ser simulado
sin sesgo. Por ejemplo, en MSL, 𝑔𝑛(𝜃) es una función de la probabilidad de elección, que puede ser
simulada sin sesgo; en este caso 𝑙𝑛 es la probabilidad. Más generalmente, 𝑙𝑛 puede ser cualquier
estadístico que se simule sin sesgo y que sirve para definir 𝑔𝑛(𝜃). Podemos escribir la dependencia en
general como 𝑔𝑛(𝜃) = 𝑔(𝑙𝑛(𝜃)) y el simulador no sesgado de 𝑙𝑛(𝜃) como 𝑙
̌
𝑛(𝜃) donde 𝐸𝑟𝑙
̌
𝑛(𝜃) = 𝑙𝑛(𝜃).
Ahora podemos re-expresar 𝑔�𝑛(𝜃) mediante una expansión de Taylor alrededor del valor no simulado
𝑔𝑛(𝜃):
𝑔�𝑛(𝜃) = 𝑔𝑛(𝜃) + 𝜕𝑔(𝑙𝑛(𝜃))
𝜕𝑙𝑛
�𝑙
̌
𝑛(𝜃) − 𝑙𝑛(𝜃)� +
1
2
𝜕2𝑔(𝑙𝑛(𝜃))
𝜕𝑙𝑛
2 �𝑙
̌
𝑛(𝜃) − 𝑙𝑛(𝜃)�
2
,
𝑔�𝑛(𝜃) − 𝑔𝑛(𝜃) = 𝑔𝑛
′ �𝑙
̌
𝑛(𝜃) − 𝑙𝑛(𝜃)� +
1
2 𝑔𝑛
′′�𝑙
̌
𝑛(𝜃) − 𝑙𝑛(𝜃)�
2
,
donde 𝑔𝑛
′ y 𝑔𝑛
′′ son simplemente formas abreviadas de referirse a la primera y la segunda derivada de
𝑔𝑛(𝑙(·)) respecto a 𝑙. Dado que 𝑙
̌
𝑛(𝜃) no está sesgado respecto a 𝑙𝑛(𝜃), sabemos que 𝐸𝑟𝑔𝑛
′ �𝑙
̌
𝑛(𝜃) −
𝑙𝑛(𝜃)� = 𝑔𝑛
′ �𝐸𝑟𝑙
̌
𝑛(𝜃) − 𝑙𝑛(𝜃)� = 0. Como resultado de ello, sólo el término de la varianza permanece
en la esperanza:
𝐸𝑟𝑔�𝑛(𝜃) − 𝑔𝑛(𝜃) = 1
2 𝑔𝑛
′′𝐸𝑟�𝑙
̌
𝑛(𝜃) − 𝑙𝑛(𝜃)�
2
= 1
2 𝑔𝑛
′′𝑉𝑎𝑟𝑟𝑙
̌
𝑛(𝜃).
Indiquemos 𝑉𝑎𝑟𝑟𝑙
̌
𝑛(𝜃) = 𝑄𝑛/𝑅 para reflejar el hecho de que la varianza es inversamente proporcional
al número de valores al azar utilizados en la simulación. El sesgo de simulación es entonces
𝐸𝑟𝑔�(𝜃) − 𝑔(𝜃) = 1
𝑁�𝐸𝑟𝑔�𝑛(𝜃)
𝑛
− 𝑔𝑛(𝜃)
= 1
𝑁�𝑔𝑛
′′ 𝑄𝑛
2𝑅 𝑛
= 𝑍
𝑅,
donde 𝑍 es el promedio en la muestra de 𝑔𝑛
′′𝑄𝑛/2.
Puesto que 𝐵 = 𝑍/𝑅, el valor de este estadístico normalizado para el tamaño de la muestra es
(10.7) √𝑁𝐵 = √𝑁
𝑅
𝑍.
Comentarios
Publicar un comentario