Tarea 2 v.3 (Enunciado)

Pontificia Universidad Católica de Chile
Departamento de Ingenierı́a Industrial y de Sistemas

ICS2563 - Econometrı́a Aplicada 2023’1
Tarea 2
31 de marzo del 2023
Profesora Fernanda Ramı́rez y Profesor Patricio Dominguez
Ayudantes: Felipe Valdés (fvaldé[email protected])
Florencia Sciaraffia ([email protected])
Aspectos generales
La tarea puede ser desarrollada en forma individual o en parejas (2 estudiantes). Las
parejas deben estar inscritas en la misma sección del curso.
La fecha de entrega de la tarea es el 12 de abril a las 20:00 hrs en el portal del
curso en Canvas.
La entrega debe incluir el script de R (o el dofile de STATA) y un informe de análisis en
formato pdf.
La entrega debe ser subido cada archivo por separado a Canvas, no se aceptarán
archivos .zip .
Para el análisis de contenidos especı́ficos del curso, no podrá hacer uso de paquetes
disponibles en R o STATA como los comandos lm o reg, respectivamente. Ud deberá
realizar las estimaciones usando las derivaciones de fórmulas vistas en el curso. Cualquier
uso de paquetes o comando pre-elaborados deberá ser justificado y podrı́a ser penalizado.
Sobre el informe:
• El informe debe incorporar las respuestas a todas las preguntas, incorporando las
figuras y/o tablas que estime conveniente.
Sobre el código:
• Cada entrega debe incluir el script de R (o el dofile de STATA) desde donde se corre
todo el análisis.
• Cada análisis debe ser desarrollado por ustedes mismos utilizando vectores y
matrices; el uso de paquetes estadı́sticos será penalizado. Se indicará en las preguntas
cuando deben realizar cálculos “a mano”, es decir, utilizando fórmulas vistas en
clases, vectores y matrices.
• Es importante que el código esté adecuadamente comentado para facilitar su
corrección. Por ejemplo, indicar qué parte del informe/preguntas se desarrollan
en cada sección del código.
• Reproducibilidad: El código debiera estar escrito de manera tal que cualquier
persona lo pueda correr, y reproducir los resultados desde su computador. En
el caso de crear datos aleatorios recomendamos fijar una semilla que permita
reproducir los resultados tal cual queden especificados en el informe de reporte.
Parte de la tarea es que se vean enfrentados a tomar decisiones. Si deben aplicar criterio,
háganlo y justifiquen sus elecciones.
Ante dudas o preguntas, se recomienda fuertemente la utilización del foro de preguntas
del curso. Las respuestas pueden servir a otros compañeros, que se enfrentan a las
mismas dudas. No se permite publicar respuestas.
La tarea tiene un total de 71 puntos, en donde la presentación del informe tiene 1
punto (el informe debe incorporar las respuestas a todas las preguntas, y las figuras
y/o tablas que estime necesarias además debe estar ordenado para obtener el puntaje),
y la presentación de un script ordenado que facilite la corrección tiene 2 puntos. En
caso de no entregar script sus respuestas no tendrán puntaje debido a que es necesario
mostrar el desarrollo de como se obtienen los resultados.
Bonificación: Como un incentivo al uso del procesador de texto LATEX, se entregarán
2 puntos adicionales a quienes lo usen para escribir su informe y a quienes entreguen
de manera correcta los documentos.
Descripción de la tarea y pasos previos:

El objetivo de esta tarea es profundizar en el uso de programas estadı́sticos, analizar e
interpretar resultados y conocer el comportamiento de regresiones lineales múltiples, ası́
como sus limitaciones. El tema central de la tarea será la discusión respecto de la relación
entre ingreso de los paı́ses y la violencia medida a partir de la tasa de homicidios. Para ello
contará con datos de una serie de años y paı́ses, y usted deberá usarlos cuidadosamente para
responder cada una de las preguntas. En esta tarea además se agregará una nueva variable
a estudiar, el desempleo.
Para esta tarea deben trabajar con dos bases de datos, todas de One World Data:
1. La primera base de datos es Tasa de homicidios vs PIB per cápita: Se puede ver
la tasa de homicidios en comparación al PIB per cápita. Notar que esta base de datos
se encuentra a nivel paı́s. Descargar el archivo .csv desde este Link.
2
2. La segunda base de datos Tasa de Desempleo: Se puede obtener la tasa de desempleo
en porcentaje para distintos años. Notar que esta base de datos se encuentra a nivel
paı́s. Descargar el archivo .csv desde este Link.
3. La tercera base de datos es Población por grupos etarios: Contiene datos respecto
a la población en distintos grupos etarios para cada año. Notar que esta base de datos
se encuentra a nivel paı́s y año. Descargar el archivo .csv desde este Link.
Para esta tarea deberá mantener el trabajo realizado en la Tarea 1, es decir, para la primera
base de datos debe modificarla de tal manera que contenga paı́ses con población mayor a 1
millón de habitantes y eliminar las observaciones que no corresponden a paı́ses. Asimismo,
debe poner atención a los datos perdidos o missings y analizar cómo ellos podrı́an afectar
en las diferentes etapas de su análisis. Como referencia, considere que en su base de datos,
para el año 2020 deberı́a tener 161 paı́ses.
Posterior al trabajo de las bases de datos, deberá crear una nueva base de datos final, que será
con la que trabajará durante toda la tarea. Esta base de datos debe contener la información
conjunta de las tres bases de datos mencionadas anteriormente (Tip: considera utilizar la
función merge() en R).
Para todo el desarrollo de la tarea, considere que, a menos que se mencione lo contrario, la
información para su base de datos debe ser la contenida desde el año 1991 al 2020 disponible.
Preguntas
Pregunta 1 (8 puntos)
1. Estime el modelo de regresión lineal simple entre el logaritmo de la tasa de homicidios
cada 100 mil habitantes y el logaritmo del PIB per cápita. Utilice la información desde
el año 1991 al 2020 disponible. ¿Cómo interpreta ese coeficiente? Considere que el
modelo en cuestión corresponde al siguiente:
Log(murder) = α + β1 Log(GDP ) + ϵ (1)
donde murder corresponde a la cantidad de homicidios por cada 100 mil habitantes y
GDP corresponde al PIB per cápita. (3 puntos)
2. Ahora considere el siguiente modelo:
Log(murder) = α + β1 Log(GDP ) + β2 tasa desempleo + ϵ (2)
donde tasa desempleo representa la tasa de desempleo de cada paı́s por año. Estime vı́a
MCO cada uno de los parámetros del modelo (2) e interprete los coeficientes obtenidos.
¿Qué significa cada coeficiente? (5 puntos)
3
1. Construya una función que estime el coeficiente de determinación de una regresión
múltiple cualquiera. Utilice esa función para calcular el valor de R2 del modelo propuesto
en 1.2. ¿Cómo interpreta ese coeficiente? (5 puntos)
2. Estime el coeficiente β1 de la ecuación (2) utilizando únicamente regresiones lineales
simples. Explique claramente cada uno de los pasos que realiza para recuperar el valor
obtenido en 1.2.
Advertencia: Si se utiliza cualquier tipo de regresión múltiple para estimar lo pedido,
no se considerará puntaje en esta pregunta. (7 puntos)

Para este ejercicio deberá estimar diferentes modelos y comparar las estimaciones de la
elasticidad tasa homicidio según el ingreso per cápita de los paı́ses. Utilice un esquema de
presentación de los resultados como el sugerido por la Tabla 1.
Para cada uno de los años activos en su base de datos, construya una variable binaria que
valga 1 si el año de la observación es igual al año de la variable. Por ejemplo, para el año
2000, la variable year 2000i = 1 si los datos de la observación i pertecenen al año 2000. En
otro caso, year 2000i = 0. Incorpore esas variables y omita aquella referida al 2015 de la
regresión para estimar un modelo del tipo:
Log(murder) = α + β1 Log(GDP ) + β2 tasa desempleo + βi yeari + ϵ (3)

X
i∈Y
donde Y es el conjunto de años activos en su base de datos, sin incluir el año 2015.
Posteriormente, para cada uno de los paı́ses activos en su base de datos, construya una
variable binaria que valga 1 si el paı́s de la observación es igual al paı́s de la variable. Por
ejemplo, para Argentina, la variable country argentinai = 1 si los datos de la observación
i pertenecen al paı́s Argentina. En otro caso, country argentinai = 0. Incorpore esas
variables y omita de la regresión aquella referida a Chile para estimar un modelo del tipo:
Log(murder) = α + β1 Log(GDP ) + β2 tasa desempleo + βi yeari + βj countryj + ϵ (4)

X X
i∈Y j∈C
donde C es el conjunto de paı́ses activos en su base de datos, sin incluir a Chile.

Con los modelos (1), (2), (3) y (4) rellene la Tabla 1 y responda según ella:
1. Construya un esquema de presentación de los resultados como el sugerido por la Tabla
1. (8 puntos)
4
2. Analice crı́ticamente los valores de R2 de las dos regresiones (1), (2), (3) y (4). ¿Qué
significa la diferencia o similitud entre los valores de R2 ? (4 puntos)
3. Analice crı́ticamente el aporte al modelo de las variables constantes idiosincrásicas de
cada paı́s. ¿Afecta su inclusión en el coeficiente de interés? ¿Por qué? (4 puntos)
4. Analice crı́ticamente el aporte de las variables constantes idiosincrásicas de cada año.
¿Qué representa el coeficiente asociado al año 2000? (4 puntos)
Modelo (1) (2) (3) (4)

PIB per cápita β1 β1 β1 β1
(σβ1 ) (σβ ) (σβ ) (σβ1 )
Variables en el modelo
Tasa de Desempleo No Sı́ Sı́ Sı́
Binaria por año No No Sı́ Sı́
Binaria por paı́ses No No No Sı́
Número de observaciones n n n n
R2 X X X X
Tabla 1: Comparación de modelos

1. Construya una función que estime el error estándar de un modelo de regresión múltiple
cualquiera. Utilice aquella función para estimar el error estándar del modelo (2) utilizando
datos del año 2015 (note que ahora la unidad de análisis es el paı́s, y no los pares (paı́s,
año)). Estime el valor de β1 y analice su significancia estadı́stica considerando intervalos
de confianza del 90 %. (6 puntos)
2. Alternativamente, construya diferentes intervalos de confianza para β1 utilizando el
siguiente procedimiento:
a) Seleccione una muestra aleatoria de 50 paı́ses, estime el coeficiente β1 para esa
muestra de paı́ses y guarde el valor del coeficiente obtenido. Previo a iniciar el
procedimiento defina una semilla que asegure reproducibilidad posterior de los
resultados obtenidos. (2 puntos)
b) Itere el procedimiento de 4.2a) 100 veces volviendo siempre sobre la muestra
completa de paı́ses (iteraciones con reemplazo). (2 puntos)
c) Ordene los coeficientes obtenidos en la 4.2b) de mayor a menor y construya su
intervalo de confianza al 90 %, recuperando los valores equivalentes al percentil 5
y 95 de los valores obtenidos. (4 puntos)
5
d) Repita el procedimiento anterior pero realizando 1000 y 10000 iteraciones. (4
puntos)
Utilice la función plot confidence intervals(labels, ...)1 que se le proporcionó
para graficar el intervalo de confianza obtenido en 4.1 junto a los intervalos obtenidos
para las 100, 1000 y 10000 simulaciones. Presente el gráfico que arroja la función. ¿Qué
podrı́a concluı́r respecto de la precisión de los coeficientes obtenidos y a partir del
gráfico?

Observe los resultados de la Tabla 1 y analice crı́ticamente si fuera posible a partir de ella
concluir que la evidencia estadı́stica sugiere que los paı́ses se van haciendo menos violentos
a medida que aumentan sus ingresos (o se hacen más ricos).
1
En qué consiste esta función se encuentra en el anexo.
6
Anexo: Sobre la función plot confidence intervals(labels, ...)
La función plot confidence intervals(labels, ...) recibe un vector de etiquetas labels
tal que en cada entrada del vector corresponde al nombre de un modelo en particular. Si el
vector tiene n entradas, entonces la función recibe como argumentos opcionales n vectores de
la forma c(inf lim, sup lim), donde inf lim corresponde al lı́mite inferior del intervalo
de confianza y sup lim corresponde al lı́mite superior del intervalo de confianza. De esta
manera, para cada modelo debe existir un vector de lı́mites del intervalo de confianza. La
función grafica los intervalos de confianza entregados.
Ejemplo
Si se tienen tres modelos, donde el primero tiene un intervalo de confianza para el β1 de
[1, 5], el segundo tiene un intervalo de confianza para β1 de [3,6, 4,8] y el tercero tiene un
intervalo de confianza para β1 de [0,4, 15,4], entonces se le puede entregar esto a la función
plot confidence intervals(labels, ...) según:
1. plot confidence intervals(c("Model 1", "Model 2", "Model 3"), c(1,5), c(3.6,4.8),
c(0.4,15.4))
Y al correr la lı́nea de código anterior, se obtiene el siguiente gráfico

Tarea 2 v.3 (Enunciado)

Cargado por

Copyright:

Formatos disponibles

Tarea 2 v.3 (Enunciado)

Cargado por

Información del documento

Título original

Derechos de autor

Formatos disponibles

Compartir este documento

Compartir o incrustar documentos

Opciones para compartir

¿Le pareció útil este documento?

¿Este contenido es inapropiado?

Copyright:

Formatos disponibles

Tarea 2 v.3 (Enunciado)

Cargado por

Copyright:

Formatos disponibles

Pontificia Universidad Católica de Chile

Departamento de Ingenierı́a Industrial y de Sistemas

Descripción de la tarea y pasos previos:

Log(murder) = α + β1 Log(GDP ) + ϵ (1)

Log(murder) = α + β1 Log(GDP ) + β2 tasa desempleo + ϵ (2)

Pregunta 3 (20 puntos)

Log(murder) = α + β1 Log(GDP ) + β2 tasa desempleo + βi yeari + ϵ (3)

Log(murder) = α + β1 Log(GDP ) + β2 tasa desempleo + βi yeari + βj countryj + ϵ (4)

donde C es el conjunto de paı́ses activos en su base de datos, sin incluir a Chile.

Modelo (1) (2) (3) (4)

Pregunta 4 (18 puntos)

Pregunta 5 (10 puntos)

También podría gustarte