Tarea 2 v.3 (Enunciado)

Descargar como pdf o txt
Descargar como pdf o txt
Está en la página 1de 7

Pontificia Universidad Católica de Chile

Departamento de Ingenierı́a Industrial y de Sistemas


ICS2563 - Econometrı́a Aplicada 2023’1

Tarea 2
31 de marzo del 2023
Profesora Fernanda Ramı́rez y Profesor Patricio Dominguez
Ayudantes: Felipe Valdés (fvaldé[email protected])
Florencia Sciaraffia ([email protected])

Aspectos generales
La tarea puede ser desarrollada en forma individual o en parejas (2 estudiantes). Las
parejas deben estar inscritas en la misma sección del curso.
La fecha de entrega de la tarea es el 12 de abril a las 20:00 hrs en el portal del
curso en Canvas.
La entrega debe incluir el script de R (o el dofile de STATA) y un informe de análisis en
formato pdf.
La entrega debe ser subido cada archivo por separado a Canvas, no se aceptarán
archivos .zip .
Para el análisis de contenidos especı́ficos del curso, no podrá hacer uso de paquetes
disponibles en R o STATA como los comandos lm o reg, respectivamente. Ud deberá
realizar las estimaciones usando las derivaciones de fórmulas vistas en el curso. Cualquier
uso de paquetes o comando pre-elaborados deberá ser justificado y podrı́a ser penalizado.
Sobre el informe:
• El informe debe incorporar las respuestas a todas las preguntas, incorporando las
figuras y/o tablas que estime conveniente.
Sobre el código:
• Cada entrega debe incluir el script de R (o el dofile de STATA) desde donde se corre
todo el análisis.
• Cada análisis debe ser desarrollado por ustedes mismos utilizando vectores y
matrices; el uso de paquetes estadı́sticos será penalizado. Se indicará en las preguntas
cuando deben realizar cálculos “a mano”, es decir, utilizando fórmulas vistas en
clases, vectores y matrices.
• Es importante que el código esté adecuadamente comentado para facilitar su
corrección. Por ejemplo, indicar qué parte del informe/preguntas se desarrollan
en cada sección del código.
• Reproducibilidad: El código debiera estar escrito de manera tal que cualquier
persona lo pueda correr, y reproducir los resultados desde su computador. En
el caso de crear datos aleatorios recomendamos fijar una semilla que permita
reproducir los resultados tal cual queden especificados en el informe de reporte.
Parte de la tarea es que se vean enfrentados a tomar decisiones. Si deben aplicar criterio,
háganlo y justifiquen sus elecciones.
Ante dudas o preguntas, se recomienda fuertemente la utilización del foro de preguntas
del curso. Las respuestas pueden servir a otros compañeros, que se enfrentan a las
mismas dudas. No se permite publicar respuestas.
La tarea tiene un total de 71 puntos, en donde la presentación del informe tiene 1
punto (el informe debe incorporar las respuestas a todas las preguntas, y las figuras
y/o tablas que estime necesarias además debe estar ordenado para obtener el puntaje),
y la presentación de un script ordenado que facilite la corrección tiene 2 puntos. En
caso de no entregar script sus respuestas no tendrán puntaje debido a que es necesario
mostrar el desarrollo de como se obtienen los resultados.
Bonificación: Como un incentivo al uso del procesador de texto LATEX, se entregarán
2 puntos adicionales a quienes lo usen para escribir su informe y a quienes entreguen
de manera correcta los documentos.

Descripción de la tarea y pasos previos:


El objetivo de esta tarea es profundizar en el uso de programas estadı́sticos, analizar e
interpretar resultados y conocer el comportamiento de regresiones lineales múltiples, ası́
como sus limitaciones. El tema central de la tarea será la discusión respecto de la relación
entre ingreso de los paı́ses y la violencia medida a partir de la tasa de homicidios. Para ello
contará con datos de una serie de años y paı́ses, y usted deberá usarlos cuidadosamente para
responder cada una de las preguntas. En esta tarea además se agregará una nueva variable
a estudiar, el desempleo.
Para esta tarea deben trabajar con dos bases de datos, todas de One World Data:
1. La primera base de datos es Tasa de homicidios vs PIB per cápita: Se puede ver
la tasa de homicidios en comparación al PIB per cápita. Notar que esta base de datos
se encuentra a nivel paı́s. Descargar el archivo .csv desde este Link.

2
2. La segunda base de datos Tasa de Desempleo: Se puede obtener la tasa de desempleo
en porcentaje para distintos años. Notar que esta base de datos se encuentra a nivel
paı́s. Descargar el archivo .csv desde este Link.
3. La tercera base de datos es Población por grupos etarios: Contiene datos respecto
a la población en distintos grupos etarios para cada año. Notar que esta base de datos
se encuentra a nivel paı́s y año. Descargar el archivo .csv desde este Link.

Para esta tarea deberá mantener el trabajo realizado en la Tarea 1, es decir, para la primera
base de datos debe modificarla de tal manera que contenga paı́ses con población mayor a 1
millón de habitantes y eliminar las observaciones que no corresponden a paı́ses. Asimismo,
debe poner atención a los datos perdidos o missings y analizar cómo ellos podrı́an afectar
en las diferentes etapas de su análisis. Como referencia, considere que en su base de datos,
para el año 2020 deberı́a tener 161 paı́ses.
Posterior al trabajo de las bases de datos, deberá crear una nueva base de datos final, que será
con la que trabajará durante toda la tarea. Esta base de datos debe contener la información
conjunta de las tres bases de datos mencionadas anteriormente (Tip: considera utilizar la
función merge() en R).
Para todo el desarrollo de la tarea, considere que, a menos que se mencione lo contrario, la
información para su base de datos debe ser la contenida desde el año 1991 al 2020 disponible.

Preguntas
Pregunta 1 (8 puntos)
1. Estime el modelo de regresión lineal simple entre el logaritmo de la tasa de homicidios
cada 100 mil habitantes y el logaritmo del PIB per cápita. Utilice la información desde
el año 1991 al 2020 disponible. ¿Cómo interpreta ese coeficiente? Considere que el
modelo en cuestión corresponde al siguiente:

Log(murder) = α + β1 Log(GDP ) + ϵ (1)

donde murder corresponde a la cantidad de homicidios por cada 100 mil habitantes y
GDP corresponde al PIB per cápita. (3 puntos)
2. Ahora considere el siguiente modelo:

Log(murder) = α + β1 Log(GDP ) + β2 tasa desempleo + ϵ (2)

donde tasa desempleo representa la tasa de desempleo de cada paı́s por año. Estime vı́a
MCO cada uno de los parámetros del modelo (2) e interprete los coeficientes obtenidos.
¿Qué significa cada coeficiente? (5 puntos)

3
Pregunta 2 (12 puntos)
1. Construya una función que estime el coeficiente de determinación de una regresión
múltiple cualquiera. Utilice esa función para calcular el valor de R2 del modelo propuesto
en 1.2. ¿Cómo interpreta ese coeficiente? (5 puntos)
2. Estime el coeficiente β1 de la ecuación (2) utilizando únicamente regresiones lineales
simples. Explique claramente cada uno de los pasos que realiza para recuperar el valor
obtenido en 1.2.
Advertencia: Si se utiliza cualquier tipo de regresión múltiple para estimar lo pedido,
no se considerará puntaje en esta pregunta. (7 puntos)

Pregunta 3 (20 puntos)


Para este ejercicio deberá estimar diferentes modelos y comparar las estimaciones de la
elasticidad tasa homicidio según el ingreso per cápita de los paı́ses. Utilice un esquema de
presentación de los resultados como el sugerido por la Tabla 1.
Para cada uno de los años activos en su base de datos, construya una variable binaria que
valga 1 si el año de la observación es igual al año de la variable. Por ejemplo, para el año
2000, la variable year 2000i = 1 si los datos de la observación i pertecenen al año 2000. En
otro caso, year 2000i = 0. Incorpore esas variables y omita aquella referida al 2015 de la
regresión para estimar un modelo del tipo:

Log(murder) = α + β1 Log(GDP ) + β2 tasa desempleo + βi yeari + ϵ (3)


X

i∈Y

donde Y es el conjunto de años activos en su base de datos, sin incluir el año 2015.
Posteriormente, para cada uno de los paı́ses activos en su base de datos, construya una
variable binaria que valga 1 si el paı́s de la observación es igual al paı́s de la variable. Por
ejemplo, para Argentina, la variable country argentinai = 1 si los datos de la observación
i pertenecen al paı́s Argentina. En otro caso, country argentinai = 0. Incorpore esas
variables y omita de la regresión aquella referida a Chile para estimar un modelo del tipo:

Log(murder) = α + β1 Log(GDP ) + β2 tasa desempleo + βi yeari + βj countryj + ϵ (4)


X X

i∈Y j∈C

donde C es el conjunto de paı́ses activos en su base de datos, sin incluir a Chile.


Con los modelos (1), (2), (3) y (4) rellene la Tabla 1 y responda según ella:
1. Construya un esquema de presentación de los resultados como el sugerido por la Tabla
1. (8 puntos)

4
2. Analice crı́ticamente los valores de R2 de las dos regresiones (1), (2), (3) y (4). ¿Qué
significa la diferencia o similitud entre los valores de R2 ? (4 puntos)
3. Analice crı́ticamente el aporte al modelo de las variables constantes idiosincrásicas de
cada paı́s. ¿Afecta su inclusión en el coeficiente de interés? ¿Por qué? (4 puntos)
4. Analice crı́ticamente el aporte de las variables constantes idiosincrásicas de cada año.
¿Qué representa el coeficiente asociado al año 2000? (4 puntos)

Modelo (1) (2) (3) (4)


PIB per cápita β1 β1 β1 β1
(σβ1 ) (σβ ) (σβ ) (σβ1 )
Variables en el modelo
Tasa de Desempleo No Sı́ Sı́ Sı́
Binaria por año No No Sı́ Sı́
Binaria por paı́ses No No No Sı́
Número de observaciones n n n n
R2 X X X X
Tabla 1: Comparación de modelos

Pregunta 4 (18 puntos)


1. Construya una función que estime el error estándar de un modelo de regresión múltiple
cualquiera. Utilice aquella función para estimar el error estándar del modelo (2) utilizando
datos del año 2015 (note que ahora la unidad de análisis es el paı́s, y no los pares (paı́s,
año)). Estime el valor de β1 y analice su significancia estadı́stica considerando intervalos
de confianza del 90 %. (6 puntos)
2. Alternativamente, construya diferentes intervalos de confianza para β1 utilizando el
siguiente procedimiento:
a) Seleccione una muestra aleatoria de 50 paı́ses, estime el coeficiente β1 para esa
muestra de paı́ses y guarde el valor del coeficiente obtenido. Previo a iniciar el
procedimiento defina una semilla que asegure reproducibilidad posterior de los
resultados obtenidos. (2 puntos)
b) Itere el procedimiento de 4.2a) 100 veces volviendo siempre sobre la muestra
completa de paı́ses (iteraciones con reemplazo). (2 puntos)
c) Ordene los coeficientes obtenidos en la 4.2b) de mayor a menor y construya su
intervalo de confianza al 90 %, recuperando los valores equivalentes al percentil 5
y 95 de los valores obtenidos. (4 puntos)

5
d) Repita el procedimiento anterior pero realizando 1000 y 10000 iteraciones. (4
puntos)
Utilice la función plot confidence intervals(labels, ...)1 que se le proporcionó
para graficar el intervalo de confianza obtenido en 4.1 junto a los intervalos obtenidos
para las 100, 1000 y 10000 simulaciones. Presente el gráfico que arroja la función. ¿Qué
podrı́a concluı́r respecto de la precisión de los coeficientes obtenidos y a partir del
gráfico?

Pregunta 5 (10 puntos)


Observe los resultados de la Tabla 1 y analice crı́ticamente si fuera posible a partir de ella
concluir que la evidencia estadı́stica sugiere que los paı́ses se van haciendo menos violentos
a medida que aumentan sus ingresos (o se hacen más ricos).

1
En qué consiste esta función se encuentra en el anexo.

6
Anexo: Sobre la función plot confidence intervals(labels, ...)
La función plot confidence intervals(labels, ...) recibe un vector de etiquetas labels
tal que en cada entrada del vector corresponde al nombre de un modelo en particular. Si el
vector tiene n entradas, entonces la función recibe como argumentos opcionales n vectores de
la forma c(inf lim, sup lim), donde inf lim corresponde al lı́mite inferior del intervalo
de confianza y sup lim corresponde al lı́mite superior del intervalo de confianza. De esta
manera, para cada modelo debe existir un vector de lı́mites del intervalo de confianza. La
función grafica los intervalos de confianza entregados.

Ejemplo
Si se tienen tres modelos, donde el primero tiene un intervalo de confianza para el β1 de
[1, 5], el segundo tiene un intervalo de confianza para β1 de [3,6, 4,8] y el tercero tiene un
intervalo de confianza para β1 de [0,4, 15,4], entonces se le puede entregar esto a la función
plot confidence intervals(labels, ...) según:
1. plot confidence intervals(c("Model 1", "Model 2", "Model 3"), c(1,5), c(3.6,4.8),
c(0.4,15.4))
Y al correr la lı́nea de código anterior, se obtiene el siguiente gráfico

También podría gustarte