Tarea 2 v.3 (Enunciado)
Tarea 2 v.3 (Enunciado)
Tarea 2 v.3 (Enunciado)
Tarea 2
31 de marzo del 2023
Profesora Fernanda Ramı́rez y Profesor Patricio Dominguez
Ayudantes: Felipe Valdés (fvaldé[email protected])
Florencia Sciaraffia ([email protected])
Aspectos generales
La tarea puede ser desarrollada en forma individual o en parejas (2 estudiantes). Las
parejas deben estar inscritas en la misma sección del curso.
La fecha de entrega de la tarea es el 12 de abril a las 20:00 hrs en el portal del
curso en Canvas.
La entrega debe incluir el script de R (o el dofile de STATA) y un informe de análisis en
formato pdf.
La entrega debe ser subido cada archivo por separado a Canvas, no se aceptarán
archivos .zip .
Para el análisis de contenidos especı́ficos del curso, no podrá hacer uso de paquetes
disponibles en R o STATA como los comandos lm o reg, respectivamente. Ud deberá
realizar las estimaciones usando las derivaciones de fórmulas vistas en el curso. Cualquier
uso de paquetes o comando pre-elaborados deberá ser justificado y podrı́a ser penalizado.
Sobre el informe:
• El informe debe incorporar las respuestas a todas las preguntas, incorporando las
figuras y/o tablas que estime conveniente.
Sobre el código:
• Cada entrega debe incluir el script de R (o el dofile de STATA) desde donde se corre
todo el análisis.
• Cada análisis debe ser desarrollado por ustedes mismos utilizando vectores y
matrices; el uso de paquetes estadı́sticos será penalizado. Se indicará en las preguntas
cuando deben realizar cálculos “a mano”, es decir, utilizando fórmulas vistas en
clases, vectores y matrices.
• Es importante que el código esté adecuadamente comentado para facilitar su
corrección. Por ejemplo, indicar qué parte del informe/preguntas se desarrollan
en cada sección del código.
• Reproducibilidad: El código debiera estar escrito de manera tal que cualquier
persona lo pueda correr, y reproducir los resultados desde su computador. En
el caso de crear datos aleatorios recomendamos fijar una semilla que permita
reproducir los resultados tal cual queden especificados en el informe de reporte.
Parte de la tarea es que se vean enfrentados a tomar decisiones. Si deben aplicar criterio,
háganlo y justifiquen sus elecciones.
Ante dudas o preguntas, se recomienda fuertemente la utilización del foro de preguntas
del curso. Las respuestas pueden servir a otros compañeros, que se enfrentan a las
mismas dudas. No se permite publicar respuestas.
La tarea tiene un total de 71 puntos, en donde la presentación del informe tiene 1
punto (el informe debe incorporar las respuestas a todas las preguntas, y las figuras
y/o tablas que estime necesarias además debe estar ordenado para obtener el puntaje),
y la presentación de un script ordenado que facilite la corrección tiene 2 puntos. En
caso de no entregar script sus respuestas no tendrán puntaje debido a que es necesario
mostrar el desarrollo de como se obtienen los resultados.
Bonificación: Como un incentivo al uso del procesador de texto LATEX, se entregarán
2 puntos adicionales a quienes lo usen para escribir su informe y a quienes entreguen
de manera correcta los documentos.
2
2. La segunda base de datos Tasa de Desempleo: Se puede obtener la tasa de desempleo
en porcentaje para distintos años. Notar que esta base de datos se encuentra a nivel
paı́s. Descargar el archivo .csv desde este Link.
3. La tercera base de datos es Población por grupos etarios: Contiene datos respecto
a la población en distintos grupos etarios para cada año. Notar que esta base de datos
se encuentra a nivel paı́s y año. Descargar el archivo .csv desde este Link.
Para esta tarea deberá mantener el trabajo realizado en la Tarea 1, es decir, para la primera
base de datos debe modificarla de tal manera que contenga paı́ses con población mayor a 1
millón de habitantes y eliminar las observaciones que no corresponden a paı́ses. Asimismo,
debe poner atención a los datos perdidos o missings y analizar cómo ellos podrı́an afectar
en las diferentes etapas de su análisis. Como referencia, considere que en su base de datos,
para el año 2020 deberı́a tener 161 paı́ses.
Posterior al trabajo de las bases de datos, deberá crear una nueva base de datos final, que será
con la que trabajará durante toda la tarea. Esta base de datos debe contener la información
conjunta de las tres bases de datos mencionadas anteriormente (Tip: considera utilizar la
función merge() en R).
Para todo el desarrollo de la tarea, considere que, a menos que se mencione lo contrario, la
información para su base de datos debe ser la contenida desde el año 1991 al 2020 disponible.
Preguntas
Pregunta 1 (8 puntos)
1. Estime el modelo de regresión lineal simple entre el logaritmo de la tasa de homicidios
cada 100 mil habitantes y el logaritmo del PIB per cápita. Utilice la información desde
el año 1991 al 2020 disponible. ¿Cómo interpreta ese coeficiente? Considere que el
modelo en cuestión corresponde al siguiente:
donde murder corresponde a la cantidad de homicidios por cada 100 mil habitantes y
GDP corresponde al PIB per cápita. (3 puntos)
2. Ahora considere el siguiente modelo:
donde tasa desempleo representa la tasa de desempleo de cada paı́s por año. Estime vı́a
MCO cada uno de los parámetros del modelo (2) e interprete los coeficientes obtenidos.
¿Qué significa cada coeficiente? (5 puntos)
3
Pregunta 2 (12 puntos)
1. Construya una función que estime el coeficiente de determinación de una regresión
múltiple cualquiera. Utilice esa función para calcular el valor de R2 del modelo propuesto
en 1.2. ¿Cómo interpreta ese coeficiente? (5 puntos)
2. Estime el coeficiente β1 de la ecuación (2) utilizando únicamente regresiones lineales
simples. Explique claramente cada uno de los pasos que realiza para recuperar el valor
obtenido en 1.2.
Advertencia: Si se utiliza cualquier tipo de regresión múltiple para estimar lo pedido,
no se considerará puntaje en esta pregunta. (7 puntos)
i∈Y
donde Y es el conjunto de años activos en su base de datos, sin incluir el año 2015.
Posteriormente, para cada uno de los paı́ses activos en su base de datos, construya una
variable binaria que valga 1 si el paı́s de la observación es igual al paı́s de la variable. Por
ejemplo, para Argentina, la variable country argentinai = 1 si los datos de la observación
i pertenecen al paı́s Argentina. En otro caso, country argentinai = 0. Incorpore esas
variables y omita de la regresión aquella referida a Chile para estimar un modelo del tipo:
i∈Y j∈C
4
2. Analice crı́ticamente los valores de R2 de las dos regresiones (1), (2), (3) y (4). ¿Qué
significa la diferencia o similitud entre los valores de R2 ? (4 puntos)
3. Analice crı́ticamente el aporte al modelo de las variables constantes idiosincrásicas de
cada paı́s. ¿Afecta su inclusión en el coeficiente de interés? ¿Por qué? (4 puntos)
4. Analice crı́ticamente el aporte de las variables constantes idiosincrásicas de cada año.
¿Qué representa el coeficiente asociado al año 2000? (4 puntos)
5
d) Repita el procedimiento anterior pero realizando 1000 y 10000 iteraciones. (4
puntos)
Utilice la función plot confidence intervals(labels, ...)1 que se le proporcionó
para graficar el intervalo de confianza obtenido en 4.1 junto a los intervalos obtenidos
para las 100, 1000 y 10000 simulaciones. Presente el gráfico que arroja la función. ¿Qué
podrı́a concluı́r respecto de la precisión de los coeficientes obtenidos y a partir del
gráfico?
1
En qué consiste esta función se encuentra en el anexo.
6
Anexo: Sobre la función plot confidence intervals(labels, ...)
La función plot confidence intervals(labels, ...) recibe un vector de etiquetas labels
tal que en cada entrada del vector corresponde al nombre de un modelo en particular. Si el
vector tiene n entradas, entonces la función recibe como argumentos opcionales n vectores de
la forma c(inf lim, sup lim), donde inf lim corresponde al lı́mite inferior del intervalo
de confianza y sup lim corresponde al lı́mite superior del intervalo de confianza. De esta
manera, para cada modelo debe existir un vector de lı́mites del intervalo de confianza. La
función grafica los intervalos de confianza entregados.
Ejemplo
Si se tienen tres modelos, donde el primero tiene un intervalo de confianza para el β1 de
[1, 5], el segundo tiene un intervalo de confianza para β1 de [3,6, 4,8] y el tercero tiene un
intervalo de confianza para β1 de [0,4, 15,4], entonces se le puede entregar esto a la función
plot confidence intervals(labels, ...) según:
1. plot confidence intervals(c("Model 1", "Model 2", "Model 3"), c(1,5), c(3.6,4.8),
c(0.4,15.4))
Y al correr la lı́nea de código anterior, se obtiene el siguiente gráfico