Sesión Con STATA

INTRODUCCION AL STATA
Mg. Vctor M. Chung Alva

CURSO: Econometra con STATA SESION: Introduccin al STATA
Expositor: Mg. Vctor M. Chung Alva
1. INTRODUCCIN
Stata es un paquete estadstico de gran alcance con servicios inteligentes de manejo de datos,
con una amplia variedad de tcnicas estadsticas, y un sistema excelente para producir grficos
con presentacin de calidad. Stata es rpido y fcil de usar. En este tutorial se comienza con
una breve introduccin y una visin general, y luego discutiremos el manejo de datos,
estadsticas, grficos y programacin.
1.1. Interface de Stata

La interfaz de Stata es ligeramente diferente en funcin de qu versin de Stata est
utilizando y en qu sistema operativo se encuentra. Sin embargo, las ventanas bsicas de
Stata son bastante consistentes. Cuando Stata inicia ver cinco ventanas acopladas,
dispuestos inicialmente como se muestra a continuacin:
Command: Sirve para utilizar Stata de forma interactiva, es decir se emplea para crear las lneas
de comandos y llevar a cabo las aplicaciones disponibles en el software.
Results: Esta nos permite visualizar los resultados (outputs) de los estadsticos que pedimos
calcular o de los modelos que solicitamos estimar
Review: Aqu aparecen los comandos que han sido utilizados durante la sesin. Solo
los resultados ms recientes son visibles en esta pantalla.
Variables: Nos informa sobre las variables que estn disponibles en nuestra base de
datos para realizar las diversas aplicaciones
Properties: muestra las propiedades de las variables y los conjuntos de datos.
1.2. Conjunto de Datos

Las bases de datos Stata tienen extensin .dta y puede ser cargada en Stata en la forma
habitual a travs del men File. Al igual que en otros paquetes estadsticos, un conjunto
de datos es una matriz donde las columnas representan las variables (con nombres y
etiquetas) y las filas representan observaciones. Cuando un conjunto de datos est
abierto, los nombres de variables y etiquetas de variable aparecen en la ventana
Variables. El conjunto de datos se puede ver como una hoja de clculo, abra el Data
Browser (explorador de datos) con el botn y editar haciendo clic en para abrir
Data Editor (Editor de datos). Tanto el explorador de datos y el editor de datos tambin se
pueden abrir a travs del men Window. Tenga en cuenta sin embargo, que nada se
puede hacer en Stata, mientras que el explorador de datos o el Editor de datos estn
abiertos (por ejemplo, la ventana de comandos Stata desaparece).
1.3. Tipos de Archivos Bsicos
1.3.1. Datos (.dta)
Los datos que utilizaremos en stata los guardaremos en formato .dta, que es el formato
propio de Stata. De todos modos, Stata tiene la capacidad de importar datos en muy
diversos formatos (Excel, SPSS, ASCII, CSV, etc) as que con un poco de trabajo podremos
abrir la mayora de las bases de datos.
1.3.2. Sintaxis (.do)
Los archivos de sintaxis se guardan en formato do, y por eso los conocemos cmo do-
files. En realidad son meros archivos de texto que podemos editar en mltiples
programas, pero nos sirven para conservar la sintaxis de nuestro trabajo.
1.3.3. Output (.log)
Si queremos conservar los resultados lo podemos hacer en un log file. Podemos elegir
dos tipos, aunque el ms recomendable es .log, que no tiene formato y nos garantiza
compatibilidad con otros editores de textos.
1.3.4. Extensiones (.ado)
Son uno de los puntos fuertes de Stata. Los usuarios, con relativa facilidad, pueden escribir
funciones y comandos nuevos y distribuirlos gratuitamente. De este modo, la potencia del
programa se multiplica, ya que all donde la distribucin oficial no llega, s lo hacen los
usuarios. Durante el curso aprenderemos a buscar e instalar archivos ado que nos
permitirn realizar funciones que no vienen por defecto en el programa.
1.4. Sintaxis de las rdenes de Stata
La aplicacin Stata posee un lenguaje de programacin avanzado que respeta unas
normas de sintaxis, al igual que otros lenguajes de programacin. Quienes estn
familiarizados con estos lenguajes les resultar muy sencillo asimilar el lenguaje se Stata.
Cualquier orden en Stata (con muy pocas excepciones) posee la siguiente sintaxis:
[prefix :] command [varlist] [=exp] [if] [in] [weight] [using filename] [, options]
Pero la mayora de las veces vamos a utilizar la siguiente forma, mucho ms simplificada:
command [varlist] [if] [in] [weight] [, options]
Ejemplos:
table genero edad

Realiza una tabla de contingencia del gnero y la edad
table genero edad if altura >1.70

Realiza una tabla de contingencia del gnero y la edad slo para personas de
ms de 1.70 de altura
table genero edad if altura >1.70 in 1/100

ms de 1.70 de altura utilizando nicamente los 100 primeros caso de la base
de datos
table genero edad if altura >1.70 in 1/100, chi

ms de 1.70 de altura utilizando nicamente los 100 primeros caso de la base
de datos y se solicita que realice el test Chi cuadrado
1.5. Organizacin del trabajo en Stata

Cuando se abre STATA es importante saber dnde se est trabajando, es decir, en que carpeta se
estn guardando los resultados o desde que carpeta vamos a llamar la base de datos, etc. Si no se
sabe la carpeta o directorio donde STATA est ubicado podemos averiguarlo escribiendo el
comando pwd.
pwd
Se obtiene el siguiente resultado, el cual indica que estamos ubicados en la carpeta stata
del disco C del ordenador.
c:\stata
Para cambiar el directorio o carpeta se debe realizar lo siguiente:
cd c:\datos
Se utiliz el comando cd y se especific la nueva ruta. En este caso se est indicando al programa
que se ubique en la carpeta datos que se encuentra en el disco C del computador.
La ventaja de indicar desde un comienzo la carpeta del computador donde se est trabajando, es
que evita indicar la ruta completa de los archivos cada vez que queramos abrir o guardar una base
de datos, o abrir o guardar un log. Obviamente esto tiene sentido cuando para un trabajo
especfico tenemos todos los archivos necesarios en la misma carpeta.
STATA no va a reconocer una carpeta que tenga espacios en blanco en el nombre, a no ser que se
indique la ubicacin de esta carpeta entre comillas. Por este motivo, se debe evitar llamar a una
carpeta con la que van a trabajar en STATA con nombres que contengan espacios en blanco.
1.6. Abrir una base de datos
Las bases de datos en formato Stata tienen extensin .dta. Las versiones antiguas del
software no se pueden abrir bases de datos que han sido trabajadas y guardas en una
versin ms moderna, cuando intentemos hacer esto el programa entregar un error
indicando que la base no tiene formato Stata.
Antes de abrir una base de datos se tienen que cumplir dos condiciones:
1. El programa debe estar limpio, sin ninguna base de datos ya cargada. Para limpiar el
programa de otras bases de datos se debe utilizar el comando clear. Si he estado
trabajando una base de datos previamente la cual se ha modificado y no he guardado
estas modificaciones, al intentar abrir una nueva base de datos sin limpiar antes
arrojar el siguiente error:
no; data in memory would be lost
2. El programa debe tener suficiente memoria. Para entregarle memoria a Stata se debe
utilizar el comando set mem. Por ejemplo, si la base de datos que deseamos cargar
pesa 100 MB, en la ventana Command debemos tipear:
set mem 100m
Existen distintas formas de cargar una base de datos:

1. Utilizando una base ya grabada con la extensin de STATA, es decir, disponer de la
base de datos como nombre.dta En este caso podemos apretar el icono y buscar
la ubicacin de la base de datos. Tambin podemos hacerlo dirigindonos a
File/Open
2. Otra forma es tipear en Stata Command
use [disco en que la guardaremos] \ [ruta de acceso] \ [nombre de archivo.dta], clear.
Por ejemplo:
use C:\stata\auto.dta, clear
O simplemente
use auto.dta, clear
si ya le hemos indicado previamente a Stata que vamos a trabajar en la carpeta stata

del disco C.
1.7. Guardar una base de datos
Para guardar la base de datos utilizamos el comando save:
1. Si quiere reescribir la base de datos antigua:
save C:\stata\auto.dta, replace
Es importante escribir replace, sino el programa les enviara un error diciendo que la
base de datos ya existe.
2. Si quiere guardar la base de datos con un nuevo nombre no es necesario tipear replace:
save C:\stata\auto2.dta
Una vez que los datos han sido cargados, se puede optimizar el espacio que estos
ocupan utilizando el comando compress, este comando comprime la base de datos. Es
muy til cuando trabajamos con bases de datos grandes.
2. EJEMPLO DE SESION
2.1. Administracin de base de datos
El conjunto de datos que vamos a utilizar para esta sesin es un conjunto de datos sobre la
venta de automviles en los Estados Unidos en 1978.
1. Comando sysuse
Comenzamos cargando el conjunto de datos auto, que se incluye con Stata. En la ventana
de comandos escribimos:
sysuse auto
El siguiente resultado aparece en la gran ventana de resultados:
El resultado consiste en un comando y su resultado. El comando, sysuse auto.dta, es

marcado y sigue al punto (.). El resultado, (1978 Automobile Data), est aqu en la forma
estndar y es una breve descripcin del conjunto de datos.
El mismo comando, sysuse auto.dta, aparece en la pequea ventana Review a la
izquierda. La ventana Review realiza un seguimiento de los comandos de Stata que se
han corrido, con xito y sin xito. Los comandos pueden entonces fcilmente volverse
a ejecutar.
Una serie de variables aparecen en la ventana pequea Variables en la parte superior
derecha.
Parte de la informacin acerca de make, la primera variable del conjunto de datos,
aparece en la ventana Properties en la parte inferior derecha.
2. Comando browse
Podemos echar un vistazo rpido a los datos navegando en el Data Editor. Esto se puede
hacer haciendo clic en el botn Data Editor (Browse), o tecleando el comando browse.
browse
Cuando se abre el Data Editor, se puede ver que Stata refiere a los datos como una tabla
rectangular. Esto es cierto para todos los conjuntos de datos Stata. Las columnas
representan las variables, mientras que las filas representan las observaciones. Las
variables tienen nombres descriptivos, mientras que las observaciones estn numeradas.
Los datos se presentan en varios colores- que a primera vista parece que las variables
enumeradas en negro son numricas, mientras que los que estn en colores son de texto.
Esto vale la pena investigar. Haga clic en una celda bajo la variable make: el cuadro de
entrada en la parte superior se muestra la marca del coche (color rojo). Desplcese hacia la
derecha hasta que aparezca la variable foreign. Haga clic en una de sus celdas. Aunque la
celda puede mostrar "domstica", el cuadro de entrada muestra un 0. Esto muestra que
Stata puede almacenar datos categricos como nmeros pero visualizar texto legible (color
azul). Esto se hace por lo que Stata llama value labels. Por ltimo, en la variable rep78, que
parece ser numrica, hay algunas celdas que contienen slo un punto (.). Los puntos
corresponden a los valores perdidos.
3. Comando describe
Podemos ver la estructura del conjunto de datos mediante la descripcin de su contenido.
Esto se puede hacer escribiendo describe en la ventana de comandos y pulsar enter.
El comando describe entrega informacin de todas las variables que se encuentran en la
base de datos. Esta informacin incluye el tipo de almacenamiento (byte, int, long, float,
double, string), el formato de los datos, la variable que contiene el label (etiqueta), y la
descripcin de la variable. Adems entrega informacin de nmero de observaciones,
nmero de variables y tamao de la base de datos.
Cuando la base de datos es muy grande y slo se quiere obtener informacin de algunas de
las variables contenidas en ella, despus de describe (o simplemente d) se ingresa la lista de
variables de las cuales Ud. desea una descripcin.
. describe
Contains data from C:\Program Files (x86)\All Stata 12\ado\base/a/auto.dta

obs: 74 1978 Automobile Data
vars: 12 13 Apr 2011 17:45
size: 3,182 (_dta has notes)
storage display value

variable name type format label variable label
make str18 %-18s Make and Model

price int %8.0gc Price
mpg int %8.0g Mileage (mpg)
rep78 int %8.0g Repair Record 1978
headroom float %6.1f Headroom (in.)
trunk int %8.0g Trunk space (cu. ft.)
weight int %8.0gc Weight (lbs.)
length int %8.0g Length (in.)
turn int %8.0g Turn Circle (ft.)
displacement int %8.0g Displacement (cu. in.)
gear_ratio float %6.2f Gear Ratio
foreign byte %8.0g origin Car type
Sorted by: foreign
En la parte superior de la lista, se le da un poco de informacin sobre el conjunto de datos,

por ejemplo, donde se almacena en el disco, la cantidad de memoria que ocupa, y cuando
se guardaron los datos por ltima vez. El marcado 1978 Automobile Data es la breve
descripcin que aparece cuando se abre el conjunto de datos y es referida como una
etiqueta de datos por Stata. La frase _dta has notes nos informa que hay notas asociadas al
conjunto de datos. Podemos ver lo que seala escribiendo notes en la ventana de
comandos:
Mirando la lista de describe podemos ver que Stata realiza un seguimiento ms detallado
que los datos en bruto. Cada variable tiene lo siguiente:
name variable, nombre de la variable cuando se comunica con Stata. Los nombres
de variables son un tipo de nombre de Stata.
storage type, forma en que Stata almacena sus datos. Para nuestros propsitos, es
suficiente saber que lo tipos comienzan que comienzan con str son variables string
o texto, mientras que todos los dems son numricos.
display format, controla cmo Stata muestra los datos en tablas.
value label, Este es el mecanismo que permite Stata almacenar datos numricos
mientras exhibe el texto.
variable label, nombre de la variable en la comunicacin con otras personas. Stata
usa la etiqueta de variable al hacer tablas, como veremos ms adelante.
4. Comando label
Etiquetaremos las variables (en espaol) usando el comando label variable
. label variable make "Marca y Modelo"

. label variable price "Precio"
. label variable mpg "Millaje (mpg)"
. label variable rep78 "Registro de reparacin 1978"
. label variable headroom "Altura (pulg.)"
. label variable trunk "Espacio en el maletero (pies cbicos)"
. label variable weight "Peso (lbs.)"
. label variable length "Longitud (Pulg.)"
. label variable turn "Giro del circulo (pies)"
. label variable displacement "Desplazamiento (pies pulg)
. label variable gear_ratio "Razn de engranaje"
. label variable foreign "Tipo de vehculo"
Para lograr que una base de datos sea ms amigable y sea entendida por cualquier usuario,
es recomendable incorporar etiquetas a los nmeros o cdigos de las variables. Esto se
hace mediante la utilizacin de variables secundarias llamadas value labels. Si una variable
tiene una variable secundaria que entregue etiqueta a los cdigos que contiene, debera
aparecer en el resultado del comando describe.
Ejemplificaremos esto con la variable foreign (etiquetada con etiquetas en ingls).
a) Asociaremos una variable secundaria (value label) que realice el nexo entre los cdigos
y sus etiquetas:
label define forlabel 0 "Nacional" 1 "Extranjero"
b) Indicaremos la relacin entre la variable y su variable secundaria con las etiquetas:
label values foreign forlabel
Si la base de datos ya tiene alguna variable secundaria de etiquetas (value labels) y

queremos saber que cdigo est relacionado a que etiqueta, se debe utilizar el comando
label list:
. label list forlabel
forlabel:
0 Nacional
1 Extranjero
5. Comando save
save c:\stata\auto2.dta
6. Comando summarize
Aunque la descripcin de los datos nos dice algo acerca de la estructura de los datos, se
dice poco sobre los propios datos. Los datos se pueden resumir a travs del comando
summarize. El resultado es una tabla que contiene las estadsticas de resumen sobre todas
las variables del conjunto de datos:
. summarize
Variable Obs Mean Std. Dev. Min Max
make 0
price 74 6165.257 2949.496 3291 15906
mpg 74 21.2973 5.785503 12 41
rep78 69 3.405797 .9899323 1 5
headroom 74 2.993243 .8459948 1.5 5
trunk 74 13.75676 4.277404 5 23

weight 74 3019.459 777.1936 1760 4840
length 74 187.9324 22.26634 142 233
turn 74 39.64865 4.399354 31 51
displacement 74 197.2973 91.83722 79 425
gear_ratio 74 3.014865 .4562871 2.19 3.89

foreign 74 .2972973 .4601885 0 1
Hay otros dos puntos importantes aqu:

1. La variable make parece no tener observaciones. Realmente no tiene observaciones
numricas, ya que es una variable de cadena (de texto).
2. La variable rep78 tiene cinco observaciones menos que el resto de las variables
numricas. Esto implica que rep78 tiene cinco valores faltantes.
Aunque podramos utilizar los comandos summarize y describe para obtener una visin de la
base de datos, Stata tiene un comando que le da una buena descripcin de la estructura, el
contenido y los valores de las variables: el comando codebook.
7. Comando codebook
El comando codebook es ms completo, presenta la etiqueta de la variable, el formato, el
rango de los datos, si esta codificada en nmeros enteros (units: 1), cuantas observaciones
no tienen dato de esta variable, el promedio, la desviacin estndar, y los percentiles.
Nos centraremos en la salida de make, rep78 y foreign.
. codebook make
make Marca y Modelo
type: string (str18), but longest is str17
unique values: 74 missing "": 0/74
examples: "Cad. Deville"

"Dodge Magnum"
"Merc. XR-7"
"Pont. Catalina"
warning: variable has embedded blanks
La primera lnea de la salida nos dice el nombre de la variable (make) y la etiqueta de

variable (Marca y Modelo). La variable se almacena como string o cadena (que es otra
forma de decir "texto") con una longitud mxima de 18 caracteres, a pesar de que un
tamao de slo 17 caracteres sera suficiente. Todos los valores son nicos, por lo que si
fuese necesario, podra ser utilizado como un identificador para las observaciones, algo que
a menudo es til cuando se elabora una base de datos de mltiples fuentes o cuando se
trata de eliminar los errores del conjunto de datos. No hay valores perdidos, pero hay
espacios en blanco dentro de las marcas. Este ltimo hecho podra ser til si esperamos que
make sea una variable cadena de una sola palabra.
Observando a la variable foreign podremos aprender acerca de las etiquetas de valor.
Veremos la salida de codebook para esta variable. Escribimos codebook foreign en la ventana
de comandos para obtener el siguiente resultado:
. codebook foreign
foreign Tipo de vehculo
type: numeric (byte)

label: origin
range: [0,1] units: 1

unique values: 2 missing .: 0/74
tabulation: Freq. Numeric Label

52 0 Domestic
22 1 Foreign
Podemos deducir que foreign es una variable indicador debido a que sus nicos valores son
0 y 1. La variable tiene una etiqueta de valor que muestra Domestic en vez de 0 y Foreign en
vez de 1. Hay dos ventajas por almacenar los datos en esta forma:
El almacenamiento de la variable como un byte toma menos memoria porque cada
observacin utiliza 1 byte en lugar de los 8 bytes necesarios para almacenar
"Domestic". Esto es importante en grandes conjuntos de datos.
Como una variable indicador, es fcil de incorporarla en modelos estadsticos.
Por ltimo, podemos aprender un poco sobre una variable mal etiquetada con valores
perdidos analizando la variable rep78. Al tipear codebook rep78 en la ventana de comandos
y pulsando enter obtenemos:
. codebook rep78
rep78 Registro de reparacin 1978
type: numeric (int)
range: [1,5] units: 1

unique values: 5 missing .: 5/74
tabulation: Freq. Value

2 1
8 2
30 3
18 4
11 5
5 .
rep78 parece ser una variable categrica, pero debido a la falta de documentacin, no
sabemos que significan los nmeros. Esta variable tiene cinco valores perdidos, lo que
significa que hay cinco observaciones para las cuales el registro de reparacin no se
registra. Podramos utilizar el editor de datos para investigar estas cinco observaciones,
pero vamos a hacer esto utilizando la ventana de comandos porque hacerlo as es mucho
ms simple. Nos gustara ver slo aquellas observaciones para las que rep78 est faltante,
por lo podemos tipear:
browse if missing(rep78)
De esto, podemos ver que las entradas . son de hecho valores perdidos, aunque otros
valores perdidos son admisibles.
Nota de Sintaxis: Usando la calificacin if es lo que nos permiti ver un subconjunto de las
observaciones.
Mirando a travs de los datos no presta ninguna pista acerca de por qu estos datos en
particular estn perdidos. Comprobemos el origen de los datos para ver si los valores
perdidos fueron originalmente faltantes o si se omitieron por error. El listado de la marcas
de los autos cuyo registro de reparacin faltan ser todo lo que necesitaremos porque
hemos visto que los valores de variable make son nicos. Esto se puede hacer tipeando:
list make if missing (rep78)
Vamos a la referencia original y encontramos que los datos fueron realmente faltantes y no
pueden ser recuperados.
2.2. ESTADISTICA DESCRIPTIVA
Hemos visto que el comando summarize dio breves estadsticas de resumen sobre todas las
variables. Supongamos ahora que estamos interesamos en los precios luego de resumir los
datos porque parecan increblemente bajos (era 1978, despus de todo). Para tener una
mirada en profundidad de la variable Price tipeamos en la ventana de comandos:
summarize price, detail
. summarize price, detail
Precio
Percentiles Smallest
1% 3291 3291
5% 3748 3299
10% 3895 3667 Obs 74
25% 4195 3748 Sum of Wgt. 74
50% 5006.5 Mean 6165.257

Largest Std. Dev. 2949.496
75% 6342 13466
90% 11385 13594 Variance 8699526
95% 13466 14500 Skewness 1.653434
99% 15906 15906 Kurtosis 4.819188
A partir de la salida, se puede observar que el precio medio de los autos en la base de datos
es de slo $ 5,006. Tambin podemos ver que los cuatro coches ms caros tienen un precio
entre $ 13,400 y $ 16,000. Si quisiramos ver algunos de los coches ms caros tipeamos:
browse if Price > 13000
Ahora decidimos centrar nuestra atencin en automviles extranjeros (foreign) y reparados

porque a medida que revisamos los datos, parece que los coches extranjeros tienen mejor
historial de reparacin. (No sabemos exactamente lo que las categoras 1, 2, 3, 4 y 5
indican, pero se sabe que la marca Chevy Monza era conocido por averiarse). Empezaremos
observando la proporcin de vehculos extranjeros en la base de datos as como la
proporcin de vehculos con cada tipo de registro de reparacin. Podemos hacer esto con
tablas univariadas. La tabla para automviles extranjeros se obtiene tipeando tabulate
foreign:
. tabulate foreign
Tipo de
vehculo Freq. Percent Cum.
Domestic 52 70.27 70.27

Foreign 22 29.73 100.00
Total 74 100.00
Vemos que aproximadamente el 70% de los coches en el conjunto de datos son nacionales,
mientras que el 30% son extranjeros. Las etiquetas de valor se utilizan para hacer la tabla
para que la salida sea bien legible.
La tabla para reparacin obtiene tipeando tabulate rep78:
. tabulate rep78
Registro de
reparacin
1978 Freq. Percent Cum.
1 2 2.90 2.90
2 8 11.59 14.49
3 30 43.48 57.97
4 18 26.09 84.06
5 11 15.94 100.00
Total 69 100.00
Podemos ver que la mayora de los coches tienen registros de reparacin de 3 o ms,
aunque la falta de etiquetas de valor no permite estar seguros de lo que significa un "3".
Supondremos que los valores indican una calificacin dada ala automvil donde 1 indica un
mal registro de reparacin y 5 indica un buen registro de reparacin. Los cinco valores que
faltan son indirectamente evidentes debido a que el nmero total de observaciones es 69
en lugar de 74.
Estas dos tablas de un solo sentido no ayudan a comparar los registros de reparacin de
vehculos extranjeros y nacionales. Una tabla cruzada sera de gran ayuda:
. tabulate rep78 foreign, row
Key
frequency
row percentage
Registro
de
reparacin Tipo de vehculo
1978 Domestic Foreign Total
1 2 0 2
100.00 0.00 100.00
2 8 0 8
100.00 0.00 100.00
3 27 3 30
90.00 10.00 100.00
4 9 9 18
50.00 50.00 100.00
5 2 9 11
18.18 81.82 100.00
Total 48 21 69
69.57 30.43 100.00
El resultado indica que los coches extranjeros son en general mucho mejor que los
vehculos nacionales cuando se trata de reparaciones.
Continuando con la exploracin de los datos, nos gustara comparar el millaje de gasolina
entre los coches extranjeros y nacionales, empezando por observar las estadsticas de
resumen para cada grupo. Una forma directa de hacerlo sera utilizar el clasificador if para
resumir mpg para cada uno de los dos valores de foreign en forma separada:
. summarize mpg if foreign == 0
mpg 52 19.82692 4.743297 12 34
. summarize mpg if foreign == 1
mpg 22 24.77273 6.611187 14 41
Parece que los coches extranjeros tienen mejor rendimiento.

Otra manera de obtener los resultados es:
. by foreign, sort : summarize mpg
-> foreign = Domestic
mpg 52 19.82692 4.743297 12 34
-> foreign = Foreign
mpg 22 24.77273 6.611187 14 41
Se puede ver que los resultados coinciden con los anteriores. Estos ltimos tienen una
mejor apariencia, porque se utilizan las etiquetas de valor en lugar de los valores
numricos. El mtodo es ms atractivo debido a que los resultados fueron producidos sin
conocer los valores posibles de la variable de agrupacin antes de tiempo.
El tercer mtodo para tabular las diferencias de rendimiento de la gasolina a travs del
origen del auto es:
. tabulate foreign, summarize(mpg)
Tipo de Summary of Millaje (mpg)

vehculo Mean Std. Dev. Freq.
Domestic 19.826923 4.7432972 52

Foreign 24.772727 6.6111869 22
Total 21.297297 5.7855032 74

2.3. PRUEBA DE HIPTESIS SIMPLE
Realizaremos una prueba de hiptesis para la diferencia entre las medias del consumo de
gasolina. Para ello tipeamos:
ttest mpg, by (foreign)
. ttest mpg, by(foreign)
Two-sample t test with equal variances
Group Obs Mean Std. Err. Std. Dev. [95% Conf. Interval]
Domestic 52 19.82692 .657777 4.743297 18.50638 21.14747

Foreign 22 24.77273 1.40951 6.611187 21.84149 27.70396
combined 74 21.2973 .6725511 5.785503 19.9569 22.63769
diff -4.945804 1.362162 -7.661225 -2.230384
diff = mean(Domestic) - mean(Foreign) t = -3.6308

Ho: diff = 0 degrees of freedom = 72
Ha: diff < 0 Ha: diff != 0 Ha: diff > 0

Pr(T < t) = 0.0003 Pr(|T| > |t|) = 0.0005 Pr(T > t) = 0.9997
A partir de esto, podemos concluir que el consumo de combustible promedio para los autos
extranjeros es diferente a la de los automviles nacionales.
Si no asumimos varianzas iguales tipeamos
ttest mpg, by (foreign) unequal
. ttest mpg, by(foreign) unequal
Two-sample t test with unequal variances
Group Obs Mean Std. Err. Std. Dev. [95% Conf. Interval]
Domestic 52 19.82692 .657777 4.743297 18.50638 21.14747

Foreign 22 24.77273 1.40951 6.611187 21.84149 27.70396
combined 74 21.2973 .6725511 5.785503 19.9569 22.63769
diff -4.945804 1.555438 -8.120053 -1.771556
diff = mean(Domestic) - mean(Foreign) t = -3.1797

Ho: diff = 0 Satterthwaite's degrees of freedom = 30.5463
Ha: diff < 0 Ha: diff != 0 Ha: diff > 0

Pr(T < t) = 0.0017 Pr(|T| > |t|) = 0.0034 Pr(T > t) = 0.9983
2.4. MATRIZ DE CORRELACION
Ahora cambiamos nuestro enfoque, de la exploracin de relaciones categricas a la
exploracin de relaciones numricas: deseamos saber si existe una correlacin entre las
millas por galn y el peso. Tipeamos:
correlate mpg weight
. correlate mpg weight

(obs=74)
mpg weight
mpg 1.0000
weight -0.8072 1.0000
Existe una correlacin negativa, lo que no es sorprendente porque los coches ms pesados
deben ser ms difciles de impulsar.
Podemos la correlacin separada para autos extranjeros y nacionales a travs del uso de
prefijos. Tipeamos:
by foreign, sort: correlate mpg weight
. by foreign, sort: correlate mpg weight
-> foreign = Domestic

(obs=52)
mpg weight
mpg 1.0000
weight -0.8759 1.0000
-> foreign = Foreign

(obs=22)
mpg weight
mpg 1.0000
weight -0.6829 1.0000
2.5. GRAFICOS
Hemos encontrado varias cosas en nuestro anlisis hasta ahora: Sabemos que el MPG
promedio para vehculos nacionales y extranjeros es diferente. Hemos aprendido que los
vehculos nacionales y extranjeros difieren de otras formas, tales como la frecuencia de
reparacin. Se encontr una correlacin negativa entre el MPG (mpg) y el peso (weight),
como era de esperar, pero la correlacin parece ms fuerte para los vehculos nacionales.
Ahora nos gustara examinar, con la mirada puesta en el modelado, la relacin entre MPG y
el peso, a partir de un grfico. Podemos comenzar con un diagrama de dispersin entre
mpg vs weight. El comando para esto es simple: scatter mpg weight
twoway (scatter mpg weight)

40
30
Millaje (mpg)
20
10
2,000 3,000 4,000 5,000

Peso (lbs.)
Vemos la correlacin negativa en el grfico, aunque la relacin parece ser no lineal.

Ahora veremos cmo se manifiestan las correlaciones para autos extranjeros y nacionales
en los diagramas de dispersin. Sera agradable ver un diagrama de dispersin para cada
tipo de vehculo, junto con un diagrama de dispersin para todos los datos.
twoway (scatter mpg weight), by(foreign, total)
Los grficos muestran que la relacin no es lineal para ambos tipos de vehculo.
2.6. AJUSTE DE UN MODELO: REGRESION LINEAL
Despus de examinar los grficos, queremos ajustar un modelo de regresin que prediga
MPG a partir del peso y el tipo de auto. De los grficos, se observa que la relacin no es
lineal y por lo tanto vamos a tratar de modelar MPG como una funcin cuadrtica del peso.
Adems a partir de los grficos, juzgamos que la relacin es diferente para vehculos
nacionales y extranjeros. Vamos a incluir una variable indicadora (dummy) para la variable
foreign y evaluaremos posteriormente si esto describe adecuadamente la diferencia. Por lo
tanto ajustaremos el modelo
foreign es ya una variable indicador (0/1), pero tenemos que crear la variable .
Tipeamos:
generate weight2=weight^2
Ahora que tenemos todas las variables que necesitamos, podemos ejecutar una regresin
lineal. Tipeamos:
regress mpg weight weight2 foreign
. regress mpg weight weight2 foreign
Source SS df MS Number of obs = 74

F( 3, 70) = 52.25
Model 1689.15372 3 563.05124 Prob > F = 0.0000
Residual 754.30574 70 10.7757963 R-squared = 0.6913
Adj R-squared = 0.6781
Total 2443.45946 73 33.4720474 Root MSE = 3.2827
mpg Coef. Std. Err. t P>|t| [95% Conf. Interval]
weight -.0165729 .0039692 -4.18 0.000 -.0244892 -.0086567

weight2 1.59e-06 6.25e-07 2.55 0.013 3.45e-07 2.84e-06
foreign -2.2035 1.059246 -2.08 0.041 -4.3161 -.0909002
_cons 56.53884 6.197383 9.12 0.000 44.17855 68.89913
Los resultados son alentadores, por lo que trazaremos los valores pronosticados en los
diagramas de dispersin para cada uno de los tipos de autos. Para ello, necesitamos que los
valores predichos, o ajustados. Vamos a crear una nueva variable, mpg_p.
predict mpg_p
El comando predict, cuando es usado despus de una regresin, es llamado comando de
pos estimacin.
Podemos graficar los datos y la curva predicha para evaluar por separado el ajuste de los
datos nacionales y extranjeros para determinar si la estimacin es adecuada. Podemos
graficar ambos grficos juntos. Tipeamos lo siguiente:
twoway (scatter mpg weight) (line mpg_p weight, sort), by(foreign)

Domestic Foreign
40
30
20
10
2,000 3,000 4,000 5,000 2,000 3,000 4,000 5,000

Peso (lbs.)
Millaje (mpg) Fitted values
Graphs by Tipo de vehculo
Aqu podemos ver la razn para encerrar separadamente los comandos scatter y line entre
parntesis: pueden ser superpuestos mediante la presentacin conjunta. El ajuste de las
datos parece bueno.
Observacin: Segn los conocimientos en ingeniera se debe tener el doble de energa para
mover una milla a 2,000 libras, en comparacin con el movimiento de 1000 libras a la
misma distancia, por lo que debe consumir el doble de gasolina. Entonces Millas por galn
no es cuadrtica en el peso; la misma teora nos dice que galones por milla es una funcin
lineal de peso.
Generaremos una variable de galones por milla y obtendremos un diagrama de dispersin.
generate glpm=100/mpg
label variable glpm Galones por 100 millas
twoway (scatter glpm weight), by(foreign, total)

Domestic Foreign
8
6
Galones por 100 millas
4
2
2,000 3,000 4,000 5,000
Total
8
6
4
2
2,000 3,000 4,000 5,000

Peso (lbs.)
Graphs by Tipo de vehculo
Estimamos el modelo teniendo como variable dependiente a glpm y como variables

explicativas a weight y foreign.
regress glpm weight foreign
. regress glpm weight foreign
Source SS df MS Number of obs = 74

F( 2, 71) = 113.97
Model 91.1761694 2 45.5880847 Prob > F = 0.0000
Residual 28.4000913 71 .400001287 R-squared = 0.7625
Adj R-squared = 0.7558
Total 119.576261 73 1.63803097 Root MSE = .63246
glpm Coef. Std. Err. t P>|t| [95% Conf. Interval]
weight .0016254 .0001183 13.74 0.000 .0013896 .0018612

foreign .6220535 .1997381 3.11 0.003 .2237871 1.02032
_cons -.0734839 .4019932 -0.18 0.855 -.8750354 .7280677
Encontramos que los autos extranjeros tenan mejor rendimiento de combustible que los
vehculos nacionales en 1978 porque eran ms ligeros. De acuerdo con nuestro modelo, un
auto extranjero con el mismo peso que un auto nacional utilizara un adicional de 5/8
galones (o 5 litros) de gasolina por cada 100 millas recorridas.

Sesión Con STATA

Cargado por

Copyright:

Formatos disponibles

Sesión Con STATA

Cargado por

Información del documento

Descripción original:

Derechos de autor

Formatos disponibles

Compartir este documento

Compartir o incrustar documentos

Opciones para compartir

¿Le pareció útil este documento?

¿Este contenido es inapropiado?

Copyright:

Formatos disponibles

Sesión Con STATA

Cargado por

Copyright:

Formatos disponibles

INTRODUCCION AL STATA

Mg. Vctor M. Chung Alva

1.1. Interface de Stata

1.2. Conjunto de Datos

command [varlist] [if] [in] [weight] [, options]

table genero edad

table genero edad if altura >1.70

table genero edad if altura >1.70 in 1/100

table genero edad if altura >1.70 in 1/100, chi

1.5. Organizacin del trabajo en Stata

Para cambiar el directorio o carpeta se debe realizar lo siguiente:

no; data in memory would be lost

set mem 100m

Existen distintas formas de cargar una base de datos:

use C:\stata\auto.dta, clear

use auto.dta, clear

si ya le hemos indicado previamente a Stata que vamos a trabajar en la carpeta stata

save C:\stata\auto.dta, replace

El resultado consiste en un comando y su resultado. El comando, sysuse auto.dta, es

Contains data from C:\Program Files (x86)\All Stata 12\ado\base/a/auto.dta

storage display value

make str18 %-18s Make and Model

Sorted by: foreign

En la parte superior de la lista, se le da un poco de informacin sobre el conjunto de datos,

. label variable make "Marca y Modelo"

label define forlabel 0 "Nacional" 1 "Extranjero"

b) Indicaremos la relacin entre la variable y su variable secundaria con las etiquetas:

label values foreign forlabel

Si la base de datos ya tiene alguna variable secundaria de etiquetas (value labels) y

Variable Obs Mean Std. Dev. Min Max

trunk 74 13.75676 4.277404 5 23

gear_ratio 74 3.014865 .4562871 2.19 3.89

Hay otros dos puntos importantes aqu:

make Marca y Modelo

type: string (str18), but longest is str17

unique values: 74 missing "": 0/74

examples: "Cad. Deville"

warning: variable has embedded blanks

La primera lnea de la salida nos dice el nombre de la variable (make) y la etiqueta de

foreign Tipo de vehculo

type: numeric (byte)

range: [0,1] units: 1

tabulation: Freq. Numeric Label

rep78 Registro de reparacin 1978

type: numeric (int)

range: [1,5] units: 1

tabulation: Freq. Value

list make if missing (rep78)

summarize price, detail

. summarize price, detail

50% 5006.5 Mean 6165.257

browse if Price > 13000

Ahora decidimos centrar nuestra atencin en automviles extranjeros (foreign) y reparados

Domestic 52 70.27 70.27

Variable Obs Mean Std. Dev. Min Max

mpg 52 19.82692 4.743297 12 34

. summarize mpg if foreign == 1

Variable Obs Mean Std. Dev. Min Max

mpg 22 24.77273 6.611187 14 41