Metodología de La Investigación Social Cuantitativa
Metodología de La Investigación Social Cuantitativa
Metodología de La Investigación Social Cuantitativa
INVESTIGACIÓN
SOCIAL
CUANTITATIVA
Pedro López-Roldán
Sandra Fachelli
METODOLOGÍA DE LA
INVESTIGACIÓN
SOCIAL
CUANTITATIVA
Pedro López-Roldán
Sandra Fachelli
Pedro López-Roldán
Centre d'Estudis Sociològics sobre la Vida Quotidiana i el Treball (http://quit.uab.cat)
Institut d’Estudis del Treball (http://iet.uab.cat/)
Departament de Sociologia. Universitat Autònoma de Barcelona
[email protected]
Sandra Fachelli
Departament de Sociologia i Anàlisi de les Organitzacions
Universitat de Barcelona
Grup de Recerca en Eduació i Treball (http://grupsderecerca.uab.cat/gret)
Departament de Sociologia. Universitat Autònoma de Barcelona
[email protected]
PRESENTACIÓN
PARTE I. METODOLOGÍA
I.1. FUNDAMENTOS METODOLÓGICOS
I.2. EL PROCESO DE INVESTIGACIÓN
I.3. PERSPECTIVAS METODOLÓGICAS Y DISEÑOS MIXTOS
I.4. CLASIFICACIÓN DE LAS TÉCNICAS DE INVESTIGACIÓN
Pedro López-Roldán
Sandra Fachelli
Capítulo III.2
Preparación de los datos
para el análisis
L
os datos que se manejan en la investigación social habitualmente requieren que
sean preparados para su análisis. Esta necesidad se puede dar desde el inicio o
durante el proceso mismo de análisis e interpretación de la información.
Cuando nos referimos a la preparación de los datos entendemos que se trata
de un conjunto de tareas de procesamiento de los datos que engloba desde el registro
y la identificación en un soporte informático, pasando por la depuración de los
mismos, y su transformación, que incluye tanto la modificación de la información
original como la creación do otra nueva a partir de las variables existentes, o el
tratamiento de ficheros de datos.
Preparar los datos para el análisis seguramente es una de las tareas menos reconocidas
y a la vez de las más importantes en la investigación. Quizás porque suele ser una tarea
más técnica que se suele dejar en manos de hábiles especialistas en el manejo de los
programas informáticos. Pero la calidad de los datos depende enormemente de este
conjunto de aspectos en interrelación con las demás fases del proceso de investigación.
1 Existe software específico para esta tarea como el Data Entry en SPSS que permite elaborar plantillas de
introducción, identificación y control de la grabación de los datos.
6 | III. Análisis
Se genera así el fichero activo del sistema que grabaremos en el disco duro con un
nombre identificativo.
2 Buena parte de la depuración puede o debe realizarse también en la fase previa de trabajo campo, como en el caso
de una encuesta. Los sistemas de recogida asistidos por ordenador reducen enormemente este trabajo.
3 En algunos procesos de investigación por encuesta las matrices originales de datos con un número dado de
variables pueden verse duplicadas al final del proceso.
En este capítulo nos dedicaremos a dar cuenta de las tres primeras tareas. Con ellas
alcanzaremos a conocer la calidad, estructura y propiedades de los datos que
manejamos. A partir del siguiente capítulo veremos los distintos procedimientos de
análisis, teniendo en cuenta que habitualmente conllevan también la necesidad de
realizar nuevas transformaciones de los datos como se ilustra en el organigrama.
Veremos esas tareas con SPSS y R, después de una presentación de sus características,
y las ejemplificaremos con distintos ejercicios prácticos de tratamientos de datos.
La matriz de datos tendrá, por tanto, 16 columnas con las respuestas de cada individuo.
Estas respuestas se codifican con valores numéricos o textuales según el tipo de
variable.
4 Para ampliar la información se pueden consultar los capítulos 3, 4, 5 y 6 del manual del sistema central (IBM
Corporation, 2015).
P3_3
P6_2
P6_3
P6_4
P6_5
P6_6
P6_7
P3_1
P6_1
ID
P2
P4
P5
P7
P1
SPSS 1 35 1 6 1 2 1 40 5
CDesacuerdo 4 1 2 1 4 5 3
CDesacuerdo
CDesacuerdo
CDesacuerdo
Universitario
Desacuerdo
Bachillerato
Acuerdo
Acuerdo
Trabaja
Varón
EGB
R 1 35 40 3
s
Empezaremos con la tarea de introducción de los datos, más tarde veremos cómo
importarlos. Si entramos en la aplicación podemos acceder directamente al editor de
datos para introducir la información. Recordemos que si tenemos abierta una matriz
de datos previamente en el editor y queremos crear una nueva procederemos en primer
lugar a abrir una nueva ventana del editor de datos en blanco: Archivo / Nuevo /
Datos. El editor de datos permite crear o examinar una matriz de datos a partir de dos
pestañas:
Procederemos en primer lugar a introducir los datos del primer individuo en el visor
de datos de la forma siguiente:
cadena (los valores son textuales con cualquier carácter) y numérico restringido
(valores enteros no negativos)5:
- Las posiciones (Anchura) son los dígitos que ocupa la variable, una parte de los
cuales corresponde al número de decimales (Decimales). Se puede precisar tanto
en el cuadro de diálogo del tipo como en su propia columna. En el caso de las
variables de tipo cadena, fecha y numérico restringido el número de decimales
siempre es 0.
Se recomienda utilizar en general el formato numérico estándar pues facilita el
tratamiento de las variables. Con un mayor dominio del software o para
necesidades específicas evidentemente todos los formatos son válidos. El formato
numérico estándar se define por defecto con el formato F8.2, es decir, con 8
posiciones de anchura y 2 decimales que se corresponden con la siguiente
disposición: 5 posiciones del número entero, una posición para el punto decimal
y 2 posiciones de los decimales: _ _ _ _ _ . _ _ . Así, por ejemplo, el valor 1 de la
variable número de hijos se corresponde con 00001.00 y es visualizado como 1.00.
Si cambiamos la variable a formato F1.0 será entonces simplemente 1. En
cualquiera de los dos casos no afecta más que a la forma de verse.
- Las etiquetas de los valores de las variables (Valores) asignan un texto identificativo
de su significado, con una extensión máxima de 120 caracteres, pero con 16
caracteres como máximo puede ser suficiente. Para consignarla se clica sobre el
lado derecho de la casilla y se accede a un cuadro de diálogo donde se escribe cada
valor con su etiqueta y se clica sobre “Añadir”:
5 Para acceder al cuadro de diálogo para definir el tipo de variable es necesario clicar sobre el lado derecho de la
casilla: .
6 En las etiquetas de las variables y de los valores se pueden insertar los símbolos \n para forzar un salto de línea.
- Los valores perdidos declarados por el usuario (Perdidos). Es habitual que nos
encontramos en la situación de ausencia de valores, de no disponer de información
para algunos casos o individuos en relación a una o más variables. El sistema
necesita, sin embargo, identificar igualmente estas situaciones con un valor
determinado. Estos valores se denominan valores perdidos (missing values). Los hay
de dos tipos:
- Valores perdidos del usuario. Son los valores que implican una falta de
información (por ejemplo, los "no sabe", "no contesta" o "no pertinente") que se
codifican con un valor determinado (por ejemplo, 8, 9 y 0), y se declaran por el
usuario como perdidos en la identificación de las variables para tratar de forma
diferenciada y que, por defecto, no forman parte de los cálculos.
- Valores perdidos del sistema. Se corresponden también con la falta de
información, pero se generan automáticamente por el software cuando encuentran
una casilla en blanco en la matriz de datos, o bien cuando generamos una nueva
variable y no se asigna un valor determinado a uno o más casos. Los valores
perdidos se visualizan en el editor con un punto (".") Y en las tablas aparecen con
la etiqueta "Perdidos Sistema".
Los valores perdidos del usuario son los que se identifican en el diccionario de los
datos. Para ello es necesario clicar sobre el lado derecho de la casilla y se accede al
cuadro de diálogo donde se detallan valores concretos (hasta 3) o rangos de valores:
Cada uno de los atributos que definen el diccionario de cada variable se puede copiar
y pegarlo a continuación en la definición de otra (u otras) variable(s). También se
pueden copiar (y borrar) variables enteras seleccionando una línea7.
Con estas indicaciones procedemos a realizar la identificación de los datos con las
propiedades particulares de cada una de las variables. El resultado final aparece en el
Gráfico III.2.2.
7 Las columnas de los atributos se pueden reorganizar, para ello es necesario ir al menú: Ver / Personalizar vista de
variables. También se puede crear atributos personalizados desde el menú: Datos / Nuevo atributo personalizado.
8 A la vista de datos se puede ir desde la vista de variables haciendo doble clic sobre una fila de variable en la vista
de variables. De forma equivalente, desde la vista de datos se puede ir a la vista de variables haciendo doble clic
sobre el nombre de la columna de una variable en la vista de datos.
Una vez introducidos los datos, o a medida que los vamos grabando para no perder el
trabajo realizado, debemos guardarlos y convertirlos en un fichero del sistema SPSS,
por ejemplo con el nombre Encuesta.sav9. Para guardar un archivo de datos:
- A través del menú: Archivo / Guardar o bien Archivo / Guardar como
- Con el teclado: Ctrl+S
- Clicando sobre el botón “Guardar este documento” .
Una vez creada la matriz de datos podemos pedirle al SPSS la información del
diccionario de los datos. A través del menú: Archivo / Mostrar información del archivo
de datos, eligiendo archivo de trabajo, pues se puede elegir entre éste (el que esté
abierto en el editor) o de otro archivo externo que esté guardado en el disco (Gráfico
III.2.4). Este procedimiento corresponde con el comando de sintaxis del SPSS: DISPLAY
DICTIONARY.
Gráfico III.2.4 Listado del diccionario de los datos de la matriz de datos de la encuesta
...
16 | III. Análisis
Una vez identificados los datos, un modo de comprobar la corrección del trabajo
realizado es pedir las tablas de frecuencias a través del menú Analizar / Estadísticos
descriptivos / Frecuencias. Seleccionamos las variables y las pasamos al recuadro de
Variables pulsando sobre el icono . Finalmente ejecutamos el procedimiento de
obtener las frecuencias pulsando sobre Aceptar.
Finalmente solo comentar que el diccionario de una variable se puede aplicar a otras a
través del menú Datos / Copiar propiedades de datos (comando APPLY DICTIONARY de
SPSS), ya sea desde un archivo de datos externo o desde un conjunto de datos abierto.
► Ejercicio 1. Propuesto
A partir de la matriz de datos creada Encuesta.sav obtener las tablas de frecuencias de
las distintas variables y comprobar la correcta identificación de los datos.
► Ejercicio 2. Propuesto
Con la matriz de datos CIS3041.sav obtener el diccionario de los datos y el libro de
códigos para las variables: CCAA, TAMUNI, P3, P901, P1001, P1101, P1301, P15,
P1601, P1701, P18, P2013, P23, P25, P28, P29, P31, P32, P46, VOTOSIM,
RECUERDO, ESTUDIOS, OCUMAR11, CONDICION y ESTATUS, que permiten
reconocer los principales tipos de variables y preguntas del Barómetro del CIS.
También se pueden pedir las tablas de frecuencias de todas ellas.
Recordemos el interés de tener activadas las opciones “Nombre y etiquetas” para las
variables y “Valores y etiquetas” para los valores en “Etiquetado de tablas dinámicas”.
Para finalizar este apartado se adjunta en el Gráfico III.2.6 la imagen del archivo de
sintaxis que realiza los distintos aspectos de identificación que hemos ido comentando.
En el archivo Encuesta.sps de la página web se encuentra dicha sintaxis. Comentamos
brevemente la sintaxis utilizada.
Si introducimos primero los datos sin nombrar a las variables el sistema SPSS hemos
visto que le asigna un nombre por defecto. El comando RENAME VARIABLES cambia
el nombre original por el que hemos acordado.
Los archivos de datos creados en otro software con un formato definido (SPSS, SAS,
Excel,…) o bien sin formato, de texto plano (DAT, TXT), se puede importar
fácilmente desde SPSS. A través del menú Archivo / Abrir / Datos de SPSS o con las
teclas <CTRL>+<O>, o el botón del editor de datos, accedemos a un cuadro de
diálogo que nos permite abrir un fichero eligiendo entre una diversidad de formatos:
Por un lado están tres formatos propios de SPSS, además del habitual sav: uno que
comprime los datos (zsav), otro que abre un formato antiguo de la versión del software
que se llamó SPSS/PC+ (sys) y el formato portable que permite llevarlo entre sistemas
operativos donde está instalado el SPSS. El resto de los formatos hacen referencia a
otros paquetes estadísticos como Systat, SAS o Stata, a hojas de cálculo como Excel,
Lotus o Sylk, a gestores de bases de datos como dBase, además formatos de texto
plano, es decir, sin formato, donde los datos están separados por comas, tabulaciones,
espacios,… (txt, dat, csv, tab).
Después de aceptar aparecen los datos en el editor con los nombres de las variables y
el formato numérico para todas ellas. Por tanto, será necesario completar el diccionario
de los datos con toda la información de etiquetas, valores perdidos y demás formatos.
Se determina si los datos están delimitados, como es nuestro caso, o bien si los datos
se disponen alineados en columnas con una anchura determinada10. También se
informa de si el nombre de las variables aparece en la primera fila del archivo. Pasamos
a la siguiente ventana:
10 Más adelante (apartado 1.1.3) presentaremos el ejemplo de importación e identificación de los datos del
Barómetro y otras encuestas del CIS cuyos datos que se presentan en formato de texto con una disposición fija de
columna.
En este caso configuramos la importación indicando que los datos empiezan en la fila
2, que cada registro (fila) corresponde a un caso y que importe todos los casos. Pasamos
a la cuarta ventana:
podemos cambiar el nombre a las variables y el tipo de formato de los datos de cada
una de las variables (numérico, cadena,…).
En este último cuadro del asistente podemos guardar el formato utilizado para otra
ocasión y optar por la ejecución inmediata de la importación o convertir esa acción en
lenguaje de comandos del SPSS que se adjuntará en una ventana de sintaxis. Para
acabar clicamos sobre Finalizar.
Como en el caso anterior solamente hemos importado los datos, los nombres de las
variables y se han definido parte de los formatos posibles. El resto como etiquetas o
valores perdidos hay que completarlos seguidamente.
Por otra parte podemos tener la necesidad de exportar nuestros datos desde SPSS hacia
otras aplicaciones. También podemos guardar (exportar) nuestros datos en diferentes
formatos. Cuando hacemos Guardar o Guardar como tenemos disponibles estas
alternativas en el desplegable Guardar como tipo:
Una vez bajado el archivo de los datos de interés (MDxxxx.zip), en nuestro caso nos
referiremos al estudio número 3041 correspondiente al Barómetro del mes de octubre
de 2014, es necesario descomprimirlo y seleccionar dos de los archivos que incluye el
fichero zip. Por un lado el archivo DA con el número contiene los datos sin formato.
Se puede abrir con el Bloc de notas o con Excel y ver su contenido. Por otro lado el
archivo SE con el número corresponde al archivo de sintaxis del SPSS. Se puede
cambiar su nombre ESnº por ESnº.sps para abrirlo directamente con el software SPSS
y ejecutar la sintaxis.
Gráfico III.2.7 Archivos de sintaxis del CIS para la identificación de los datos
Alternativamente tenemos dos opciones para asegurar que se localizarán los datos. Por
un lado podemos hacer uso del comando CD (cambiar de directorio) que indica al
sistema cuál es la carpeta de trabajo por defecto (por ejemplo C:\Datos), colocándola
en la primera línea de archivo de sintaxis:
CD ‘C:\Datos’.
Por otro, podemos especificar la ruta del archivo en el comando DATA LIST:
Los datos del CIS se disponen en un formato fijo de columna, es decir, cada variable
se ubica en unas columnas específicas que afectan a todos los individuos y alinean
verticalmente todos los datos. Las columnas que ocupa cada variable vienen
especificadas en el cuestionario por un número entre paréntesis al lado derecho de las
categorías de respuesta y en el libro de códigos.
Nuestra primera tarea será de introducción de los datos y más tarde veremos cómo
importarlos en R. Realizaremos esta tarea con Deducer que nos facilitará el trabajo de
creación e identificación en un entorno de ventanas. Para crea una matriz de datos, si
acabamos de entrar en Deducer, tendremos la opción de clicar sobre New Data en la
ventana inicial de Data Viewer, nos aparecerá seguidamente un cuadro para darle un
nombre que no contenga ni acentos ni espacios. Le podremos el nombre de Encuesta:
12 En la matriz de datos CIS3041.sav hemos incorporado una identificación más completa de los datos pues algunas
variables no son identificadas con etiquetas de variables y de valores, por otro lado la definición de valores perdidos
se puede ampliar para considerar también las respuestas de “no sabe” y “no contesta”, y también se ha definido el
nivel de medición de las variables.
El tipo de archivos de datos con los que trabajaremos habitualmente, nuestras matrices
de datos, se identifican en R como data frames.
El editor de datos, que abre al inicio o a partir del menú de la consola de se permite
crear o examinar una matriz de datos a partir de dos pestañas:
En la Data View introduciremos los datos propiamente, es decir, los códigos o valores
de las variables, mientras que en la Variable View identificaremos las características de
éstos, su diccionario. Podríamos optar tanto por empezar a introducir los datos como
por elaborar el diccionario, pero es recomendable proceder en primer lugar a introducir
los datos, pues nos ayudarán, en el caso de las variables cualitativas, a generar
automáticamente el diccionario de sus valores.
Consideremos las respuestas del primer individuo que sugerimos en la Tabla III.2.1:
1, 35, Varón, Universitarios, EGB, Bachillerato, Trabaja, 40, CDesacuerdo, Acuerdo,
CDesacuerdo, Desacuerdo, CDesacuerdo, Acuerdo, CDesacuerdo, 3.
Los valores que hemos introducido con códigos numéricos tienen el formato Double
mientras que los valores con código textual se identifican con el formato Character.
- El nombre de la variable (Variable): tiene que empezar con una letra o con punto,
el nombre que se asigna es distinto si se escribe con mayúsculas o minúsculas, no
pueden tener acentos, ni ñ ni ç, ni espacios en blanco, ni ningún carácter fuera del
estándar inglés, tampoco admite los símbolos de los operadores aritméticos.
- Los valores de las variables factor (Factor Levels): se detallan las etiquetas o
valores de estas variables que tratamos como cualitativas, de nivel de medida
nominal u ordinal, y donde hay que especificar cada etiqueta o valor de la variable.
Las etiquetas se pueden definir y editar clicando en la propia celda.
Cada etiqueta o valor de las variables cualitativas que se introduce es un texto que
identifica a cada categoría de la variable, y el conjunto de las etiquetas se ordenan
según el orden de introducción: o bien en el editor del factor o bien en la vista de
datos. Este orden puede ser relevante para las características de la variable y puede
resultar que la introducción de las etiquetas no se adecúe a lo que queremos. Con
las flechas las podemos ordenar. También podemos añadirlas con o
quitarlas con .
Finalmente hay que destacar que cada etiqueta se identifica en el sistema de R con
un valor entero consecutivo que aparece entre paréntesis en cada celda de la variable
precisando numéricamente el orden.
Con estos criterios procedemos a realizar la identificación de los datos con las
propiedades particulares de cada una de las variables. El resultado final del diccionario
de datos aparece en el Gráfico III.2.8 y los datos se pueden visualizar en el Gráfico
III.2.9. Para llegar a ese resultado primero hemos cambiado el nombre de las variables,
hemos precisado a continuación su tipo y finalmente hemos codificado los datos de
las variables factor. Para la codificación se pueden utilizar los códigos disponibles en
la imagen de la pestaña del visor de variables que ilustra el Gráfico III.2.914.
13 Una forma alternativa de tratar en R de forma diferencial estos valores perdidos es (1) codificarlos con un valor
diferenciado, (2) crear una copia de la variable original en la cual los valores perdidos correspondientes estén en
blanco (NA), y (3) realizar los análisis seleccionando la versión de la variable que más interese en cada caso, con o
sin NA, o combinando la información de ambas.
14 En el caso de las variables factor seguimos como criterio utilizar un código sintético de una sola palabra,
pudiendo utilizar los acentos. No obstante, trabajar con acentos en R es problemático y obliga a renunciar a la
especificidad de la lengua propia en favor de la anglosajona, aspecto que debería ser revisado. En el caso de las
variables hemos tomado con criterio de asignación del nombre el número de la pregunta del cuestionario, pero se
puede seguir también el criterio de utilizar un nombre sintético que remita a su contenido.
coma. Un dato introducido que contenga una coma no es tratada como numérica, sino
como texto.
Hay que tener también presente que cada valor (llamado nivel, level) de una variable
cualitativa (que será de tipo factor), será cada conjunto de caracteres diferentes
introducidos. Por ejemplo, si escribimos Mujer como valor de la variable Sexo para un
individuo y mujer para otro, se considerarán diferentes y tendremos 2 códigos para
identificar a las mujeres.
Si la variable factor está medida a nivel ordinal (ordered factor) el orden de las categorías
es importante cuando se visualiza la información. Este orden de los valores de las
variables, cuando los códigos se generan automáticamente a medida que los
introducimos en la matriz, no respetan el orden deseado y requiere que editemos los
niveles del factor para ordenarlos según el sentido de cada variable.
Por otra parte, hay que tener en cuenta que si editamos los Factores levels de una variable
cualitativa y borramos por error uno de los niveles, borraremos los datos
correspondientes de la matriz y se convertirán en NA (valores perdidos).
Así pues, primero introducimos los datos en el Data View como aparece en el Gráfico
III.2.9 donde se han grabado 10 casos. La introducción de los datos no implica más
que colocarse sobre la casilla correspondiente e introducir el valor de los datos y darle
a <Intro> o ir a otra casilla. A continuación modificamos el nombre de las variables,
definimos sus tipos y en el caso de las variables factor ajustamos el orden de las
categorías y determinamos si son ordinales.
- Cortar filas (casos) o columnas (variables con <CTRL>+<X> o con el menú Edit
o con el menú contextual. No elimina la fila / columna.
- Pegar filas (casos) o columnas (variables) con <CTRL>+<V> o con el menú Edit
o con el menú contextual. Es necesario haber creado un espacio vacío previamente
si no se quiere sobreescribir encima otros casos / variables. No pega el nombre del
caso / variable.
- En el editor no podemos deshacer ni rehacer ninguna acción (si se borra
cualquier información, por ejemplo, no se puede recuperar).
- Tampoco podemos hacer búsquedas.
Una vez introducidos los datos, o a medida que los vamos grabando para no perder el
trabajo realizado, debemos guardarlos y convertirlos en un fichero del sistema R, por
ejemplo con el nombre Encuesta.rda15. Para guardar un archivo de datos: a través
del menú File / Save Data, haciendo clic sobre el botón o con las teclas <CTRL>
<S>. Al guardar los datos nos aparecerá siempre la carpeta de trabajo definida por
defecto (Mis documentos) o bien la que hayamos definido a través del menú File / Set
Working Directory (<CTRL>+<D>). Es importante recordar que el directorio del
archivo no puede tener acentos, ni tampoco el archivo de datos.
Los datos identificados de una matriz se corresponden con casos (filas) y variables
(columnas). Éstas últimas se tratan como objetos del workspace del sistema R. Los
objetos se pueden visualizar a través del menú: Packages & Data / Object Browser o
clicando <CTRL><B> desde la consola. Esta opción permite también visualizar y
editar las variables o incluso listar los datos con Print, pedir estadísticos de resumen a
través de Summary o realizar gráficos con Plot. Lo podemos hacer del conjunto de las
variables de la matriz o una a una.
Una vez identificados los datos, un modo de comprobar la corrección del trabajo
realizado es pedir las tablas de frecuencias a través del menú Analysis / Frequencies.
Seleccionamos las variables y las pasamos en el recuadro de Run Fequencies On pulsando
sobre el icono . Finalmente ejecutamos el procedimiento de sacar las frecuencias
pulsando sobre OK.
► Ejercicio 3. Propuesto
A partir de la matriz de datos creada Encuesta.rda obtener las tablas de frecuencias de
las distintas variables y comprobar la correcta identificación de los datos.
► Ejercicio 4. Propuesto
Con la matriz de datos CIS3041.rda obtener el diccionario de los datos y el libro de
códigos para las variables: CCAA, TAMUNI, P3, P901, P1001, P1101, P1301, P15,
P1601, P1701, P18, P2013, P23, P25, P28, P29, P31, P32, P46, VOTOSIM,
RECUERDO, ESTUDIOS, OCUMAR11, CONDICION y ESTATUS, que permiten
reconocer los principales tipos de variables y preguntas del Barómetro del CIS.
También se pueden pedir las tablas de frecuencias de todas ellas.
Si disponemos de datos ya creados por otro software con un formato definido (SPSS,
SAS, Excel,…) o bien sin formato, de texto plano (DAT, TXT), se puede importar
fácilmente desde R. A través del menú File / Open Data de Deducer o con las teclas
<CTRL>+<L>, o el botón del Data Viewer, accedemos a un cuadro de diálogo que
nos permite abrir un fichero eligiendo entre una diversidad de formatos:
Al cargarlo en R se genera la matriz de datos Encuesta218 con los datos, los nombres
de las variables y las que son cualitativas ya se incorporan como variables tipo factor
con sus valores correspondientes.
18 Será así si estamos en un espacio de trabajo con la matriz Encuesta que hemos identificado al inicio y además
hemos importado de Excel el archivo Encuesta.xlsx que pasó a denominarse Encuesta1.
19 La importación de variables de tipo fecha de SPSS genera problemas, por ello es mejor convertirlo a formato
Excel e importarlo desde allí.
Finalmente podemos importar un archivo de texto plano como Encuesta.txt donde los
datos están separados por tabulaciones. Los resultados son similares a los de la matriz
importada Encuesta2.
Ordenar variables
El comando SORT VARIABLES (menú Datos / Ordenar variables) puede ordenar las
variables de la matriz en función de los valores de cualquiera de los atributos de variable
del diccionario de los datos, de forma ascendente o descendente:
Es conveniente guardar el orden de las variables previo pues suele ser un criterio de
ordenación que no se corresponde con ninguno preestablecido y podría ser difícil
restaurarlo.
Ordenar casos
Con la matriz de datos CIS3041.sav vemos que los casos están inicialmente ordenados
según el número del cuestionario (variable CUES). Como ejercicio podemos ordenar
el archivo según el lugar de la entrevista. Un primer criterio sería por ejemplo ordenar
el archivo según la Comunidad Autónoma (variable CCAA) en orden ascendente:
Existe una opción para guardar en un archivo diferente los casos reordenados, con la
posibilidad de crear un índice. La ordenación de un archivo de pequeñas dimensiones
es instantánea pero con archivos de millones de registros puede tardar minutos, en este
sentido es muy útil tener la base de datos ordenada según un criterio si se utiliza de
forma habitual. Veremos también que la ordenación de un archivo es un paso previo
necesario en diversos procedimientos de tratamiento de datos.
Seleccionar casos
A menudo, cuando trabajamos con una base de datos nos interesa obtener información
sobre los individuos que satisfacen determinadas condiciones. Nos puede interesar,
por ejemplo, estudiar diversas variables pero sólo para los individuos con determinadas
características: de sexo femenino, los que piensan votar, los que tienen un bajo nivel
de ingresos, etc. El SPSS nos permite seleccionar los individuos que satisfacen una
determinada condición de forma que, a partir de ese momento y mientras no
deshacemos la selección, todos los procedimientos que aplicamos harán referencia sólo
a los individuos seleccionados. Esta es la opción por defecto cuando elegimos Si se
satisface la condición (opción Descartar casos no seleccionados) en el cuadro de
diálogo de Datos / Seleccionar casos:
Como ejercicio podemos seleccionar los casos de las personas entrevistadas que son
mujeres. Elegimos Si se satisface la condición y pulsamos sobre el icono de Si la op....
En el nuevo cuadro de diálogo construiremos la condición20. Seleccionamos variable
del sexo (la P31) y la pasamos a la derecha. Para seleccionar a las mujeres escribiremos
con el teclado o con los botones del cuadro de diálogo: = 2. El valor 2 corresponde a
las mujeres. En el caso de que no recordáramos el código, una forma inmediata de
consultarlo es darle al botón derecho del ratón y clicar sobre Información de variable:
Construida la condición:
20 Este cuadro de diálogo los veremos también en el procedimiento Calcular para transformar los datos. Para
establecer una condición es necesario manejar expresiones de transformación que comentaremos en el apartado
siguiente.
Clicaremos sobre Continuar y sobre Aceptar en el siguiente cuadro de diálogo para que
realice la acción, asegurándonos de que esté activada la opción Descartar. Si
observamos ahora la base de datos, veremos que aparecen algunos casos “tachados”
en el margen izquierdo de numeración del caso: son los casos que no han sido
seleccionados, es decir, los individuos hombres.
21 Cuando se elaboran programas de sintaxis se puede escribir el comando SELECT IF precedido de TEMPORARY,
así se consigue aplicar una selección temporal que afecta solamente al siguiente comando de procedimiento, después
se vuelven a considerar todos los casos.
Segmentar archivo
22 Ver en capítulo anterior el apartado sobre el lenguaje de comandos de SPSS donde se explica el concepto de
estados del programa.
A partir de ese momento todo ejercicio de análisis que ejecutemos se realizará para
cada grupo. Por ejemplo podemos solicitar, los descriptivos de las variables a través
del menú Analizar / Estadísticos descriptivos / Descriptivos de las variables P901 a
P907:
El resultado es el siguiente:
Una única tabla con el análisis realizado para hombres y mujeres. Si volvemos a ejecutar
el procedimiento con la opción Organizar los resultados por grupos, obtendremos la
misma información pero en tablas separadas.
Esta opción tiene diversas aplicaciones, pero una de ellas podría ser la de elaborar el
anexo estadístico con numerosas tablas y gráficos que queremos repetir, por ejemplo,
para cada territorio del estudio por separado.
Aquí de nuevo es importante recordar que una vez hayamos realizado el análisis
deseado es necesario deshacer la segmentación para volver a trabajar con el archivo
completo, como una sola muestra. Para ello volvemos al menú y marcamos Analizar
todos los casos.
Ponderar casos
ponderar los datos de una muestra, ya sea por el propio diseño de construcción 23 o
porque se tiene la necesidad de equilibrarla dado que se han podido constar ciertos
desequilibrios o sesgos en la información recogida. Imaginemos por ejemplo que la
proporción poblacional de varones y mujeres en un territorio fuera de 50 y 50 por
ciento, obtenemos una muestra de esa población y nos sale 48 y 52. Nuestros
resultados tendrán un sesgo en favor de los perfiles de las mujeres que apareen un 2%
más de lo que corresponde. Para corregir este desvío y restituir el 50% de su población
en términos muestrales es necesario introducir una ponderación de tal manera que
convierta el peso de los hombre de 48 a 50 y el de las mujeres de 52 a 50.
Si nuestra muestra es de 1000 individuos eso implica que tenemos 480 varones y 520
mujeres, la ponderación se genera aplicando la fórmula siguiente:
𝑝𝑒𝑠𝑜 𝑡𝑒ó𝑟𝑖𝑐𝑜
𝑤𝑖 =
𝑝𝑒𝑠𝑜 𝑟𝑒𝑎𝑙
En el caso de los varones (i=1) teóricamente deberían ser el 50%, es decir, 500
individuos, pero el peso real es de 480, quiere decir por tanto que debemos aumentar
la importancia de los varones multiplicando cada individuo por un valor superior a 1,
en concreto, 1,083.
520
𝑤𝑣𝑎𝑟𝑜𝑛𝑒𝑠 = = 1,083
480
El mismo razonamiento en el caso de las mujeres genera un peso inferior a 1 de 0,923:
480
𝑤𝑚𝑢𝑗𝑒𝑟𝑒𝑠 == 0,923
520
Si a cada varón lo multiplicamos por 1,083 en vez 1 y a cada mujer por 0,923 en vez
de 1, en el recuento final tendremos 500 varones y 500 mujeres. Para hacerlo efectivo
en el SPSS es necesario crear primero la variable de ponderación y después ponderar.
Veremos en el próximo apartado cómo generar variables. Si lo hiciéramos por sintaxis
sería por ejemplo así:
IF sexo=1 peso=1.083.
IF sexo=2 peso=0.923.
WEIGHT BY peso.
23 La ponderación a veces también se acompaña de la necesidad de elevar la muestra, es decir de expresar los
individuos de la muestra en términos poblacionales por lo que se multiplica cada individuo por lo que valga en
términos poblacionales. Así expresan también los datos por ejemplo de la Encuesta de Población Activa. Ponderar
y elevar son dos pesos y dos ponderaciones que se pueden aplicar simultáneamente o por separado.
16.497$ es una media donde los individuos son países. A partir de la riqueza de cada
país hemos calculado la media dando el mismo peso a todos los países. Por tanto no
es un reflejo exacto del producto interior bruto per cápita mundial. Para calcularla
debemos dar a cada país un peso proporcional a su población. Ponderamos a través
del menú Datos / Ponderar casos / Ponderar casos mediante y escogemos la variable
Population que nos da la población de cada país en millones. El nuevo cálculo de la
media arroja este resultado:
Obsérvese que la media ahora ha bajado a 13.552$, antes teníamos 180 países y ahora
el valor es de 6.951 personas (la población mundial en millones). Este resultado
aproxima mucho mejor el PIB per cápita mundial al tener en cuenta los países más
poblados que mayormente son menos ricos por lo que la media mundial baja.
Los datos de la encuesta están elevados a toda la población y hacen referencia a miles
de personas. En total la población de 16 y más años es de 38.523.400 personas que se
distribuyen según las 7 categorías del nivel de formación. Si queremos trabajar con
estos datos, por ejemplo, para extraer una tabla de frecuencias relativas o elaborar un
gráfico, en una ventana de datos en blanco podemos introducir dos variables: una con
los diferentes niveles de estudios (variable formación) y otra con la frecuencia, la
variable que actúa de peso (variable frecuencia), es decir, con el número de individuos
de cada categoría, variable con la que ponderaremos los casos.
Una vez hecho esto se ponderan los casos según la variable frecuencia. En la parte
inferior derecha de la ventana del SPSS aparecerá una etiqueta con la inscripción
Ponderación activada. A partir de ese momento el número de casos que tenemos, 7,
donde cada caso valía 1, tras la ponderación, pasa a valer el número de casos que
indique la columna frecuencia, y en total los 38 millones y medio de la tabla original.
Podemos ejecutar el procedimiento Frecuencias para la variable formación y
obtenemos reproducida la tabla de la EPA:
Agregar
Dentro de cada grupo podemos calcular distintas medidas de resumen. Para ello
elegimos primero las variables de interés y las pasamos al recuadro de Variables
agregadas, automáticamente el sistema SPSS elige la media como medida, pero
podemos cambiarla eligiendo una o varias variables y clicando a continuación sobre
Función. Accederemos al cuadro de diálogo que permite elegir la función. En nuestro
caso dejaremos el estadístico de la media. Cada nuevo cálculo genera una variable que
se puede definir con un nombre específico y una etiqueta, sino SPSS nos ofrece el
criterio Nombre-variable_estadístico. Un cálculo adicional permite añadir la variable
con el número de casos de cada grupo, que por defecto tiene el nombre de N_BREAK.
En nuestro ejercicio elegimos la segunda opción y obtenemos una una matriz de datos
que contiene las 19 líneas con cada Comunidad Autónoma y 10 variables nuevas que
calculan la media de las variable P901 a P907, P30, P32 más N_NREAK.
Transponer
La transposición de una matriz implica convertir los casos (las filas) en variables, y las
variables (las columnas) en casos. Al hacerlo se crea un nuevo archivo de datos y
automáticamente los nombres de las variables.
Para ilustrar este comando, FLIP (menú Datos / Transponer), y los que vienen a
continuación, trabajaremos con unas pequeñas matrices de datos que permitirán ver
mejor cada una de las tareas. La matriz de datos X.sav contiene la situación laboral de
6 individuos asalariados en relación a 2 variables de sus condiciones de empleo:
Contrato y Salario.
Reestructurar
La estructura simple de una matriz de datos de casos por variables suele ser la habitual
para el análisis de datos, no obstante, la estructura inicial de una base de datos puede
ser compleja. Una estructura simple es el ejemplo de la matriz X.sav, de 6 individuos y
2 variables con las condiciones de empleo. Una estructura donde la información de
una variable está en más de una columna o la información de un caso en más de una
fila introduce una complejidad de organización de la información y la necesidad de
reestructurar el archivo para pasar los casos a variables o las variables a casos.
Por ejemplo, si tenemos una matriz con 3 individuos y las condiciones de empleo se
refieren a dos momentos en el tiempo: empleo inicial y empleo actual, la información
puede estar dispuesta por filas donde cada individuo tiene doble información de sus
condiciones de empleo, la inicial y la actual. La matriz de datos casestovars.sav tiene
esta información:
En este caso podemos estar interesados en pasar la información de las filas a las
columnas, para tener 3 casos y 4 variables (el contrato y salario en los dos momentos).
Para ello ejecutamos el procedimiento de reestructuración por el menú Datos /
Reestructurar (comando CASESTOVARS) y elegimos la opción Reestructurar casos
seleccionados en variables:
En los datos originales, una variable aparece en una única columna. En el nuevo
archivo de datos, dicha variable aparecerá en varias columnas. Las variables de índice
son variables existentes para crear las nuevas columnas. Los datos reestructurados
contendrán una nueva variable por cada valor exclusivo contenido en dichas columnas.
En este caso no las utilizamos. En el paso 3 del asistente elegiremos la opción por
defecto de ordenar los datos según la variable de identificación (de hecho coincide con
la actual):
En cuarto lugar decidimos cómo ordenar las variables en la nueva matriz, optamos por
agrupar por índice, y calculamos una variable con el número de casos (Ncasos):
El proceso a seguir será similar. En este caso elegimos la opción Reestructurar variables
seleccionadas en casos (comando VARSTOCASES), en el paso 2 elegimos reestructurar
según un grupo de variables puesto que tenemos 2 variables de contrato y 2 de salario.
En tercer lugar realizamos los siguientes ajustes: en la identificación de los grupos
elegimos la opción Utilizar variable seleccionada y pasamos la variable ID, en la
selección de las variables a transponer primero cambiamos el nombre que aparece para
el primer grupo, trans1, por Contrato, y pasamos las variables Contrato1 y Contrato2;
lo mismo operamos con trans2 que nombraremos como Salario y pasaremos Salario1
y Salario2:
En el sexto paso dejamos las opciones por defecto y clicamos sobre finalizar en el
último. El resultado es una matriz de datos con esta disposición:
Dividir en archivos
Fusionar archivos
+ =
- Añadir casos. Se fusiona el archivo de datos activo con otro que contiene las mismas
variables pero casos diferentes.
+ =
Para el ejercicio de unir variables consideraremos dos matrices iniciales separadas con
la información sociodemográfica (YA.sav) y la información de la empresa (YB.sav).
Para el ejercicio de unir casos disponemos de dos matrices separadas con los tres
primeros casos (Y1-3.sav) y los tres últimos (Y4-6.sav).
YA YB Y1-3
Y4-6
En el primer caso la fusión se realiza con el comando es MATCH FILES (menú Datos
/ Fusiona / Añadir variables). Abrimos en primer lugar la matriz YA.sav y a
continuación añadimos las variables de la matriz YB.sav:
Pasa fusionar es muy conveniente disponer de una variable clave que identifique a cada
unidad en cada uno de los archivos a unir, de esta forma se irá emparejando la
información a partir del control de la coincidencia del mismo caso. En nuestro ejemplo
este papel lo juega la variable ID. Con una variable clave se requiere entonces
previamente ordenar ambos ficheros por ella. El tipo de fusión que haremos implicará
que Ambos archivos proporcionan casos, se trata de casos individuales en los dos
archivos. Las otras dos opciones (El que no es conjunto de datos activo (o el conjunto
de datos activo) es una tabla de claves) implica que existe una tabla de claves o tabla
de referencia, es decir, un archivo en el que los datos de cada caso se pueden aplicar a
varios casos del otro archivo de datos (una característica del hogar como atributo para
todos los individuos del hogar, por ejemplo).
Conviene tener presente que todos los casos desemparejados, es decir, los que están
en una matriz y no en la otra, sea la que sea, tendrán valores perdidos en la fusión para
las variables donde no tienen información, serán vacíos () en la nueva matriz:
+ =
Realizaremos ahora el segundo caso de fusión, el de añadir casos. El comando ADD
FILES (menú Datos / Añadir casos) lo ejecutaremos a partir de la matriz Y1-3.sav a la
que le añadiremos Y4-6.sav que elegiremos de la misma forma que en el caso de añadir
variables. En esta ocasión nos aparecerá la lista de variables común y las variables que
.
De nuevo ejecutando el procedimiento reproducimos la matriz Y.sav.
Hay que tener presente finalmente que toda generación de variables requiere completar
su diccionario (etiquetas, formato, valores perdidos, nivel de medida, etc.) a través de
la pestaña de Variables o bien a través de los comandos correspondientes de sintaxis.
La recodificación de variables permite cambiar los valores actuales de las variables por
otros nuevos. La recodificación puede significar estrictamente un cambio de uno o
más valores por otros, o bien la combinación o la agrupación de rangos de valores en
nuevas categorías. El valor a recodificar pueden ser numérico o alfanumérico (formato
de cadena, string) y se puede pasar de una codificación alfanumérica a otra numérica.
Por otro lado la recodificación se puede realizar optando por mantener la variable
original y generando una nueva con otra nombre que tendrá los valores recodificados,
o bien optando por sustituir la variable que se está recodificando por la nueva variable
con los nuevos criterios de codificación y con el mismo nombre de variable. El primer
caso en terminología del SPSS se denomina recodificar en distintas variables y el
segundo caso recodificar en las mismas variables.
El primer paso para realizar una recodificación es definir los criterios de recodificación
y observar los valores de las variables extrayendo la tabla de frecuencias. Consideramos
en primer lugar la variable OCUMAR11, la categoría ocupacional de la persona
entrevistada según la CNO de 2011 (Clasificación Nacional de Ocupaciones)24 . Su
tabla de frecuencias es esta:
24 La CNO (http://www.ine.es/jaxi/menu.do?type=pcaxis&path=%2Ft40%2Fcno11%2F&file=inebase&L=0)
es la adaptación española de la clasificación internacional ISCO (International Standard Classification of Occupations) de
la OIT (http://www.ilo.org/public/spanish/bureau/stat/isco/), o CIUO, que tiene varios niveles de
desagregación, hasta 5 y se codifica a 4 dígitos. Aquí se presenta con un 1 solo dígito. La variable P40 de la matriz
CIS3041.sav es la CNO 2011 a tres dígitos. Por tanto, de hecho OCUMAR11 es ya una variable que ha sido
recodificada (agrupada) a un solo dígito.
► Ejercicio 5. Propuesto
El INE en su informe Introducción a la CNO-11 comenta el concepto de ocupación
(http://www.ine.es/daco/daco42/clasificaciones/Introduccion_CNO11.V02.pdf) y
distingue entre empleo y competencias como dos dimensiones fundamentales que lo
estructuran. Las competencias distinguen a su vez dos dimensiones: la especialización
y el nivel de competencias. Éste último tiene 4 grados (asociados teóricamente a los
niveles educativos formales) que se corresponden con las categorías ocupacionales a 1
dígito de la forma siguiente:
Fuente: INE
De acuerdo con esta tabla, sin considerar el 0 de las ocupaciones militares y asignando
a los directores y gerentes sólo el nivel 4, agrupar los grandes grupos ocupacionales
(variable OCUMAR11 de la matriz CIS3041.sav) en los 4 niveles de competencias.
Completar igualmente el diccionario de las variables y extraer la tabla de frecuencias
para comprobar el resultado.
► Ejercicio 6. Propuesto
Recodificar la variable P15 de autoposicionamiento ideológico en tres categorías que
agrupen los valores 1 a 3, 4 a 6 i 7 a 10.
Por otro lado, si con los datos de la encuesta del CIS nos preguntamos ¿cuáles son los
ingresos medios de los hogares de los entrevistados? Para responder a esta pregunta
deberíamos tener la variable de ingresos como cuantitativa y en la encuesta se pregunta
por intervalos de forma cualitativa. Una alternativa es calcular la media a partir de la
marca de clase de cada intervalo para lo que deberemos recodificar la variable. La
distribución de la variable de ingresos (P45) es la siguiente:
FREQUENCIES P45.
RECODE P45 (1=0)(2=150)(3=450)(4=750)(5=1050)(6=1500)(7=2100)(8=2700)
(9=3750)(10=5250)(11=7500)(MISSING=9999) INTO P45m.
VARIABLE LABELS P15m 'Ingresos del hogar (marca de clase)'.
VALUE LABELS P45m 9999 'NC'.
MISSING VALUES P45m(9999).
FORMATS P45m (F2.0).
VARIABLE LEVEL P45m (SCALE).
FREQUENCIES P45m /STATISTICS MEAN.
Este es el resultado:
► Ejercicio 7. Propuesto
Recodificar la variable P46 relativa a los ingresos personales con la marca de clase de
los intervalos y calcular la media de los ingresos.
Cualquier alternativa podría ser válida, en este caso elegiremos crear una división de
los valores de la variable en cuartiles, en 4 grupos con el 25% de los casos, lo que
implica especificar 3 puntos de corte (recordemos que los cuartiles son 3, los 3 valores
que marcan los cortes). Clicamos en aceptar y al volver al cuadro de diálogo anterior
clicaremos en Crear etiquetas y nos las creará de forma automática en correspondencia
con los valores de la división en cuartiles. Tras ejecutar el procedimiento de
recodificación y pedir la tabla de frecuencias obtenemos este resultado:
► Ejercicio 8. Propuesto
Con la matriz de datos IDH2014.sav realizar una recodificación de la variable
GDPpercapita (Gross Domestic Product per capita) siguiendo diversos criterios: agrupar en
intervalos de igual amplitud, en percentiles o a partir de unidades de desviación.
En las tablas de frecuencia siguientes se pueden comparar los efectos del cambio:
En las expresiones se evalúan primero las funciones y los operadores aritméticos, luego
los operadores relacionales y los lógicos (en el orden NOT, AND, OR).
Con los siguientes criterios: puntuar cada forma con 2 si se ha participado últimamente,
con 1 si participó en el pasado y con 0 si nunca ha participado. El índice lo construimos
con esas puntuaciones en las 4 preguntas sumándolas para cada individuo. El que
participe actualmente en todo tendrá un nivel de participación de 8 y el que nunca haya
participado en nada de 0. A la nueva variable la llamaremos P14índice.
Si le damos a aceptar se crea la variable. Nuestra matriz contendrá una variable más, la
última. Hay que tener en cuenta que en la nueva variable algunos individuos son valores
perdidos en alguna de las cuatro variables iniciales por lo que no se podrá realizar el
cálculo para ellos y serán valores perdidos del sistema en la nueva25. Necesita
completarse su diccionario (tipo, etiqueta de la variable, nivel de medición) que
parcialmente podemos realizar a través del botón Tipo y etiqueta del cuadro de diálogo
de Calcular. Una vez realizada la tarea la tabla de frecuencias de la nueva variable es la
siguiente:
► Ejercicio 9. Propuesto
A partir de la pregunta P11 sobre la frecuencia con que se consultan los periódicos, la
radio y la televisión para seguir la actualidad política, dando entre 4 y 0 puntos a las
frecuencias que van de 1 (Todos los días) a 5 (Nunca) y sumando las puntuaciones
para cada individuo.
25 Si lo deseamos podemos recodificarlos a un valor determinado, etiquetarlo y declararlo valor perdido del usuario,
no cambia nada, simplemente es una forma de tenerlos controlados e identificados.
Una vez conocidos los valores de la media y la desviación típica creamos la nueva
variable mediante el menú Transformar / Calcular variable. Elegimos un nombre para
la nueva variable, por ejemplo, Edadtip, y aplicamos la fórmula que nos da las
puntuaciones tipificadas:
26 Este mismo cálculo se puede obtener con SPSS a través de Analizar / Estadísticos descriptivos / Descriptivos
marcando la opción Guardar valores estandarizados como variables. Si lo hacemos de la edad creará la variable
zP32.
27 Se puede consultar la metodología para la construcción de indicadores del Barómetro del CIS en la página:
http://www.cis.es/cis/opencms/ES/11_barometros/metodologia.html.
donde p1, p2, p3, p4 y p5 son, respectivamente, los porcentajes de respuesta de las
opciones muy buena, buena, regular, mala y muy mala.
Por último, el Indicador de Confianza Política (ICP) es la media aritmética de los dos
anteriores:
En este caso se trata de indicadores sintéticos que se expresan en un solo valor para el
conjunto de la muestra, para después ser comparado a lo largo del tiempo con
Barómetros anteriores28.
Fuente: CIS
28 Ver http://www.cis.es/cis/export/sites/default/-Archivos/Indicadores/documentos_html/IndiPol.html.
COMPUTE SPA=((100*0.1)+(75*2.0)+(50*14.9)+(25*32.0)+(0*51.0))/100.
COMPUTE IEP=((100*13.3)+(50*55.4)+(0*31.3))/100.
COMPUTE ICP=(SPA+IEP)/2.
Se generan 3 variables, que de hecho son constantes, con los valores de los índices:
17,05, 41,00 y 29,03.
Con los datos de la matriz del CIS podemos considerar la pregunta 13 sobre
participación en asociaciones
Con las variables a las que da lugar la pregunta nos plantearnos como objetivo crear
una variable sintética que cuente, para cada individuo, a cuantas asociaciones pertenece,
es decir, si ha contestado 1 (pertenece y participa) o 2 (pertenece y no participa) a cada
una de ellas. Como hay 9 preguntas la variable resultante tendrá valores entre 0 y 9.
Entramos en el menú, seleccionamos las variables P1301 a P1309 y nombramos a la
nueva variable P13recuento con la etiqueta Número de asociaciones a las que
pertenece:
Para finalizar este recorrido por la transformación de las variables trabajaremos con un
procedimiento de primera necesidad en el trabajo de análisis de la información
cuantitativa: la creación de variables con transformaciones condicionales. Son
situaciones donde se establecen determinadas condiciones en las características de las
unidades y en función de su cumplimiento según una expresión lógica (verdadero o
falso / perdido) asigna un valor a través de una expresión (dando el valor en concreto
o ejecutando una fórmula de cálculo). La transformación condicional se puede utilizar
en diversos comandos, pero nos detendremos sobre todo en el comando IF y en la
estructura DO IF … END DIF.
Para ilustrar la utilización de ese procedimiento con el SPSS crearemos una variable
(tipológica) de movilidad ocupacional intergeneracional a partir de relacionar el nivel
ocupacional del padre con el alcanzado por el hijo/a. Las variables ocupacionales son
respectivamente OCUPAPAD y OCUMAR11. Como paso previo pediremos la tabla
de contingencia que cruza ambas variables (Analizar / Estadísticos descriptivos /
Tablas cruzadas) para visualizar la información que se trabaja, ilustrar el procedimiento
y luego poder verificar la creación de la nueva variable. Por convención en los análisis
de movilidad social, en filas se coloca el origen social del padre y en columnas el del
hijo/a. La tabla es la siguiente:
Todos los casos que no cumplan estas condiciones, es decir, los casos que
corresponden valores perdidos de ambas variables, pasarán a ser valores perdidos del
sistema. Para obtener la tabla anterior de 9 por 9 categorías se ha declarado valor
perdido también al valor 10 (las Fuerzas Armadas).
29 Como los valores van de 1, mayor nivel ocupacional, a 9, menor nivel, el sentido de la comparación es el inverso:
un valor mayor entre origen y destino es movilidad descendente y un valor menor ascendente.
Como se puede comprobar, y con el tiempo y la experiencia con SPSS se verá más
claramente, es más eficiente escribir esta instrucción directamente que realizar todo el
recorrido anterior por el menú. Más aún si se tiene que repetir diversas veces para
contemplar diversas situaciones que pueden ser muchas más de las tres que aquí
estamos viendo. Adjuntada la primera instrucción la copiaremos dos veces más y las
Seleccionamos las cuatro líneas y las ejecutamos clicando sobre el icono de ejecución
o con las teclas <CTRL>+<R>. Se creará la nueva variable que tenemos que acabar
de acondicionar con su diccionario. A continuación pedimos la tabla de frecuencias y
se obtiene este resultado:
DO IF [(]expresión lógica[)]
comandos de transformación
[ELSE IF [(]expresión lógica [)]]
comandos de transformación
[ELSE IF [(]expresión lógica [)]]
...
[ELSE]
comandos de transformación
END IF
Como resultado observamos que la movilidad ascendente disminuyó algo, pasando del
43 al 40%, debido al hecho que el criterio de dominancia tiende a elevar la posición de
origen al elegir la más alta entre el padre y la madre; y como las posiciones de origen
son más altas las posibilidades de ascender socialmente serán menores.
Conviene observar también que los datos generados se han obtenido en general desde
el menú en una dinámica de trabajo interactiva lo que puede representar una limitación
de cara a replicar el trabajo realizado. Para volver a realizar los ejercicios vistos
disponemos del propio manual, pero en la práctica de la investigación, revisar o rehacer
la generación de los datos y su análisis requiere registrarlo. Una forma de hacerlo es
guardar sistemáticamente los archivos de resultados que contienen la sintaxis y los
resultados de su ejecución. Pero volver a ejecutarlos por el menú para traducir aquellos
comandos y resultados puede resultar complicado, largo y laborioso. La alternativa es
guardar archivos de sintaxis con todas las tareas realizadas que al ser ejecutados de
nuevo, en cuestión de segundos, generan todo el trabajo de horas que representó
cuando se diseñaron originalmente. Así hemos trabajado nosotros y hemos guardado
todas las transformaciones que se han visto en el capítulo en el programa de sintaxis
Transformar.sps que se puede consultar en la página web de este capítulo.
Ordenar casos
El comando de ordenar casos (menú Data / Sort) permite la reordenación de los casos
del fichero activo según los valores especificados en una o más variables, numéricas o
alfanuméricas (cadena, para éstas el orden es el alfabético). Los casos pueden ser
reordenados en orden ascendente, por defecto, o descendente.
Con la matriz de datos CIS3041.rda vemos que los casos están inicialmente ordenados
según el número del cuestionario (variable CUES). Como ejercicio podemos ordenar
el archivo según el lugar de la entrevista. Un primer criterio sería por ejemplo ordenar
el archivo según la Comunidad Autónoma (variable CCAA) en orden ascendente:
Seleccionar casos
A menudo, cuando trabajamos con una base de datos nos interesa obtener información
sobre los individuos que satisfacen determinadas condiciones. Nos puede interesar,
por ejemplo, estudiar diversas variables pero sólo para los individuos con determinadas
características: de sexo femenino, los que piensan votar, los que tienen un bajo nivel
de ingresos, etc. Con Deducer podemos seleccionar el subconjunto de los individuos
que satisfacen una determinada condición de forma que se crea un objeto nuevo con
los datos seleccionados, un nuevo dataframe. Como ejercicio podemos seleccionar los
casos de las personas entrevistadas que son mujeres. En el cuadro de diálogo del menú
Data / Subset seleccionamos variable del sexo (la P31) y la pasamos a la derecha
haciendo doble-clic. Para seleccionar a las mujeres escribiremos con el teclado o con
los botones del cuadro de diálogo: =="Mujer"30:
Construida la condición podemos cambiar el nombre (Subset Name) que por defecto
se asignará al objeto con los datos de la selección, por ejemplo CIS3041mujer.
Clicaremos sobre OK y se ejecutará, es decir, dispondremos en el espacio de trabajo
de una nueva matriz con la información de los casos que corresponden a las mujeres y
que podemos visualizar desde el visor de datos. Si queremos obtener por ejemplo una
tabla de frecuencias de una variable en el cuadro de diálogo de Frequencies podemos
elegir en cada momento la matriz con la que queremos trabajar, si con toda la muestra
(CIS3041) o con esta submuestra de mujeres que acabamos de crear (CIS3041mujer).
Transponer
La transposición de una matriz implica convertir los casos (las filas) en variables, y las
variables (las columnas) en casos. Al hacerlo se crea un nuevo archivo de datos y
automáticamente los nombres de las variables y los nombres de las filas.
Para ilustrar este procedimiento y los que vienen a continuación, trabajaremos con
unas pequeñas matrices de datos que permitirán ver mejor cada una de las tareas.
Consideraremos la matriz de datos X.rda que contiene la situación laboral de 6
individuos asalariados en relación a 2 variables de sus condiciones de empleo: Contrato
y Salario. Se puede abrir directamente desde el editor de datos de Deducer:
Para transponerla iremos al menú Data / Transpose, nos pedirá elegir la matriz de
datos:
Una vez seleccionada nos pediré darle un nombre a la nueva matriz de datos que se
creará, por ejemplo Xtranspuesta:
Fusionar archivos
- Añadir variables. Se fusiona el archivo de datos activo con otro que contiene los
mismos casos pero variables diferentes.
+ =
- Añadir casos. Se fusiona el archivo de datos activo con otro que contiene las mismas
variables pero casos diferentes.
+ =
Para el ejercicio de unir variables consideraremos dos matrices iniciales separadas con
la información sociodemográfica (YA.rda) y la información de la empresa (YB.rda).
Para el ejercicio de unir casos disponemos de dos matrices separadas con los tres
primeros casos (Y1.rda) y los tres últimos (Y4-6.rda). Las abrimos desde Deducer.
YA YB Y1
Y2
La fusión se realiza a través del menú Data / Merge. Se abre el cuadro de diálogo donde
aparecen las matrices del espacio de trabajo que previamente habremos cargado:
Primero realizaremos la fusión de YA con YB tarea que implica añadir las variables de
YB a las existentes en YA. A la nueva matriz le llamamos YAYB. Clicamos sobre
continuar y nos aparece el cuadro de diálogo de la fusión:
Vemos tres recuadros con las variables propias de cada archivo y las que son comunes.
En este último estaba la variable ID que utilizamos como variable de control del
emparejamiento de los casos. Pasa fusionar siempre es conveniente disponer de una
variable clave que identifique a cada unidad en cada uno de los archivos a unir, de esta
forma se irá emparejando la información a partir del control de la coincidencia del
mismo caso. En nuestro ejemplo este papel lo juega la variable ID y se coloca en el
recuadro Match Cases By: después de elegir si la variable es la del primer archivo: [1],
del segundo: [2], o de ambos [b] y en este caso creará dos versiones de la variable. Una
vez ejecutado con Run tendremos como resultado la misma información de la matriz
Y.
Conviene tener presente que todos los casos desemparejados, es decir, los que están
en una matriz y no en la otra, sea la que sea, tendrán valores perdidos en la fusión para
las variables donde no tienen información, serán vacíos () en la nueva matriz:
+ =
Con Deducer existe la posibilidad de eliminar a priori los casos que no se emparejan
(Drop Unmatched Cases). Si dos variables representan el mismo elemento, pero se
denominan de manera diferente en las dos matrices de datos, se pueden combinar
mediante la selección de las dos variables y haciendo clic en la flecha hacia abajo y
ubicarlas unidas en el recuadro de Common Variables.
En este caso todas las variables son comunes. Las variables que quedan
desemparejadas, porque están en un fichero y no en el otro, no se incluirán en el
archivo fusionado. Debemos pasar todas las variables del recuadro Common Variables
a Match Cases By clicando sobre la flecha hacia abajo:
frecuentes del análisis, la recodificación de los valores de las variables para agrupar
valores o reducir la escala de medida es otra tarea inmediata que conlleva el análisis.
Hay que tener presente finalmente que toda generación de variables requiere a menudo
completar su diccionario (tipo de variable y ordenación de categorías).
La recodificación de variables permite cambiar los valores actuales de las variables por
otros nuevos. La recodificación puede significar estrictamente un cambio de uno o
más valores por otros, o bien la combinación o la agrupación de rangos de valores en
nuevas categorías.
Por otro lado la recodificación se puede realizar optando por mantener la variable
original y generando una nueva con otra nombre que tendrá los valores recodificados,
o bien optando por sustituir la variable que se está recodificando por la nueva variable
con los nuevos criterios de codificación y con el mismo nombre de variable.
El primer paso para realizar una recodificación es definir los criterios de recodificación
y observar los valores de las variables extrayendo la tabla de frecuencias. Consideramos
en primer lugar la variable OCUMAR11, la categoría ocupacional de la persona
entrevistada según la CNO de 2011 (Clasificación Nacional de Ocupaciones)31 . Su
tabla de frecuencias aparece a continuación. Las etiquetas abreviadas de la variable se
corresponden a las descripciones siguientes:
Director: Directores y gerentes; Técnico: Técnicos y profesionales científicos e intelectuales; Apoyo: Técnicos; profesionales de apoyo;
Administrativos: Empleados contables, administrativos y otros empleados de oficina; Servicios: Trabajadores de los servicios de
restauración, personales, protección y vendedores; Cualificados agrícolas: Trabajadores cualificados en el sector agrícola, ganadero,
forestal y pesquero; Cualificados industria: Artesanos y trabajadores cualificados de las industrias manufactureras y la construcción,
excepto operadores de instalación; Operadores: Operadores de instalaciones y maquinaria, y montadores; Elementales: Ocupaciones
elementales; NA: Sin ocupación, vivía de las rentas; Parados; Inactivos (ni ocupado, ni parado, o trabajo doméstico no remunerado,
etc.); No procede (no estaba presente, había fallecido, etc.); N.S./No recuerda/Ocupación mal especificada; N.C.
31 La CNO (http://www.ine.es/jaxi/menu.do?type=pcaxis&path=%2Ft40%2Fcno11%2F&file=inebase&L=0)
es la adaptación española de la clasificación internacional ISCO (International Standard Classification of Occupations) de
la OIT (http://www.ilo.org/public/spanish/bureau/stat/isco/), o CIUO, que tiene varios niveles de
desagregación, hasta 5 y se codifica a 4 dígitos. Aquí se presenta con un 1 solo dígito. La variable P40 de la matriz
CIS3041.sav es la CNO 2011 a tres dígitos. Por tanto, de hecho OCUMAR11 es ya una variable que ha sido
recodificada (agrupada) a un solo dígito.
El objetivo es disponer de una variable ocupacional con un número más reducido que
las 10 categorías de la variable original. Consideraremos una agrupación en 4 categorías
ocupacionales más una categoría de valores perdidos según los siguientes criterios:
1. Clase alta o categoría ocupacional alta: Director y Técnico.
2. Clase media o categoría ocupacional intermedia: Apoyo y Administrativo.
3. Trabajadores cualificados o categoría media baja: Servicios, Cualificado
agrícola y Cualificado industria.
4. Trabajadores no cualificados o categoría baja: Operadores y Elemental.
5. Valores perdidos: Militar (que se unirán a los 34 casos existentes).
Fuente: INE
De acuerdo con esta tabla, sin considerar el 0 de las ocupaciones militares y asignando
a los directores y gerentes sólo el nivel 4, agrupar los grandes grupos ocupacionales
(variable OCUMAR11 de la matriz CIS3041.sav) en los 4 niveles de competencias.
Completar igualmente el diccionario de las variables y extraer la tabla de frecuencias
para comprobar el resultado.
variable cualitativa ordinal. Se propone crear una nueva variable de edad (Edad10) con
una agrupación en intervalos según estos criterios:
1. 18 a 24
2. 25 a 34
3. 35 a 44
4. 45 a 54
5. 55 a 64
6. 65 y más
Si con los datos de la encuesta del CIS nos preguntamos ¿cuáles son los ingresos
medios de los hogares de los entrevistados? Para responder a esta pregunta deberíamos
tener la variable de ingresos como cuantitativa y en la encuesta se pregunta por
intervalos de forma cualitativa. Una alternativa es calcular la media a partir de la marca
de clase de cada intervalo para lo que deberemos recodificar la variable. La distribución
de la variable de ingresos (P45) es la siguiente:
Pero al crear la varaible P45m la convierte en variable tipo factor. Para convertirla a tipo
double podemos crear una nueva variable x en blanco con este formato, copiar la
información de la columna de la variable P45m, borramos la columna P45m y
renombramos la variable x como P45m. A continuación le pedimos la tabla de
frecuencia y el descriptivo de la media. Este es el resultado:
Con los siguientes criterios: puntuar cada forma con 2 si se ha participado últimamente,
con 1 si participó en el pasado y con 0 si nunca ha participado. El índice lo construimos
con esas puntuaciones en las 4 preguntas sumándolas para cada individuo. El que
participe actualmente en todo tendrá un nivel de participación de 8 y el que nunca haya
participado en nada de 0. A la nueva variable la llamaremos P14indice.
Teniendo en cuenta los valores actuales de las variables (P1401 a P1404) necesitamos
pasar de tipo factor a tipo double recodificando los valores de las variables como en el
caso de la última recodificación comentada en el apartado anterior. Podemos hacerlo
para las 4 variables simultáneamente y las llamaremos P1401x a P1404x:
Una vez cambiadas a formato double, creamos el índice desde la línea de comandos de
la consola de Deducer de la forma siguiente:
Una vez conocidos los valores de la media y la desviación típica creamos la nueva
variable, con el nombre Edadtip, mediante:
A este mismo resultado se puede llegar a través del menú con Data / Transform, tras
elegir la variable P32, pasarla a la derecha y elegir la Transformation Standardize:
32 Se puede consultar la metodología para la construcción de indicadores del Barómetro del CIS en la página:
http://www.cis.es/cis/opencms/ES/11_barometros/metodologia.html.
donde p1, p2, p3, p4 y p5 son, respectivamente, los porcentajes de respuesta de las
opciones muy buena, buena, regular, mala y muy mala.
Por último, el Indicador de Confianza Política (ICP) es la media aritmética de los dos
anteriores:
En este caso se trata de indicadores sintéticos que se expresan en un solo valor para el
conjunto de la muestra, para después ser comparado a lo largo del tiempo con
Barómetros anteriores33.
33 Ver http://www.cis.es/cis/export/sites/default/-Archivos/Indicadores/documentos_html/IndiPol.html.
Fuente: CIS
> SPA=((100*0.1)+(75*2.0)+(50*14.9)+(25*32.0)+(0*51.0))/100
> SPA
[1] 17.05
> IEP=((100*13.3)+(50*55.4)+(0*31.3))/100
> IEP
[1] 41
> ICP=(SPA+IEP)/2
> ICP
[1] 29.025
Para finalizar este recorrido por la transformación de las variables trabajaremos con un
procedimiento de primera necesidad en el trabajo de análisis de la información
cuantitativa: la creación de variables con transformaciones condicionales. Son
El comando ifelse que tiene la forma general siguiente: ifelse(test, yes, no). Se evalúa
un condición (test) y si es verdadera se ejecuta una transformación (yes), en caso
contrario se ejecuta otra trasformación o acción (no).
Todos los casos que no cumplan estas condiciones, es decir, los casos que
corresponden valores perdidos de ambas variables, pasarán a ser valores perdidos del
sistema. Para obtener la tabla anterior de 9 por 9 categorías debemos considerar al
valor 10 “Militar” como valor perdido.
Se solicitan en primer lugar las tablas de frecuencias de las dos variables con el
comando frequencies,36 que solamente funciona con Deducer abierto o si se tiene
cargada la librería, pues no es un comando de la librería base de R. El comando levels
permite ver los atributos de una variable y también cambiarlos, como en este caso
donde el valor Militar se convierte en NA en la dos variables. Se utiliza además el
comando which que buscar el valor que corresponde al atributo Militar en la variable.
Para ejecutar las instrucciones de la sintaxis creada se selecciona y se teclea
<CTRL>+<R>. Las frecuencias de las variables son:
34 Como los valores van de 1, mayor nivel ocupacional, a 9, menor nivel, el sentido de la comparación es el inverso:
un valor mayor entre origen y destino es movilidad descendente y un valor menor ascendente.
35 Las instrucciones se encuentran en el archivo Transformar.R.
36 Las variables aparecen asociadas al data frame al cual pertenecen CIS3014 para indicar en qué fichero está la
variable y dónde se ha de guardar si se crea una nueva. En R existen dos comandos: attach y detach que
permiten gestionar este aspecto, el primero evitar escribir constantemente el nombre de la matriz estableciedo la
base de datos por defecto y el segundo anula la acción.
Conviene observar también que los datos generados se han obtenido en general desde
el menú en una dinámica de trabajo interactiva lo que puede representar una limitación
de cara a replicar el trabajo realizado. Para volver a realizar los ejercicios vistos
disponemos del propio manual, pero en la práctica de la investigación, revisar o rehacer
la generación de los datos y su análisis requiere registrarlo. Una forma de hacerlo es
guardar sistemáticamente los archivos de resultados que contienen la sintaxis y los
resultados de su ejecución. Pero volver a ejecutarlos por el menú para traducir aquellos
comandos y resultados puede resultar complicado, largo y laborioso. La alternativa es
guardar archivos de sintaxis con todas las tareas realizadas que al ser ejecutados de
nuevo, en cuestión de segundos, generan todo el trabajo de horas que representó
cuando se diseñaron originalmente. Así hemos trabajado nosotros y hemos guardado
todas las transformaciones que se han visto en el capítulo en el programa de sintaxis
Transformar.R que se puede consultar en la página web de este capítulo.
3. Bibliografía
Badiella, Ll. et al. (2015). Manual de Introducción a Deducer: una interfaz gráfica para usuarios
de R. Bellaterra (Cerdanyola del Vallès). Servei d’Estadística Aplicada de la
Universitat Autònoma de Barcelona. 5ª edición.
http://sct.uab.cat/estadistica/sites/sct.uab.cat.estadistica/files/Manual%20c
urs%20Deducer.pdf
Bouso, J. (2013). El paquete estadístico R. Madrid: Centro de Investigaciones Sociológicas.
Chapman, G. (2012). Deducer Quick Start Guide. Exploring Computer Science. National
Science Foundation.
http://www.exploringcs.org/wp-content/uploads/2010/08/Deducer-Quick-
Start-Guide.pdf
Domínguez, M.; Simó, M. (2003). Tècniques d'Investigació Social Quantitatives. Barcelona:
Edicions Universitat de Barcelona. Metodologia, 13.
Dalgaard, P. (2008). Introductory Statistics with R. New York: Springer.
Díaz de Rada, V. (2002). Técnicas de análisis de datos para investigadores sociales. Aplicaciones
prácticas con SPSS para Windows. Madrid: RA-MA.
Díaz de Rada, V. (2009). Análisis de datos de encuesta. Barcelona: Editorial UOC.
Fachelli, S.; López-Roldán, P. (2013). ¿Somos más móviles? Incluyendo a la mitad
invisible. XI Congreso Español de Sociología, Madrid 10-12 de julio de 2013.
http://www.fes-
web.org/uploads/files/modules/congress/11/papers/1923.pdf.
Fachelli, S.; López-Roldán, P. (2015). ¿Somos más móviles incluyendo a la mitad
invisible? Análisis de la movilidad social intergeneracional en España en 2011.
Revista Española de Investigaciones Sociológicas, 150.
IBM Corporation (2013). IBM SPSS Statistics 22 Command Syntax Reference.
ftp://public.dhe.ibm.com/software/analytics/spss/documentation/statistics
/22.0/en/client/Manuals/IBM_SPSS_Statistics_Command_Syntax_Referen
ce.pdf.
IBM Corporation (2015a). IBM SPSS Statistics 22 Core System. Guía del usuario.
ftp://public.dhe.ibm.com/software/analytics/spss/documentation/statistics
/22.0/es/client/Manuals/IBM_SPSS_Statistics_Core_System_User_Guide.p
df.
IBM Corporation (2015b). IBM SPSS Statistics Base 22.
ftp://public.dhe.ibm.com/software/analytics/spss/documentation/statistics
/22.0/es/client/Manuals/IBM_SPSS_Statistics_Base.pdf.
IBM Corporation (2015c). Guía breve de IBM SPSS Statistics 22.
ftp://public.dhe.ibm.com/software/analytics/spss/documentation/statistics
/22.0/es/client/Manuals/IBM_SPSS_Statistics_Brief_Guide.pdf.
Lizasoaín, L.; Joaristi, L. (2003). Gestión y análisis de datos con SPSS: versión 11. Madrid:
Paraninfo.
López-Roldán, P. (2014). Análisis de datos con SPSS. En P. López-Roldán, Recursos per a
la investigación social. Bellaterra (Cerdanyola del Vallès): Dipòsit Digital de
Documents, Universitat Autònoma de Barcelona.
http://ddd.uab.cat/record/89349
Murillo Torrecilla, F. J.; Martínez-Garrido, C. (2012). Análisis de datos cuantitativos con
SPSS en investigación socioeducativa. Madrid: Servicio de Publicaciones de la
Universidad Autónoma de Madrid.
Muenchen, R. A. (2011). R fos SAS and SPSS Users. New York: Springer. 2ª edición.
Pardo, A.; Ruiz, M. A. (2005). Análisis de datos con SPSS 13. Madrid: McGraw-Hill.
Pardo, A.; Ruiz, M. A. (2009). Gestión de datos con SPSS Statistics. Madrid: Síntesis.
R Development Core Team (2011). R: A Language and Environment for Statistical
Computing. The R Foundation for Statistical Computing Vienna, Austria. ISBN:
3-900051-07-0. http://www.r-project.org/.
Rial, A.; Varela, J.; Rojas, A. J. (2001). Depuración y análisis preliminares de datos en SPSS.
Madrid: RA-MA.
Spector, Ph. (2008). Data Manipulation with R. New York: Springer.