Primeros Pasos en R
Primeros Pasos en R
Primeros Pasos en R
Datos sueltos
Se quiere analizar la duración de llamadas que llegan a una central telefónica, para ello se toma una muestra
de 10 llamadas, cuyas duraciones (en minutos) son las siguientes:
6,33 3,52 3,29 2,11 6,52 1,6 2,17 2,88 2,05 1,91
Con c(. . . ) colocamos los datos en un vector. Guardamos los datos en el objeto datos_sueltos
datos_sueltos <- c(6.33, 3.52, 3.29, 2.11, 6.52, 1.6, 2.17, 2.88, 2.05, 1.91) #Cargamos los datos
print(promedio)
## [1] 3.238
promedio
## [1] 3.238
1
resumen <- summary(datos_sueltos) #con este comando obtemos algunas
#medidas descriptivas directamente
Base estudiantes
Descagar la base de datos base_estudiantes.csv desde nuestro curso en el campus.
Nota: dentro de la función setwd se encuentra la ruta de mi carpeta, ustedes tienen que colocar la ruta en
donde colocaron la base de datos base_estudiantes y el archivo Primeros pasos en R (practica).R
Otra manera es descargar base_estudiantes.xlsx (formato Excel) e importarla. Para ello tenemos que
instalar y cargar el paquete que contiene la función que vamos a utilizar:
install.packages(“readxl”)
library(readxl) #de esta manera cargamos el paquete en el espacio de trabajo para poder utilizarlo.
A las variables cualitativas de la base de datos es necesario pasarlas al tipo factor, lo hacemos de la siguiente
manera:
2
Veamos los primeros 10 datos de la base
head(base_estudiantes, 10)
colnames(base_estudiantes)
Guardamos en el objeto altura los datos de la variable “altura” de la base. Para leer datos de una tabla
utilizamos corchetes, [,], en donde del lado derecho de la coma indicamos el o los números de filas, y del lado
izquierdo el número o nombre de la columna (se puede extraer más de una columna)
3
alturas_ordenadas <- sort(altura)
alturas_ordenadas
## [1] 1.40 1.55 1.55 1.55 1.56 1.57 1.58 1.59 1.60 1.60 1.63 1.64 1.64 1.64 1.65
## [16] 1.65 1.65 1.65 1.65 1.65 1.65 1.65 1.66 1.67 1.68 1.69 1.69 1.69 1.70 1.70
## [31] 1.70 1.70 1.70 1.70 1.70 1.70 1.70 1.70 1.70 1.70 1.71 1.71 1.71 1.71 1.71
## [46] 1.72 1.72 1.72 1.72 1.72 1.72 1.72 1.72 1.73 1.73 1.73 1.73 1.73 1.73 1.74
## [61] 1.75 1.75 1.75 1.75 1.75 1.75 1.75 1.75 1.75 1.75 1.75 1.75 1.75 1.75 1.76
## [76] 1.76 1.76 1.76 1.76 1.76 1.76 1.76 1.77 1.77 1.77 1.77 1.77 1.77 1.78 1.78
## [91] 1.78 1.78 1.79 1.79 1.79 1.79 1.80 1.80 1.80 1.80 1.80 1.80 1.80 1.80 1.80
## [106] 1.80 1.80 1.80 1.80 1.80 1.80 1.80 1.80 1.80 1.80 1.80 1.82 1.82 1.82 1.83
## [121] 1.83 1.83 1.83 1.85 1.85 1.85 1.85 1.86 1.86 1.86 1.90 1.90 1.90 1.90
Por lo general no se guarda la variable altura en un objeto, se utiliza directamente desde la base.
## Var1 Freq
## 1 0 30
## 2 1 40
## 3 2 58
## 4 3 8
4
## 3 2 58 128
## 4 3 8 136
Y por último agregamos una columna con las frecuencias porcentuales acumuladas
## cant.transp f F f% F%
## 1 0 30 30 0.22 0.22
## 2 1 40 70 0.29 0.51
## 3 2 58 128 0.43 0.94
## 4 3 8 136 0.06 1.00
##
## Attaching package: 'fdth'
## The following objects are masked from 'package:stats':
##
## sd, var
tabla_frec_edad <- fdt(base_estudiantes$altura, start = 1.4, end = 2, h = 0.05)
5
Visualizamos la tabla:
tabla_frec_edad
Gráficos
plot(base_estudiantes$carrera)
40
30
20
10
0
6
plot(base_estudiantes$zona)
100
80
60
40
20
0
##
## The decimal point is 1 digit(s) to the left of the |
##
## 14 | 0
## 14 |
## 15 |
## 15 | 5556789
## 16 | 003444
## 16 | 55555555678999
## 17 | 00000000000011111222222223333334
## 17 | 555555555555556666666677777788889999
## 18 | 000000000000000000002223333
## 18 | 5555666
## 19 | 0000
El gráfico que corresponde para visualizar la distribución de un conjunto de datos que provienen de una
variable cuantitativa continua es el histograma, y lo hacemos de la siguiente manera:
7
hist(base_estudiantes$edad)
Histogram of base_estudiantes$edad
50
40
Frequency
30
20
10
0
20 30 40 50 60 70
base_estudiantes$edad
8
Histograma alturas
40
30
Frequency
20
10
0
altura
9
Boxplot edad
70
60
50
40
30
20
10
Boxplot altura
1.9
1.8
1.7
1.6
1.5
1.4
Ejemplo 1:
Dentro del grupo mujeres, se busca determinar que porcentaje utiliza dos transportes públicos para llegar
hasta la universidad.
Lo primero que tenemos que hacer es separar la base y quedarnos solamente con el grupo de mujeres, esto lo
podemos hacer utilizando la función subset de la siguiente manera:
Dentro de la fución, en el parámetro subset escribimos la condición para segmentar la base de datos.
Visualizamos los primeros diez valores de la base resultante utilizando la función head
head(mujeres)
11
## 54 54 Electronica 6 Zona Oeste 1 Femenino 21 1.59
Una vez que obtuvimos la base correspondiente hacemos una tabla de frecuencia porcentuales con la función
prop.table, pero para ello primero es necesario realizar una tabla de frecuencias.
##
## 0 1 2 3
## 0.07142857 0.35714286 0.42857143 0.14285714
Ejemplo 2:
En este caso nos interesa estudiar que cantidad de estudiantes menores de 25 años tiene por lo menos 16
materias aprobadas.
Luego realizamos la tabla y la pasamos al formato data.frame para tener una mejor visualización.
## var f F
## 1 1 2 2
## 2 2 1 3
## 3 3 3 6
## 4 4 4 10
## 5 5 9 19
## 6 6 16 35
## 7 7 10 45
## 8 8 2 47
## 9 9 7 54
## 10 10 7 61
## 11 11 5 66
## 12 12 3 69
## 13 13 2 71
## 14 14 2 73
## 15 15 3 76
## 16 16 1 77
## 17 17 2 79
## 18 18 1 80
## 19 20 1 81
## 20 21 2 83
## 21 22 1 84
12
## 22 23 1 85
## 23 39 1 86
13