Práctica 1 Programas para Análisis Estadístico

Descargar como pdf o txt
Descargar como pdf o txt
Está en la página 1de 10

ESCUELA NACIONAL DE CIENCIAS BIOLÓGICAS

DEPARTAMENTO DE BOTÁNICA
INGENIERÍA EN SISTEMAS AMBIENTALES

PRÁCTICA 1. PROGRAMAS PARA EL ANÁLISIS DE DATOS


ESTADÍSTICOS

Introducción
La estadística es una herramienta matemática muy útil para la exploración, organización y
presentación de datos. También se utiliza para un análisis más profundo de los datos obtenidos mediante
muestreo o de un experimento. Se ocupa para organizar los datos en tablas y gráficas y así visualizar la
información de manera sintética, observar tendencias generales en los datos, y realizar análisis
estadísticos o poner a prueba hipótesis. Calcular estadísticos descriptivos ayuda a describir
numéricamente los datos reunidos, y las pruebas estadísticas permiten poner a prueba hipótesis.

Si bien es cierto que estos análisis se pueden efectuar con herramientas tan simples como una buena
calculadora, papel milimétrico y una regla, cuando se manejan gran cantidad de datos no es práctico
hacerlo de esta forma. Actualmente se cuenta con hojas de cálculo y programas especializados para
análisis estadísticos, tanto comerciales como de acceso libre, que permiten organizar los datos, realizar
gráficas, calcular medidas descriptivas y analizarlos de forma más eficiente. En esta práctica se muestra
algunos programas de acceso libre que pueden utilizarse para analizar datos.

Objetivos
Descargar e instalar algunos de los programas de acceso libre para analizar datos.

Conocer las características generales de los programas.

Programas para manejo de datos


Hojas de Cálculo
Una hoja de cálculo es un tipo de documento que permite hacer cálculos con los datos almacenados en
sus celdas. Es un documento con celdas, ordenadas en filas y columnas, en el que podemos almacenar
datos de distintos tipos (Numérico, Fecha, Texto, lógico, porcentaje, etc.).

La hoja de cálculo más conocida es Excel® de Microsoft Office, pero existen otras opciones gratuitas
como Calc de LibreOffice y Hojas de cálculo de Google, con herramientas de cálculo y análisis muy
similares.

Una hoja de cálculo permite ordenar datos, seleccionar una parte, resumirlos, resaltar algunos, crear
tablas dinámicas, generar gráficas y realizar muchos de los análisis estadísticos básicos. Lo que convierte
a la hoja de cálculo en un programa de software único es su habilidad para calcular utilizando fórmulas
matemáticas a partir de los datos almacenados en las celdas. Y facilita la ejecución de la misma fórmula
muchas veces dentro del archivo sobre conjuntos de datos similares. Incluso se pueden crear rutinas o
secuencias de funciones con pequeños programas denominados Macros si se quiere automatizar ciertas
operaciones rutinarias.

Figura 1. Hoja de cálculo de un Libro de Excel, donde se muestra el Menú Inicio

Para realizar cualquier operación o función con los números introducidos en las celdas, solo se necesita
iniciar con el signo igual =, e indicar cuáles celdas desea sumar, multiplicar, restar o dividir, promediar
o transformar:

Ejemplos:

Multiplicar el valor de la celda A2 por el de B2 entre el de C2


= A2*B2/C2
Obtener la raíz cuadrada del número de la celda C5

=RAIZ(C5)

Elevar al cubo el número de la celda B3


=POTENCIA(B3, 3)

Ejercicio 1

Abre la base de datos Alcaldías.xls y realiza los siguientes cálculos:

1. Calcula la diferencia entre el número de camiones de 2015 a 2019.


2. Calcula la densidad de población para Álvaro Obregón (Densidad = Población/Superficie).
3. Calcula la cantidad de residuos generados por persona en Álvaro Obregón.
4. Calcula la cantidad total de residuos producidos en 2019 en cada alcaldía.

Además de permitir crear fórmulas propias, las hojas de cálculo ofrecen funciones o fórmulas
predefinidas que facilitan realizar operaciones con los datos. Se pueden realizar conversiones de
unidades, obtener logaritmos, funciones trigonométricas, estadísticas descriptivas, operaciones con
fechas, con texto, etc.

2
En Excel, se puede seleccionar el Menú Fórmulas, para elegir entre las opciones disponibles:

Figura 2 Menú de Fórmulas y categorías disponibles para buscar las fórmulas.

O activar el asistente si se selecciona fx. Esta muestra un cuadro de diálogo para elegir la categoría
de fórmulas y buscar su sintaxis. Por ejemplo, dentro de la categoría de Estadística se incluyen las
funciones o fórmulas para medidas de tendencia central, de dispersión, cálculos de probabilidad,
etc.

Ejercicio 2
1. Calcula la suma de los residuos del 2015 de todas las alcaldías de la CDMX
2. Calcula el promedio de generación por alcaldía.
3. Calcula el máximo y el mínimo de generación de todas las alcaldías.

Tanto Excel como otras hojas de cálculo suelen incluir complementos gratuitos para realizar análisis
estadísticos básicos.
Datos > Análisis de datos > Estadística descriptiva
Finalmente, si le interese ampliar sus habilidades y conocimientos de Excel recomendamos tome el curso
“Herramientas básicas de Microsoft Office 2010. Excel” disponible en https://aprendomas.cuaed.unam.mx/

Past

Past fue desarrollado por el Profesor Øyvind Hammer del Museo de Historia Natural de la Universidad
de Oslo. Se puede descargar de manera gratuita del siguiente enlace:
https://www.nhm.uio.no/english/research/resources/past/

Es un software gratuito para el análisis de datos, con funciones de manejo de datos, graficar, calcular
estadísticas de una variable o multivariadas, análisis de datos ecológicos, series de tiempo y análisis
espacial, morfometría y estratigrafía. También incluye índices de similitud, y otras herramientas de uso
común para la descripción y análisis de datos biológicos.

3
Para introducir datos en una celda, haga clic en la celda con el ratón. Las celdas también se pueden
navegar con las teclas de flecha arriba-abajo-izquierda-derecha. Cualquier texto puede introducirse en
las celdas, pero en la mayoría de las funciones se esperan números. Tanto coma (,) y el punto decimal
(.) Se aceptan como separadores decimales. Los datos faltantes se codifican con signos de interrogación
(?).

Características de Filas o Columnas

A cada fila se le puede dar un color y un símbolo (punto, cruz, cuadrado, etc.) para ser utilizados en los
diagramas de dispersión y otras gráficas. Seleccione la opción de características de filas ("Row attributes”)
para editar los nombres de las filas y los colores de forma individual, o utilizar la función "Row colors /
simbols" para ajustar todas las filas seleccionadas al mismo tiempo. A cada columna también se le
pueden asignar el nombre de la columna y especificar el tipo de datos con la opción de características
de columnas ("Column attributes").

Figura 3. Opciones para definir características de filas y columnas en un archivo de datos de Past.

Menú File (archivo)

Incluye las opciones usuales de crear Nuevo Archivo, Abrir, Guardar, Guardar como y salir. Past
también permite abrir archivos en formatos .txt fácilmente, pero tiene problemas para reconocer archivos
de Excel. En ese caso es más sencillo abrir la hoja de cálculo y seleccionar los datos, copiarlos y pegarlos
en Past.

Muchas bases de datos se almacenan como texto (separados por tabuladores, comas o espacios). Para
archivos con terminación .txt, seleccione File/Open e indique la ruta donde se encuentre el archivo y el
tipo de separador.

Seleccionar Rows contain / Only data cells (por lo general) y en Columns contain / Names, data. Esto
asigna a cada columna el nombre de la variable.

4
Figura 4. Opciones para importar datos

Menú Plot

PAST incluye en su menú para graficar una variedad de opciones de gráficas: Graph, XY Graph, XY graph
with error bars, Histogram, Bar chart/box plot, Pie chart, Normal probability plot, Ternary, Bubble plot,
Matrix, 3D plots, etc. A continuación se describen solo alguno de estos tipos de gráficas.

Figura 5 Menú Plot y opciones disponibles para gráficas

Ejercicio 3

Se ocupará la base de datos "Alcaldía"

1. En Past activa la casilla de Atributos de columna


2. Copia los datos de Excel y pegalos a Past, cuidando que los encabezados de columna queden
en el renglón de nombres: Name
3. En la columna de los nombres de las alcaldías indica el tipo de datos "Group"
4. Desactiva la casilla de Atributos de columna
5. Selecciona dos columnas (Alcaldía y No Colonias)
6. Realiza una gráfica de barras que muestre número de colonias de cada alcaldía.

Introducción a R y Rstudio

R es un potente lenguaje de programación orientado a objetos destinado al análisis estadístico y la


representación de datos. Es un software libre de última generación basado en el lenguaje estadístico S,

5
que tiene una gran aceptación en el ambiente académico y cada vez adquiere mayor importancia en el
ámbito empresarial.

Se puede ejecutar en distintas plataformas Linux, Windows, MacOS, e incluso en PlayStation 3. Es un


sistema totalmente planificado y coherente, en lugar de una acumulación gradual de herramientas muy
específicas y poco flexibles, como suelen ser otros programas de análisis de datos. El hecho de que R
sea un lenguaje y un sistema es porque forma parte de la filosofía desde su creación.

El mayor inconveniente para muchos que inician en su manejo es el hecho de funcionar mediante
comandos. Para resolver esta dificultad existen los paquetes RStudio y RCommander los cuales permiten
utilizar R sin tener que memorizar comandos.

Es importante destacar que éste curso de estadística pretende que el usuario aprenda a manejar R
mediante RStudio y aplique los conocimientos al cálculo de estadísticas descriptiva e inferencial
adquiridos durante el curso.

1 Instalación de R
Instalar R es muy sencillo, solo hay que dirigirse a la página http://www.r-project.org/ donde se
selecciona la opción download R, luego se selecciona un servidor (CRAN mirror), de donde se descarga
la aplicación para el sistema operativo que se requiera. En México los más cercanos son el servidor del
Colegio de Posgraduados o el servidor del ITAM https://cran.itam.mx/

Dependiendo del sistema operativo que tenga la computadodra se elige Download R para
Windows , Linux o MacOS, luego install R for the first time. Una vez realizada la descarga se
da doble click sobre el archivo ejecutable y se mostrará la ventana de selección de idioma para
el asistente de instalación (Es importante conocer las características de su computadora (32/64
bit) para la correcta instalación de R):

Una vez que se descargue el archivo solamente hay que ejecutar el archivo para iniciar el asistente de
instalación.

6
Figura 6 Asistente de Instalación de R para Windows

2 RStudio

RStudio es una GUI (Interfaz gráfica) que permite acceder de manera sencilla toda la potencia
de R. Programado en C#, RStudio , es multiplataforma (Windows, Linux y Mac) y requiere tener
instalado R para ser ejecutado. Al igual que R , RStudio es software libre de código abierto que
puede ejecutarse en el escritorio (Windows, Mac o Linux) o incluso a través de Internet mediante el
servidor de RStudio.
Para instalar RStudio se ingresa a la página https://www.rstudio.com/ y se descarga la versión de
escritorio (RStudio Desktop). O también se puede utilizar la versión disponible en la nube, para lo
cual solo se requiere crear una cuenta (https://rstudio.cloud/ )
Una vez instalado el software se ejecuta la aplicación.

Figura 7: Interfaz de RStudio.

7
La interfaz RStudio presenta cuatro paneles: el Editor , la Consola , el Environment-History y el
que incluye File-Plots-Packages-Help-Viewer (Archivos-Gráficas-Paquetes-Ayuda-Visor).
En la Consola se pueden introducir los comandos y será dónde se vean los resultados de los
análisis.
El Editor permite crear códigos en distintos formatos. En environment se muestran los datos y el
historial de los comandos empleados en la Consola.
Finalmente el último panel permite visualizar archivos, gráficas, paquetes, ver la lista de los
paquetes instalados y las salidas de Rmarkdown en formato HTML.

¿Por qué utilizar RStudio?


• Respeta la filosofía tradicional de la consola de R.
• Muestra los objetos del espacio de trabajo.
• Muestra el historial de comandos.
• Tiene un visor de gráficos que unifica entornos. Integra un visor de paquetes instalados y/o
cargados (library).
• Permite ejecutar trozos de código con sólo marcarlo en los scripts.
• Dispone de autocompletado de código.
• Presentaciones con Knit y Sweave.
• Facilidad para trabajar con varios proyectos a la vez.
3 Primero pasos con Rstudio

En la consola aparece el símbolo ">" en el margen izquierdo.


A partir de ese momento, R está listo para recibir instrucciones.

Para ejecutar un comando en la consola, basta con introducirlo y presionar la tecla ENTER, R
devolverá el resultado; el símbolo de numeral # se utiliza para agregar un comentario y de esta
manera R no trate de ejecutarlo.
Las órdenes elementales en R consisten en expresiones o en asignaciones.
Una orden consiste en una expresión, que se evalúa, se imprime y su valor se pierde;
En cambio una asignación evalúa una expresión, no la imprime y guarda su valor en una
variable que es almacenada en el Ambiente de trabajo (Environment).

Una asignación se puede expresar con el signo de igualdad o con el símbolo de asignación
(<–).

CONTROL + ENTER se utiliza para ejecutar un comando que se escribió en el Editor de


RStudio (Script).

4 R como calculadora

El uso más básico que tiene R es el de calculadora, pues se pueden realizar cálculos
aritméticos simples con los símbolos de +, –, *, / ˆ para las operaciones básicas.

Ingresa los siguientes ejemplos sencillos

145 + 235
28.5 - 1.95
75 * 3.5
sqrt(225)
log(200)

8
Operador de asignación <-

Para declarar y asignar un valor o valores a una variable se puede utilizar tanto = como <-

x=7 # asigna el número 7 al objeto x


y <- sq rt(70) # asigna la raíz del número 70 al objeto y

Si se desea ver qué valor toma variable se escribe:

x (CONTROL + ENTER)

Nota: Cualquier asignación a una variable crea o reutiliza un objeto de R. Si guardo el espacio
de trabajo, también la variable quedará guardada.

Ejercicio 4. A partir de la tabla siguiente:

1. Elaboré un vector para los años, los residuos ingresados a la planta de composta y la
producción de composta de la manera siguiente:

año <- c(2010, 2011, 2012, 2013, 2014)


ro <- c(127, 1656, 2322, 1942, 1690)
composta <- c(24, 318, 457, 372, 335)

2. Multiplica el vector ro por los días del año para sacar el total anual.
3. Multiplica el vector composta por los días del año para sacar el total anual.
4. Divide el vector composta/ro ¿qué representa? ¿Al multiplicarlo por 100 que expresa?

Espacio y directorio de trabajo en Rstudio

En el workspace o espacio de trabajo se incluyen todos los objetos definidos por el usuario
(los objetos representan variables, vectores, dataframes, listas, etc.). El workspace se
almacena en la memoria intermedia mientras se ejecuta R.

Cuando termina una sesión de R aparece un mensaje en el que se pregunta si se desea


guardar el workspace para usos futuros. Este espacio, workspace, se recarga al volver a
iniciar la sesión.
Por su parte el Directorio de trabajo o working directory es el directorio donde por defecto trabaja
R.
También es donde se guardará el workspace al finalizar la sesión y donde buscará un

9
workspace guardado al iniciar R.
Si quieres que R lea un archivo que no esté en “working directory” hay que especificar la
ruta completa.

5 Paquetes

Con la instalación simple de R tenemos muchas posibilidades de manejo de datos, pero


además existen multitud de módulos adicionales que llamamos paquetes (packages). Los
paquetes son conjuntos de funciones y datos, que se pueden ir instalando conforme se
requieran, para ampliar las capacidades de R. Existen paquetes para análisis de datos
ecológicos, resolver ecuaciones diferenciales, resolver matrices, herramientas para
realizar evaluaciones de impacto y riesgo ambiental, para crear gráficas especializadas,
diseñar experimentos, etc., etc.

Figura 8: Pestaña de paquetes (Packages).

10

También podría gustarte