2.analisis Exploratorio de Datos

Descargar como pdf o txt
Descargar como pdf o txt
Está en la página 1de 6

Análisis Estadístico y Explotación de los Datos

del Plan de Policía de Aguas

2 ANÁLISIS EXPLORATORIO DE DATOS

El objetivo de esta tarea es la descripción estadística de los parámetros. Para ello se hace
necesario reducir la dimensión del espacio de los datos originales, sintetizando estos últimos
mediante un conjunto de índices que representen adecuadamente al conjunto de datos
primitivos. Para ello se utilizan estadísticos descriptivos, pruebas de normalidad y de
comparación, asociación y modelización de los parámetros. Se utiliza como herramienta
estadística la aplicación SPSS 11.0 para Windows.

El estudio descriptivo se ha realizado de dos maneras distintas:

• El análisis se realiza con todos los datos disponibles de las mediciones anuales,
independientemente del número de éstas que se realizaran por año

• Para el análisis se lleva a cabo una reducción de los datos disponibles con el fin de
disponer del mismo número de datos por año.

En tal caso, los años 1988 y 1989, para los que se disponía de cuatro mediciones en cada
uno de ellos, se han reducido a una sola obtenida como mediana de los cuatro valores
disponibles. Sólo ha sido necesario realizarlo para el Zinc y el Arsénico. Es necesario
señalar que las cuatro medidas disponibles estaban realizadas en distintas estaciones.
Dicha decisión se ha tomado para evitar el efecto de sobre valoración que supondrían
dichos años (88 y 89) con respecto a los demás.

2.1 METODOLOGÍA ESTADÍSTICA PARA EL ANÁLISIS EXPLORATORIO


DE DATOS
La base de datos de la zona mediterránea consta de 1780 puntos de muestreo
correspondientes a las 148 estaciones existentes (que aparecen en la tabla A1.1 del Anexo
1), durante el periodo de años 1988 a 2001, en las que se tomaron diferentes medidas de
determinados parámetros. El objetivo de este apartado del estudio es describir la muestra
obtenida.

La metodología estadística seguida consta de dos etapas. En primer lugar se realiza una
exploración estadística de los datos y posteriormente se lleva a cabo el análisis descriptivo.
A continuación se detalla cada una de estas etapas, pero antes se verán algunos conceptos
estadísticos necesarios para comprender el proceso.

Análisis Exploratorio de Datos


11
Análisis Estadístico y Explotación de los Datos
del Plan de Policía de Aguas

2.1.1 ESTADÍSTICOS Y CONCEPTOS UTILIZADOS


En este apartado se definen los principales estadísticos que se utilizan en el análisis de los
datos y algunos términos y conceptos estadísticos fundamentales.

ƒ Variable cuantitativa o numérica: Característica en estudio medible numéricamente.

ƒ Variable cualitativa o categórica: Atributo en estudio cuyo resultado no se puede


expresar mediante números. Cada una de las categorías o de los resultados posibles de
un atributo es una modalidad.

ƒ Casos válidos para una variable: Observaciones o puntos de muestreo que tienen
valores conocidos de esa característica.

ƒ Casos perdidos para una variable: Observaciones o puntos de muestreo con valores
desconocidos para la variable.

ƒ Distribución de una variable categórica: Tabla de frecuencias y porcentajes para las


modalidades observadas.

ƒ Distribución de una variable numérica: Conjunto de los valores de la característica


observada y sus probabilidades. Una distribución tiene tres propiedades: tendencia
central, dispersión y forma, y los estadísticos descriptivos son las medidas que las
resumen.

ƒ Distribución normal: Distribución de una variable continua, simétrica en su media y con


forma de campana, en la que moda, media y mediana coinciden.

ƒ Valores extremos: Datos muestrales que se diferencian claramente de los demás en una
distribución (extremadamente altos o bajos).

ƒ Recorrido de una variable: Diferencia entre el valor máximo y mínimo de su distribución.

ƒ Percentil i de una variable: Valor numérico por debajo del cuál se encuentra el i% de las
observaciones y por encima del mismo, el (100-i)%. Hay 99 percentiles, valores
pertenecientes o no a la muestra que la dividen en 100 partes iguales y 3 cuartiles, que
la dividen en 4 partes iguales. El primer cuartil es el percentil 25, el segundo cuartil es el
percentil 50 (la mediana) y el tercer cuartil, el percentil 75. Estas medidas se denominan
de posición y están basadas en la muestra de los valores de la variable ordenada de
menor a mayor y dividida en i partes.

ƒ Media aritmética: Suma de las observaciones de una variable en la muestra dividida por
el número de observaciones de la misma.

Análisis Exploratorio de Datos


12
Análisis Estadístico y Explotación de los Datos
del Plan de Policía de Aguas

ƒ Intervalo de confianza para la media al 95%: Rango de valores basado en la media de


muestreo que incluye a la media poblacional con probabilidad 0,95.

ƒ Mediana: Valor por debajo y por encima del cuál se encuentran la mitad (el 50%) de los
valores observados de una variable. La mediana es una medida de tendencia central
que no es sensible a los valores extremos, a diferencia de la media que puede resultar
afectada por valores muy grandes o muy pequeños. Este estadístico se basa en los
datos ordenados de menor a mayor de manera que, si el número de observaciones es
par, la mediana es el promedio de las dos observaciones centrales.

ƒ Desviación típica: Medida de la dispersión de los valores de una variable con respecto a
su media.

ƒ Rango intercuartílico (RI): Medida de dispersión alternativa a la desviación típica, del


mismo modo que la mediana lo es a la media como medida de tendencia central. Se
define como la diferencia entre el tercer y el primer cuartil de la muestra de valores de
una variable y representa el rango de unidades de la misma en el que se encuentra el
50% de los datos.

ƒ Coeficiente de asimetría: Medida de la forma de la distribución de los valores de una


variable respecto a su media. Su valor es cero si la distribución es simétrica como la
normal, es positivo cuando las desviaciones a la media son mayores para los valores
superiores a la media que para los inferiores (distribución asimétrica a la derecha) y es
negativo si ocurre al revés (asimétrica a la izquierda).

2.1.2 EXPLORACIÓN ESTADÍSTICA DE LOS DATOS


Se realiza en primer lugar la exploración estadística de los datos para generar estadísticos
de resumen y representaciones gráficas, para todos los casos y de forma separada para
grupos de casos (según las variables estación y años). Las razones para utilizar este
procedimiento son: identificar valores atípicos, obtener descripciones, comprobar supuestos
y caracterizar diferencias entre subpoblaciones (grupos de casos).

La inspección de los datos puede mostrar que existen valores inusuales o extremos,
discontinuidades en los datos u otras peculiaridades, además de ayudar a determinar si son
adecuadas las técnicas estadísticas que se van a considerar en el análisis posterior.

Dicha exploración también puede indicar la necesidad de transformar los datos cuando la
técnica se basa en una distribución normal, o bien, puede ayudar a decidir el uso de pruebas
no paramétricas.

Análisis Exploratorio de Datos


13
Análisis Estadístico y Explotación de los Datos
del Plan de Policía de Aguas

2.1.3 ANÁLISIS DESCRIPTIVO


Una vez realizada la exploración estadística se procede al análisis descriptivo mediante la
síntesis de las medidas tomadas en la muestra y recogidas en las distintas variables.

Las variables cuantitativas o numéricas se expresan como media ± desviación típica o


mediana ± rango intercuartílico, según la simetría o asimetría de la distribución de sus
valores con respecto a su media.

Las variables cualitativas o categóricas se resumen a través de tablas de frecuencias y


porcentajes.

Todas estas medidas, que no son más que estadísticos que resumen los dos tipos de
variables, se determinan tanto en la muestra global como para grupos de casos definidos
por otra variable.

Este análisis se complementa con distintas representaciones gráficas según el tipo de


información: histogramas para las variables numéricas y diagramas de barras o sectores
para las categóricas.

2.1.4 NIVELES DE CALIDAD


El principal objetivo de este Proyecto Fin de Carrera es determinar los niveles de calidad de
las aguas y sedimentos acuáticos de Andalucía.

A tal fin, es evidente que se necesita establecer a partir de qué valores se considerará que
las aguas están contaminadas. Es de destacar la dificultad que presenta fijar estos valores,
ya que tanto la composición de las aguas como la de los sedimentos están muy
influenciadas por las características del medio geológico en el que se encuentran, o por el
que discurren, en el caso de las aguas, y puede ocurrir que la composición natural de un
agua o un sedimento presente concentraciones notablemente elevadas de metales o de
sales (sulfatos, cloruros, carbonatos, etc.) cuya procedencia natural conviene conocer para
diferenciarla de una posible contaminación posterior.

Se han realizado múltiples intentos para fijar los denominados “niveles naturales o de fondo”
de las aguas y sedimentos, si bien en la mayoría de los casos estos niveles se han
establecido como rango de valores, que en múltiples ocasiones, son bastante amplios,
especialmente para los sedimentos.

Análisis Exploratorio de Datos


14
Análisis Estadístico y Explotación de los Datos
del Plan de Policía de Aguas

También en el caso de las aguas, en las legislaciones Europea, Española y Andaluza, se


han fijado, para determinados parámetros, los denominados “objetivos de calidad”, no
obstante, en la práctica totalidad de los casos, estos objetivos se han establecido para
aguas afectadas directamente por vertidos.

Otra forma de abordar el problema, en el caso de las aguas, consiste en determinar su


calidad en base a un uso específico. En particular se dispone de normativa para los
siguientes usos: consumo humano, producción de agua potable, vida piscícola y baños.
Como principal limitación se puede señalar que es frecuente que un agua, que resulte
contaminada para un determinado uso, pueda ser perfectamente válida para otros y también
que usos tan importantes como el riego y la industria no tienen definida una normativa.

En este contexto se debe comentar que, en diversos estudios, tanto de aguas como de
sedimentos no se fija un solo valor para distinguir entre muestras contaminadas y no
contaminadas, sino que se establecen rangos de valores que permiten clasificar las
muestras según distintos niveles de calidad o de contaminación.

En base a todo lo anterior y a la experiencia de más de diez años de los técnicos de la


Sección de Medio Ambiente, realizando los “Planes de Policía de Aguas del Litoral Andaluz”,
se han establecido, los criterios para la clasificación de la calidad de las muestras de aguas
y de sedimentos.

2.1.4.1 Calidad de las aguas


A la hora de establecer los niveles de calidad de las aguas, se han diferenciado entre aguas
de mar y de río.

De acuerdo con las características de las zonas muestreadas el criterio seguido para
establecer hasta donde llega la influencia marina en los ríos, ha sido considerar que la zona
estuárica se extiende hasta aquellas muestras con una conductividad superior a 3000
µs/cm, a 25°C. Es de destacar, como excepción, que en zonas sin influencia marina de los
ríos Tinto y Odiel, se han encontrado muestras con conductividades claramente superiores a
los citados 3000 µs/cm, sin duda como consecuencia de sus bajos pH (elevada acidez) y
sus altos contenidos en sales disueltas procedentes del terreno pirítico por el que discurren
estos ríos; en estos casos se han considerado como aguas de río.

Análisis Exploratorio de Datos


15
Análisis Estadístico y Explotación de los Datos
del Plan de Policía de Aguas

Se han fijado cinco niveles de calidad en las aguas al igual que lo indicado en la propuesta
modificada de Directiva del Consejo por el que se establece un marco comunitario de
actuación en el ámbito de la política de aguas” (Diario Oficial de las Comunidades Europeas
108 de 7-4-1998) para la “presentación de los resultados de los controles y clasificación
armonizada de la calidad ecológica”.

NIVEL CALIDAD
1 Muy buena
2 Buena
3 Suficiente
4 Insuficiente
5 Mala

2.1.4.2 Calidad de los sedimentos


Dado el amplio rango de “niveles normales” de concentraciones de metales en los
sedimentos encontrado en distintas publicaciones, se han fijado solo cuatro niveles de
calidad, intentando mantener la máxima concordancia con los baremos encontrados en
distintas publicaciones.

NIVEL CALIDAD
1 Muy buena - buena
2 Suficiente
3 Insuficiente
4 Mala

Análisis Exploratorio de Datos


16

También podría gustarte