2.analisis Exploratorio de Datos
2.analisis Exploratorio de Datos
2.analisis Exploratorio de Datos
El objetivo de esta tarea es la descripción estadística de los parámetros. Para ello se hace
necesario reducir la dimensión del espacio de los datos originales, sintetizando estos últimos
mediante un conjunto de índices que representen adecuadamente al conjunto de datos
primitivos. Para ello se utilizan estadísticos descriptivos, pruebas de normalidad y de
comparación, asociación y modelización de los parámetros. Se utiliza como herramienta
estadística la aplicación SPSS 11.0 para Windows.
• El análisis se realiza con todos los datos disponibles de las mediciones anuales,
independientemente del número de éstas que se realizaran por año
• Para el análisis se lleva a cabo una reducción de los datos disponibles con el fin de
disponer del mismo número de datos por año.
En tal caso, los años 1988 y 1989, para los que se disponía de cuatro mediciones en cada
uno de ellos, se han reducido a una sola obtenida como mediana de los cuatro valores
disponibles. Sólo ha sido necesario realizarlo para el Zinc y el Arsénico. Es necesario
señalar que las cuatro medidas disponibles estaban realizadas en distintas estaciones.
Dicha decisión se ha tomado para evitar el efecto de sobre valoración que supondrían
dichos años (88 y 89) con respecto a los demás.
La metodología estadística seguida consta de dos etapas. En primer lugar se realiza una
exploración estadística de los datos y posteriormente se lleva a cabo el análisis descriptivo.
A continuación se detalla cada una de estas etapas, pero antes se verán algunos conceptos
estadísticos necesarios para comprender el proceso.
Casos válidos para una variable: Observaciones o puntos de muestreo que tienen
valores conocidos de esa característica.
Casos perdidos para una variable: Observaciones o puntos de muestreo con valores
desconocidos para la variable.
Valores extremos: Datos muestrales que se diferencian claramente de los demás en una
distribución (extremadamente altos o bajos).
Percentil i de una variable: Valor numérico por debajo del cuál se encuentra el i% de las
observaciones y por encima del mismo, el (100-i)%. Hay 99 percentiles, valores
pertenecientes o no a la muestra que la dividen en 100 partes iguales y 3 cuartiles, que
la dividen en 4 partes iguales. El primer cuartil es el percentil 25, el segundo cuartil es el
percentil 50 (la mediana) y el tercer cuartil, el percentil 75. Estas medidas se denominan
de posición y están basadas en la muestra de los valores de la variable ordenada de
menor a mayor y dividida en i partes.
Media aritmética: Suma de las observaciones de una variable en la muestra dividida por
el número de observaciones de la misma.
Mediana: Valor por debajo y por encima del cuál se encuentran la mitad (el 50%) de los
valores observados de una variable. La mediana es una medida de tendencia central
que no es sensible a los valores extremos, a diferencia de la media que puede resultar
afectada por valores muy grandes o muy pequeños. Este estadístico se basa en los
datos ordenados de menor a mayor de manera que, si el número de observaciones es
par, la mediana es el promedio de las dos observaciones centrales.
Desviación típica: Medida de la dispersión de los valores de una variable con respecto a
su media.
La inspección de los datos puede mostrar que existen valores inusuales o extremos,
discontinuidades en los datos u otras peculiaridades, además de ayudar a determinar si son
adecuadas las técnicas estadísticas que se van a considerar en el análisis posterior.
Dicha exploración también puede indicar la necesidad de transformar los datos cuando la
técnica se basa en una distribución normal, o bien, puede ayudar a decidir el uso de pruebas
no paramétricas.
Todas estas medidas, que no son más que estadísticos que resumen los dos tipos de
variables, se determinan tanto en la muestra global como para grupos de casos definidos
por otra variable.
A tal fin, es evidente que se necesita establecer a partir de qué valores se considerará que
las aguas están contaminadas. Es de destacar la dificultad que presenta fijar estos valores,
ya que tanto la composición de las aguas como la de los sedimentos están muy
influenciadas por las características del medio geológico en el que se encuentran, o por el
que discurren, en el caso de las aguas, y puede ocurrir que la composición natural de un
agua o un sedimento presente concentraciones notablemente elevadas de metales o de
sales (sulfatos, cloruros, carbonatos, etc.) cuya procedencia natural conviene conocer para
diferenciarla de una posible contaminación posterior.
Se han realizado múltiples intentos para fijar los denominados “niveles naturales o de fondo”
de las aguas y sedimentos, si bien en la mayoría de los casos estos niveles se han
establecido como rango de valores, que en múltiples ocasiones, son bastante amplios,
especialmente para los sedimentos.
En este contexto se debe comentar que, en diversos estudios, tanto de aguas como de
sedimentos no se fija un solo valor para distinguir entre muestras contaminadas y no
contaminadas, sino que se establecen rangos de valores que permiten clasificar las
muestras según distintos niveles de calidad o de contaminación.
De acuerdo con las características de las zonas muestreadas el criterio seguido para
establecer hasta donde llega la influencia marina en los ríos, ha sido considerar que la zona
estuárica se extiende hasta aquellas muestras con una conductividad superior a 3000
µs/cm, a 25°C. Es de destacar, como excepción, que en zonas sin influencia marina de los
ríos Tinto y Odiel, se han encontrado muestras con conductividades claramente superiores a
los citados 3000 µs/cm, sin duda como consecuencia de sus bajos pH (elevada acidez) y
sus altos contenidos en sales disueltas procedentes del terreno pirítico por el que discurren
estos ríos; en estos casos se han considerado como aguas de río.
Se han fijado cinco niveles de calidad en las aguas al igual que lo indicado en la propuesta
modificada de Directiva del Consejo por el que se establece un marco comunitario de
actuación en el ámbito de la política de aguas” (Diario Oficial de las Comunidades Europeas
108 de 7-4-1998) para la “presentación de los resultados de los controles y clasificación
armonizada de la calidad ecológica”.
NIVEL CALIDAD
1 Muy buena
2 Buena
3 Suficiente
4 Insuficiente
5 Mala
NIVEL CALIDAD
1 Muy buena - buena
2 Suficiente
3 Insuficiente
4 Mala