2-Dimensiones de Calidad
2-Dimensiones de Calidad
2-Dimensiones de Calidad
• Multi-dimensionalidad de la calidad
– Concepto de dimensión de calidad
– Jerarquía de conceptos de calidad: factores, métricas y
métodos de medición
Multi-dimensionalidad de la calidad
• La calidad se caracteriza vía múltiples
dimensiones o atributos que ayudan a calificar los
datos.
• Dimensión de calidad:
– Una dimensión captura una faceta (a alto nivel) de la
calidad.
– Ejemplos:
• Frescura: los datos son recientes/actualizados.
• Exactitud: los datos son exactos/correctos.
• Completitud: disponemos de todos los datos.
1
Multi-dimensionalidad de la calidad
• Factor de calidad:
– Un factor representa un aspecto particular de una dimensión de
calidad.
– Ejemplo: Varios aspectos de la dimensión Exactitud son:
• Exactitud semántica: si los datos representan entidades/estados del
mundo real.
• Exactitud sintáctica: si los datos no tienen errores sintácticos.
• Precisión: si los datos tienen el suficiente nivel de detalle.
– Un factor puede ser más adecuado que otro para algún tipo de
problema o aplicación.
2
Algunas propuestas
• ISO/IEC 25012
– Presenta las dimensiones de calidad de datos para los Sistemas de
Información
Algunas propuestas
• D. M. Strong, Y. W. Lee, and R. Y. Wang, “Data quality in context,” Commun.
ACM, vol. 40, no. 5, pp. 103–110, May 1997.
Categoría Dimensiones
3
Medición de la calidad
• Métrica de calidad:
– Una métrica es un instrumento que define la forma de medir un
factor de calidad.
– Se debe definir:
• La semántica (cómo se mide).
– Ej. cantidad de valores nulos, cantidad de tuplas, tiempo
transcurrido desde la última actualización
• Las unidades de medición.
– Ej. tiempo de respuesta en ms, volumen en GB, cantidad de
transacciones/seg.
• La granularidad de la medida.
– Ej. cantidad de errores en toda la tabla o en un atributo.
– Granularidades típicas: celda, tupla, atributo, vista (conj. de
celdas), tabla, grupo de tablas, fuente
Medición de la calidad
• Método de medición:
– Un método es un proceso que implementa una métrica.
– Es el encargado de tomar una serie de medidas (correspondientes
a una métrica) para una BD concreta.
– La implementación del método es dependiente de la aplicación en
concreto y de la estructura de la BD
– Ejemplo: para medir el tiempo transcurrido desde la última
actualización, se puede:
• Usar timestamps de la BD
• Acceder a los logs de actualización
• Comparar versiones de la BD
• …
4
Ejemplo de conceptos de calidad
• Dimensión:
– Exactitud: Concierne la correctitud y la precisión con que los datos del
mundo real son representados en un sistema de información
• Factor:
– Exactitud sintáctica: Indica qué tan libre de errores sintácticos están los
datos
• Métricas:
– Exact. Sint. Booleana: Un booleano que indica si un dato es
sintácticamente correcto o no. (Ej. un teléfono es correcto o no)
– Desviación de exact. sint.: La distancia a un dato considerado como
sintácticamente válido (Ej. Montevido, Mtdo)
• Métodos:
– CheckRule: Chequea si un dato satisface una regla de formato.
– CheckDictionary: Chequea si un dato se encuentra en un diccionario.
– ComputeDistance: Calcula la distancia entre un dato y el valor más
cercano en un diccionario.
5
Estudio de algunas dimensiones
• Exactitud
• Completitud
• Frescura
• Consistencia
• Unicidad
• Exactitud
• Completitud
• Frescura
• Consistencia
• Unicidad
6
Exactitud (accuracy)
• Intuitivamente, la exactitud indica qué tan precisos, válidos y libres de
errores están los datos:
– ¿Estos datos son lo suficientemente precisos para nuestras necesidades?
– ¿El nivel de detalle de los datos es adecuado?
– ¿Estos datos se corresponden con el mundo real?
– ¿Estos datos tienen errores? Y en tal caso, ¿los errores son tolerables?
– ¿El formato de presentación de los datos es correcto? ¿Es estándar?
Factores de exactitud
• Exactitud semántica (semantic accuracy):
– ¿Los datos de mi SI se corresponden con la realidad?
– Interesa medir qué tan bien se representan los estados del mundo
real en el SI.
7
Factores de exactitud
• Exactitud sintáctica (syntactic accuracy):
– ¿Los datos de mi SI tienen errores sintácticos o de formato?
• Valores mal escritos son difíciles de interpretar por un proceso
– Interesa medir si los valores del SI corresponden a valores válidos
del dominio (no importa si son los valores reales)
Factores de exactitud
• Precisión (precision):
– ¿Los datos de mi SI brindan el suficiente detalle?
– Interesa medir qué tan detallados son los datos del SI.
– Ejemplos:
• Salario: “$10.000” vs. “$10.014” vs. “$10.013,88”
• Fecha: “1977” vs. “julio de 1977” vs. “14/7/1977” vs. “14/7/1977
10:55:32.4”
• Color: “Rojo” vs. “204R-51G-0B”
• Cabello: “Castaño” vs. “Castaño claro cobrizo nº 5”
• Dirección: “J.Herrera y Reissig 565, 11300, Montevideo” vs.
“Montevideo”
8
Comparación factores exactitud
stid name address telephone interview test
• Exactitud
• Completitud
• Frescura
• Consistencia
• Unicidad
9
Completitud (completeness)
• Intuitivamente, la completitud indica si el SI contiene toda la
información de interés:
– ¿El SI representa todos los objetos de nuestra realidad?
– ¿Qué porción de la realidad está representada en el SI?
– ¿Tenemos todos los datos que describen a nuestros objetos?
– ¿Tenemos muchos valores nulos?
Factores de completitud
• Cobertura (coverage):
– ¿Cuántas entidades de la realidad contiene mi SI?
• Mundo cerrado (close world): Una tabla contiene todos los estados de la realidad
que ella describe.
• Mundo abierto (open world): Una tabla puede contener sólo una parte de los
estados de la realidad que ella describe.
– Interesa medir la porción de los datos de la realidad contenidos en
el SI.
– Ejemplos:
• De los clientes potenciales, ¿cuántos conozco?
• ¿Qué porcentaje de las empresas están registradas en la DGI?
10
Factores de completitud
• Densidad (density):
– ¿Cuánta info tengo sobre las entidades de mi SI?
– Interesa medir cuánta info tengo y cuánta me falta sobre
las entidades del SI.
• Exactitud
• Completitud
• Frescura
• Consistencia
• Unicidad
11
Frescura (freshness)
• Intuitivamente, la frescura indica qué tan viejos son los
datos:
– ¿Estos datos son lo suficientemente frescos para nuestras
necesidades?
– ¿Estos datos son todavía vigentes o están obsoletos?
– ¿Tenemos los datos más recientes?
– ¿Actualizamos últimamente los datos?
Factores de frescura
• Actualidad (currency):
– ¿Qué tan vigentes son los datos de mi SI?
• Un SI es una vista de entidades/estados de la realidad (o de BD fuentes
o externas) en un momento dado.
• Cuando la realidad cambia, el SI puede quedar desactualizado.
– Ejemplos:
• Datos de clientes (direcciones, teléfonos,…)
• Saldos bancarios (casa central, sucursales, est. de cuentas, …)
– Interesa medir el desfasaje entre los datos del SI y los datos reales
o de una fuente de datos
actualización
Realidad (o BD fuente) SI
12
Factores de frescura
• Oportunidad (timeliness):
– ¿Qué tan vigentes/oportunos son los datos de mi SI?
• Cuán actuales son los datos para la tarea en mano.
• Los datos de un SI pueden ser actuales pero inútiles por no
llegar a tiempo para un uso específico.
– Ejemplos:
• Cartelera de cursos universitarios que se publica luego de
comenzados los cursos.
• Stock que se actualiza luego que se sacaron las órdenes de
compra en base a cantidades en stock.
– Interesa medir la oportunidad de los datos del SI,
teniendo en cuenta la actualidad y chequeando si el dato
estuvo a tiempo.
Calidad de Datos e Información - 2017 25
Factores de frescura
• Volatilidad (volatility):
– ¿Qué tan inestables son los datos de mi SI?
• Caracteriza la frecuencia con que los datos cambian en el
tiempo.
• Es una característica inherente a la naturaleza del dato.
– Ejemplos:
• Fecha de nacimiento debería tener volatilidad 0.
• Cantidad en stock seguramente tendrá alta volatilidad, es válido
por intervalos de tiempo muy cortos.
13
Estudio de algunas dimensiones
• Exactitud
• Completitud
• Frescura
• Consistencia
• Unicidad
Consistencia (consistency)
• Intuitivamente, la consistencia captura la satisfacción de
reglas semánticas definidas sobre los datos:
– ¿Los datos satisfacen las reglas de dominio?
– ¿Las dependencias funcionales y referenciales se satisfacen?
– ¿Hay contradicciones entre los datos?
14
Factores de consistencia
• Integridad de dominio
– Satisfacción de reglas sobre el contenido de un atributo.
• Ej. edad entre 0 y 120 años.
• Integridad intra-relación
– Satisfacción de reglas entre atributos de una misma tabla.
– Reglas más típicas:
• Dependencias de clave y de unicidad
• Dependencias funcionales
• Dependencias de valores. Ej. Edad = Year (now() – FechaNacimiento)
• Expresiones condicionales (edits). Ej. EstadoCivil = “casado” Edad ≥ 14
• Integridad inter-relación
– Satisfacción de reglas entre atributos de varias tablas.
– Reglas más típicas:
• Dependencias de inclusión (clave foránea, integridad referencial)
• Exactitud
• Completitud
• Frescura
• Consistencia
• Unicidad
15
Unicidad (uniqueness)
• Intuitivamente, la unicidad indica el nivel de duplicación entre los datos.
– ¿Los mismos datos están repetidos en el SI?
– ¿Hay datos contradictorios?
Factores de unicidad
• No-duplicación (duplication-free):
– Hay duplicación si la misma entidad aparece repetida en forma exacta.
• Los valores de la clave y los atributos coinciden (o son nulos en algunas tuplas).
• Ej. <1.234.567-8, “A. Sosa”, 25 años, casado>, .
<1.234.567-8, “A. Sosa”, NULL, NULL>
• No-contradicción (contradiction-free):
– Hay contradicción si la misma entidad aparece repetida con
contradicciones.
• Los valores de la clave pueden coincidir o no.
• Hay diferencias en valores de algunos atributos (no nulos)
• Ej. <1.234.567-8, “A. Sosa”, 25 años, casado>, .
<1.234.567-6, “Andrés Sosa”, 24 años, NULL>
16
Importancia de la exactitud
• Tiene gran impacto en algunos dominios de aplicación, ej. CRM:
– Info de contacto (dir, tel, email) para enviar promociones.
– Info de segmentación de mercado (prof, ingresos, preferencias) para
destinar campañas y propaganda.
• Grandes problemas de exactitud
– Grandes organizaciones reportan problemas en más de un 30% de sus
datos.
• Son muy costosos directa (gastos de envío) e indirectamente (perdida
de oportunidades):
– Experiencia realizada en HP Europa, las oportunidades de venta perdidas
en una promoción (por no poder contactar los clientes) correspondieron a
un 25% de las ventas realizadas en esa promoción.
• Inversiones importantes para corregir problemas de exactitud:
– Promociones y concursos para incentivar el envío de datos de los clientes.
– Es rentable contratar personal (o empresas especializadas) para detectar y
corregir manualmente los errores.
Importancia de la completitud
• Tiene gran impacto en sistemas que recuperan información de fuentes
externas (ej. Internet).
– Necesito saber si accedí a todas las fuentes posibles.
• Ej: todas las compañías aéreas que vuelen a Paris
– Necesito saber si esas fuentes me brindan toda la info relevante.
• Ej. todos los vuelos de Air France.
– Los atributos brindados por cada fuente varían.
17
Importancia de la frescura
• Tiene gran impacto en algunos tipos de sistemas:
Importancia de la consistencia
• La consistencia de los datos es un tema bastante resuelto en BD
relacionales.
– Se definen en los esquemas (ej. clave primaria) y las controla el SGBD.
• Nuevos problemas surgen de la incorporación de datos externos o con
otros formatos (ej. xml)
– Reglas simples como de dominio o de unicidad de la clave pueden no ser
controladas por nadie.
– Se necesita medir esas violaciones para diagnosticar la consistencia de la
BD.
18
Importancia de la unicidad
• Efecto multiplicatorio en sistemas que recolectan
datos:
– Sistemas de data warehousing
– Hubs de servicios y mediadores
– Sistema P2P
Interfaz de acceso
• Defectos de operación
– “garbling” (errores)
19
Enfoques para las dimensiones
• Empírico
– Seleccionan las dimensiones a través de entrevistas a
consumidores de datos.
– A partir de 179, se quedan con 15 y las clasifican en 4
categorías.
– Categorías:
• Intrinsic, contextual, representational, accessibility.
• Intuitivo
– Clasifican las dimensiones en 3 categorías:
• Conceptual schema, data value, data format
Enfoque empírico
20
Enfoque intuitivo
21
Comparación entre definiciones
• Dimensiones de completitud.
22
Relaciones entre dimensiones
• Análogamente, las acciones que puedan realizarse para mejorar un factor de
calidad pueden impactar en otros factores.
23
Relaciones entre dimensiones
• Las correlaciones negativas implican poner en balanza
algunos factores.
– Ejemplos:
• Si se realizan tareas costosas para corregir errores de correctitud
semántica (por ej. de control manual), se puede penalizar al sistema en
sus tiempos de respuesta o en la frescura de los datos.
• Si se integran datos externos para mejorar la completitud, se pueden
introducir duplicados o degradar la consistencia (si los nuevos datos no
satisfacen las reglas de integridad).
• Si se eliminan datos inconsistentes se pierde en completitud.
24
Bibliografía
• Data and Information Quality. Carlo Batini, Monica Scannapieco. Springer. ISBN:
978-3-319-24104-3. 2016.
• Data Quality for the Information Age. Thomas C. Redman. 1996 Artech House Inc.,
ISBN 0-89006-883-6
• The TIQM® Quality System for Total Information Quality Management: Business
Excellence through Information Excellence. Larry English. MIT Information Quality
Industry Symposium, 2009.
Bibliografía
• S. E. Madnick, R. Y. Wang, Y. W. Lee, and H. Zhu, “Overview and Framework for
Data and Information Quality Research,” J. Data and Information Quality, vol. 1, no.
1, pp. 2:1–2:22, Jun. 2009.
• R. Y. Wang and D. M. Strong, “Beyond accuracy: What data quality means to data
consumers,” Journal of management information systems, pp. 5–33, 1996.
• Y. Lee, S. Madnick, R. Wang, F. Wang, H. Zhang. A Cubic Framework for the Chief
Data Officer: Succeeding in a World of Big Data. MIS Quarterly Executive, 2014.
25