Data Quality Management (DQM)

La Gestión de la Calidad de los Datos se centra en la planificación, implementación y control de actividades orientadas a garantizar la calidad en los datos, las cuales se aplican sobre técnicas de medición, valoración y mejoramiento de los datos.

Planificación

  • Definir las métricas de calidad: estas métricas deben estar relacionadas a indicadores de calidad (DQI), los cuales a su vez estarán con base a las dimensiones de la calidad.
  • Definir las reglas de negocio de la calidad: ¿Qué esperan las áreas funcionales de negocio sobre la calidad de los datos y el comportamiento de los sistemas ante esta? Es la pregunta que pretende responder esta activad. Tener las reglas de negocio definidas permitirá establecer controles en los sistemas, bien por configuración o desarrollo. Esta actividad, junto con la definición de las métricas, permite establecer los rangos para el control de los indicadores de calidad, así como establecer notificaciones y procedimientos antes situaciones de error en los datos.
  • Establecer y evaluar los niveles de servicio de la calidad de los datos: Una vez identificados los rangos de control sobre las métricas de la calidad y las reglas de negocio, debemos establecer los tiempos de resolución de problemas con los datos si la calidad de estos supera los umbrales definidos en los controles.

Desarrollo

  • Definir los requerimientos de calidad de datos: Para poder realizar esta actividad debemos tener claridad sobre el contexto sobre el cual los datos serán utilizados. En tal sentido el paso previo será identificar el uso de los datos desde el punto de vista de negocio y técnico. Es necesario entender cómo los errores en los datos pueden impactar al negocio. Teniendo definidos estos requerimientos tendremos visibilidad sobre los criterios de aceptación y márgenes de tolerancia.
  • Identificar el perfil de la calidad de datos, analizar y valorar: Perfilar la calidad de los datos (Data Quality Profiling), es un proceso que persigue obtener una valoración de los datos a través de un análisis completo de estos, lo que conlleva por ejemplo un conteo de todos los registros de una tabla, los tipos de datos, porcentaje de nulos, relaciones de integridad a través de claves primarias y secundarias (integridad referencial), registros duplicados, etc.
  • Probar y Validar los requerimientos de Calidad de Datos: Aun cuando se hayan definido los requerimientos de negocio de la calidad, tendremos que probar y validar en qué medida los datos cumplen con estos. Una vez validado el estado de los datos contra los requerimientos podríamos establecer una línea base sobre la calidad de los datos dentro de una organización.
  • Diseñar e implementar procedimientos operacionales para realizar la gestión de la calidad de datos: esta actividad sugiere una mejora continua en la calidad de los datos, por lo que se recomienda se centre en tareas cíclicas, orientadas a la inspección y monitoreo, diagnóstico y evaluación, resolución y reporte.

Operacionales

  • Desarrollar y promover la conciencia de la calidad de datos: consiste en divulgar constantemente la importancia y beneficios en tener una buena calidad en los datos. Se recomienda ejercer un liderazgo de arriba hacia abajo (top-down), esto es, desde los jefes y directores hacia los mandos medios y llegar a los colaboradores operacionales.
  • Limpiar y corregir los defectos de la calidad de los datos: Una vez que se han identificado incidentes y defectos en los datos estos deben ser corregidos principalmente a través de los siguientes 3 mecanismos: 1) Corrección Automatizada: cuando el defecto es evidente y aplica a conjunto de datos, estos se modifican aplicando el mismo criterio de corrección de manera masiva y de forma automatizada. 2) Corrección Directa: aplica en defectos que son menos evidentes que pueden ser corregidos de forma automática pero no masivamente. 3) Corrección Manual: defectos muy particulares cuya corrección automatizada no merece la pena de acuerdo a una relación costo/beneficio y cuyo grado de complejidad en la automatización es elevado, por lo que se requiere de una corrección de forma manual.

Control

  • Medición y monitoreo continuo: la calidad de los datos no es un proceso puntual, por el contrario, se trata de un proceso continuo que garantice la operación de la organización y su rentabilidad. Se deben establecer procesos de mejora continua, basados en las reglas de negocio, sus requerimientos y los perfiles de los datos. Esta actividad es transversal, incluye la participación de los usuarios de negocio, tomando su respectiva responsabilidad en el mantenimiento actualizado de las reglas de negocio, métricas y entrada de datos.
  • Gestionar los incidentes (issues) de la calidad de datos: Una vez identificado una incidencia sobre los datos, se debe gestionar integralmente su resolución. Esto incluye: la clasificación y priorización de los incidentes por parte de los usuarios, notificar a los Data Stewards sobre los incidentes y sus impactos, diagnosticar la causa raíz, resolver los incidentes en lostiempos establecidos en los acuerdos de servicios y hacer seguimiento y control sobre la correcta resolución.

 

 

La Calidad de los Datos hace referencia al término o concepto reconocido y utilizado por profesionales de la gestión de datos para describir una característica o atributo que deben tener los datos para poder ser medidos o evaluados con los estándares definidos, con el fin de determinar el grado de calidad de los mismos.

La responsabilidad en la calidad de los datos es compartida y visualizada de manera transversal dentro de la estructura organizativa, procesos de negocio y técnicos.

Realizar una eficiente gestión de la calidad de los datos es precisamente aumentar su utilidad orientada al óptimo funcionamiento de las operaciones de negocio y la toma de decisiones, aumentando como consecuencia la rentabilidad de la organización y el retorno de sus inversiones. Una mala calidad de datos provoca errores, por ejemplo, en el Business Intelligence.

Las organizaciones deben medir el impacto de la mala calidad de los datos en términos de costo, reputación, el cumplimiento de normativas, procesos de negocio, etc.

Los datos, en general, tienen valor cuando se apoyan a procesos de negocio o la toma de decisiones de la organización. Las normas de calidad de datos acordados deben tener en cuenta el valor que los datos pueden proporcionar a una organización. Si se identifica que los datos tienen un valor muy alto en un contexto determinado, entonces esto puede indicar que se requieren normas de calidad de datos más rigurosos en este contexto.

Las organizaciones deben seleccionar las dimensiones de calidad de datos y sus umbrales de aceptación asociados con base a su contexto de negocios, los requisitos, los niveles de riesgo, entre otros.  Un enfoque típico de Evaluación de la Calidad de Datos puede ser:

  • Identificar qué elementos de datos deben ser evaluados por la calidad de datos, normalmente serán elementos de datos considerados como críticos para las operaciones de negocio y asociados a informes de gestión.
  • Evaluar cuál de las dimensiones DQ (Data Quality) se utilizarán y su ponderación asociada para determinar la calidad en su conjunto total.
  • Para cada dimensión DQ (Data Quality), definir los valores o intervalos que representan datos de buena y de mala calidad. Debemos considerar que como un conjunto de datos puede soportar múltiples requisitos, puede ser necesario realizarles una serie de evaluaciones.
  • Aplicar los criterios de evaluación a los elementos de datos.
  • Revisar los resultados y determinar si la calidad de los datos es aceptable o no.
  • En caso de tomar las acciones correctivas apropiadas, por ejemplo, limpiar los datos y mejorar sus procesos de gestión para prevenir recurrencias futuras.
  • Repetir lo anterior en forma periódica para vigilar las tendencias en Calidad de Datos.


 

Aplicación de las Dimensiones DQ a un conjunto de datos (Data Set)

Completitud

Lo más importante para identificar la completitud de los datos es conocer la regla de negocio que define este término dentro de una organización. Es decir, ¿qué es completitud de los datos para el negocio?, por lo general, representa el 100% de los datos que el negocio ingresa dentro de los sistemas.

La unidad de medición de la completitud es el “porcentaje”. Debemos considerar que, si un dato es mandatorio dentro de una base de datos, ésta forzará a que el atributo esté completo, sin embargo, tendrá que tener validez y precisión.

Consistencia

Se define como ausencia de diferencia, esto se refiere a que los datos tienen que ser los mismos a lo largo de todos los almacenamientos de los sistemas que componen la plataforma TI de una organización.

Los datos se comparan contra sí mismos, en diferentes estructuras de datos. Puede darse el caso que estos datos se encuentren transformados por lo que deberán tener su correcta equivalencia.

La consistencia de los datos se mide en Porcentajes, aun cuando esta Dimensión se relaciona íntimamente con: validez, precisión y unicidad, es posible que exista consistencia sin validez o precisión.

Unicidad

La Unicidad va relacionada con la regla de negocio que la exige, así por ejemplo los identificadores tales como: códigos de clientes, de productos, etc, por definición de negocio deben ser únicos, esto es, no debe haber 2 códigos iguales para diferentes clientes. Por lo tanto, este identificado define un ente como único dentro del sistema.

La Unicidad de los atributos se mide contra sí mismo o contra su contraparte en otro conjunto de datos. Fundamentalmente esta dimensión está relacionada directamente con la Consistencia.

 Validez

Por definición los datos son válidos si además de ofrecer el sentido semántico cumple con las reglas sintácticas en términos por ejemplo de formato,  tipo, rango, etc. De esta forma, un dato es válido si está almacenado en la correcta forma de acuerdo a la regla de negocio que lo describe, si es entero, decimal, string, máximos y mínimos valores permitidos, entre otros.

La medición de la validez se centra en la comparación del dato con su metadata o con la documentación que soporta su definición. La dimensión de Validez se mide en porcentaje y está directamente relacionada con la precisión, completitud, consistencia y unicidad.

Precisión

La precisión es el grado en el cual los datos describen correctamente una situación en evento real. Esta dimensión hace referencia a la confianza sobre la información que se genera a partir de un conjunto de datos, por ejemplo, en términos numéricos, tiempo, etc.

Mediremos la precisión sobre el porcentaje de datos que pasan las reglas que definen qué se espera como preciso. Está íntimamente relacionada con la dimensión de validez, un dato no puede ser preciso si no es primero válido. Cuando un dato es impreciso aun cuando sea consistente no puede ser utilizado en la toma de decisiones.

Oportunidad (Timeliness)

Esta dimensión representa el grado en el cual los datos representan la realidad desde el punto en el cual son requeridos. Cuándo requerimos los datos, y de cuándo son dichos datos.

Se mide por la diferencia de tiempo, días, meses, años, etc. Oportunidad está íntimamente relacionada con precisión, así, datos muy antiguos en un contexto determinado pueden ser imprecisos para la toma de decisiones.

 

 

 

Este sitio web utiliza cookies para que usted tenga la mejor experiencia de usuario. Si continúa navegando está dando su consentimiento para la aceptación de las mencionadas cookies y la aceptación de nuestra política de cookies, pinche el enlace para mayor información.plugin cookies

ACEPTAR
Aviso de cookies