Saltar al contenido principal
enero 7, 2025

Data Quality en Microsoft Purview Data Governance

La versión de Purview liberada por Microsoft en septiembre de 2024 marca un hito importante en lo que al gobierno del dato se refiere. Incluir la parte de Data Quality ha sido, sin lugar a dudas un gran avance y con ellos cubren una de las necesidades más demandadas por los equipos de Datos de las organizaciones.

Gracias a la posibilidad de monitorear la calidad de los datos, una organización (o equipo) dispone de la opción de identificar el estado de salud de sus sistemas fuente. Es decir, esas aplicaciones que crean (en muchas ocasiones) los datos que posteriormente se deben consumir y enriquecer para proveer de valiosos Insights a negocio. Pues eso, con este tipo de herramientas el equipo de Gobierno del Dato puede «sacar» los colores a aquellos equipos que han desarrollado aplicaciones que «se tragan» casi cualquier cosa con los tan empleados cuadros de texto libre y que, por supuesto, no han tenido en cuenta las recomendaciones del CoE de Data para aplicar esas buenas prácticas en el desarrollo de los sistemas de inserción de datos.

Esto puede parecer un reproche, pues eso es lo que es. Los equipos de desarrollo en muy pocas ocasiones incorporar a expertos en el Dato, y eso se traduce (normalmente) es inconvenientes con la soberanía y el cumplimiento de normativas (GDPR, HIPAA…), integraciones (Borrados físicos, falta de PK, no forma de gestionar Deltas…), performance (Inexistencia de soluciones como mirroring sobre el operacional que evite bloqueos entre este y el analítico), la calidad (como estamos viendo ahora),… Por todo esto y más, por favor organizaciones, contratad expertos en datos y darles responsabilidad para actuar de forma cross en la compañía o nunca seréis de verdad un empresa orientada al Dato. Reivindico al CDO (pero colgando en plaza, no colgando del CTO o similar).

Pues eso, que gracias a la posibilidad de crear distintos tipos de reglas de calidad y asignarlas a los atributos de los distintos activos de datos, Microsoft Purview te permite monitorear el desempeño y encontrar la causa raíz de los problemas que en muchas ocasiones negocio pone de manifiesto: direcciones, teléfonos, DNI / NIE / CIF, etc., incorrectos. Y a su vez, eso sirve al equipo de Datos para ir al equipo de desarrollo y proponer mejoras que solucionen los problemas aguas abajo. Nunca es tarde para evolucionar una solución de datos y alinearla a los estándares y buenas prácticas del Gobierno de Datos.

Este es un ejemplo de cómo se vería la parte de monitoring de un activo de datos. En este caso se trata de un fichero Delta Lake persistido en un Azure Data Lake. Lo que vendría a ser la capa Bronze en caso de usar una aproximación Lakehouse.

Si se pulsa sobre las reglas de calidad activas, se puede acceder al detalle de qué tipo de reglas son y sobre que conjunto de atributos actúan. En el ejemplo son reglas básicas como detectar campos vacíos o en blanco y que los valores sean únicos. Existe la posibilidad de customizar las reglas de calidad si no existe ese tipo que desees incluir e incluso Microsoft Purview dispone de un ayudante para la definición de las propias reglas de calidad.

Y como indicaba, si se quiere crear una nueva regla, tan sencillo como pulsar el botón ‘+ New rule’ y seleccionar o customizar tu propia regla.

Microsoft Purview es una herramienta de Gobierno del Dato que no para de crecer e incorporar nuevas funcionalidades. Además, se integra perfectamente con otras soluciones que amplían sus capacidades, como es el caso de Profisee o CludeIn para la gestión de Datos Maestros y obtención de Golden Records. Es decir, cuando pienses en Gobierno, trata de identificar los principales puntos de mejora que requeriría tu organización y busca esa solución que cubra el mayos número de ellos y también ten presente las combinaciones de soluciones, que hay muchas: Purview + Unity Catalog por ejemplo.

 

*Artículo publicado previamente en la web https://alb3rtoalonso.com/ 

Autor
Alberto Alonso
Microsoft Data Platform MVP, Sales Specialist Data & AI