lunes, 17 de noviembre de 2008

Calidad de Datos vs Resolución de Identidades

El tema de la Calidad de datos es algo que ha dejado de ser un tema restringido a los departamentos de Marketing y a tener unas buenas direcciones para realizar campañas, envíos, etc. Cada día más las empresas ven la importancia de poseer datos de calidad para asegurar que los procesos de negocio no tengan errores, que los informes de BI sean fiables y que los departamentos de ventas, call center o soporte puedan tener la información correcta de los clientes con los que tratan.


Así a día de hoy han aparecido infinidad de proyectos donde se demuestra que la calidad del dato es importante para asegurar el éxito del proyecto. De todos es conocido que uno de los principales motivos del fracaso de algunos proyectos de Business Intelligence es la mala calidad de los datos que residen en el Data Warehouse y que en muchas ocasiones provocan que la informes no sean del todo fiables, esto hace que los principales consumidores de estos informes acaben perdiendo la confianza en los mismos y recurran a la tan socorrida Hoja de Cálculo, donde se aseguran que los datos que aparecen son fiables y que los cálculos han sido hechos según sus criterios.


Otro de los aspectos que cada día cobran más importancia es la capacidad de detectar duplicados o identificar de forma correcta nuestros clientes, para ellos es necesario disponer de procesos que sean capaces de realizar desduplicaciones y matching de nuestros clientes de forma eficiente, a estos requerimientos se unen que en la situación actual, en un mundo globalizado los nombres, la direcciones y los contactos han dejado de ser exclusivos de un idioma y necesitamos ser capaces de extender estas capacidades de búsqueda y desduplicación a diferentes idiomas, con diferentes formatos de nombre y diferentes patrones de fecha, direcciones, etc. Para resolver estas problemáticas podemos recurrir a las aplicaciones de Identity Resolution que se encargan de identificar a nuestro cliente de forma univoca independientemente de que los registros se encuentren estandarizados, limpios o que sean de diferentes idiomas.


En este artículo intentaré explicar las diferencias, ventajas e inconvenientes de utilizar procesos de Calidad o de Identity Resolution en nuestros procesos de tratamiento de datos.

Calidad de datos versus Identity Resolution, ¿Qué hacen?

Lo primero de todo es tener claro que nos puede ofrecer cada una de estas soluciones.
La calidad de datos es un concepto muy amplio, así que para aclarar las cosas utilizaremos los 4 pilares que definía Gartner en junio de 2005 como pilares imprescindibles de una suite corporativa de calidad de datos.


Por eficacia del contacto entendemos la capacidad de limpiar y estandarizar los datos personales como nombres, direcciones y teléfonos. En este apartado es donde tenemos la gran mayoría de herramientas conocidas como normalizadores.

La identificación de relaciones consiste en la capacidad de localizar relaciones entre registros para realizar desduplicaciones (matching), relación de dos o más tablas, detección de unidades familiares o corporativas (householding), etc.

La calidad de datos general nos habla de que la calidad no debe ser implementada sólo a nivel de eficacia del contacto, sino que hemos de ser capaces de limpiar y estandarizar, nombres de producto, cuentas bancarias, tarjetas, o cualquier otro dato de negocio que sea susceptible de errores de calidad. Algunos ejemplos los encontramos en los sectores de distribución, retail y manufacturing, donde la calidad de datos puede ser utilizada para el control de stock, producción o compra de productos, es muy típico encontrar referencias de producto duplicadas por errores de calidad que pueden generar alertas de roturas de stock, sobrecostes de producción o errores en la gestión de compras.

Por último una suite corporativa de calidad ha de poseer herramientas de análisis de la calidad de los datos que nos permitan conocer en todo momento el estado de la calidad de nuestros datos, realizar informes de calidad, monitorizar las fluctuaciones, etc. Esto nos puede ser útil, por ejemplo, en las campañas de marketing, ya que en muchas ocasiones nos encontramos que una campaña puede ser lanzada por diversas vías (telefónica, mailing postal, e-mail, etc) y saber el estado de la calidad de esos campos nos puede ayudar a escoger el mejor medio para realizar nuestra campaña, imaginaros lo útil que puede ser para un director de marketing saber que el campo e-mail sólo es fiable en un 30% o que el campo dirección sólo es correcto en un 50%, de esta manera podemos elegir la vía que obtenga un mayor nivel de impactos correctos y de la misma forma no enviar la campaña a aquellos contactos que sabemos que sus datos no son correctos o no están estandarizados, ahorrando así todos los costes asociados por impactos fallidos.

Todos estos puntos son los que deberemos considerar cuando hablamos de herramientas de Calidad de Datos Empresarial.

...continuará, en breve.