jueves, 26 de febrero de 2009

Calidad de Datos vs Resolución de Identidades II

Las soluciones de resolución de identidades (identity resolution) se están conviertiendo cada día más en un componente clave de cualquier solución de calidad de datos, más si cabe en un mundo cada día más globalizado, donde los procesos de identifiación de lcientes, calidad, etc ya no están supeditados a un solo idioma.


El concepto de Identity resolution es muy sencillo, el objetivo es poder identificar a un contacto de forma correcta. Pero bajo este concepto aparecen diversas problemáticas que hemos de ser capaces de solucionar. Estas problemáticas pueden ser causadas por diversos motivos, por ejemplo errores de entrada en los datos, diferencias entre idiomas, errores de secuencia, concatenación de nombres, etc.

Entre las problemáticas más comunes tenemos:
Sequence errors. Son los errores producidos por una alteración en el orden en que los datos son entrados, por ejemplo podemos tener una entrada donde el nombre del contacto aparezca como Stephen Smith o como Smith Stephen.
Concatenated names. Es muy típico encontrarnos con nombre que pueden escribirse de forma separada o no, produciendo así errores de concatenación como Ana María o Anamaría.
Nicknames and aliases. Los apodos, alias o diminutivos son otro de los componentes que pueden causar errores, un ejemplo muy típico en España puede ser José, Josep, Pepe, Pep, etc o en el caso de nombre ingleses también podemos encontrarnos con Chris, Christine, Christoher, Tina, etc.
Abbreviations, cuando se introducen datos desde el Data Entry cada persona tiene su forma particular de introducir abreviaciones o expresiones así nos podemos encontrar ejemplos como Mª/María, Mkg/Mkt/Marketing, Dpt/Dpto/Departamento, Tel./Tlfno./Tlfo/, etc.
Unpredictibe use of initials, el uso de iniciales en la entrada de nombres, caso como J. M. Garcia puede ser interpretado como José Manuel, Juan Manuel, José María, etc.
Phonetic errors or Foreign sourced data, los datos de personas de otros idiomas pueden ser malinterpretados ya sean por errores fonéticos o simplemente por traducciones del nombre en el idioma original, en este punto me gusta exponer siempre el ejemplo del nombre ucraniano Шевченко que puede ser escrito en Inglés como Shevchenko, en francés como Chevtchenko y en polaco como Szewczenko. Hay un ejemplo que la gente de España tiene muy presente y que todos recordaran como insistía el político Carod Rovira en refirmar que su nombre es Josep Lluís y no José Luís.
Estos son sólo algunos de los errores típicos que nos podemos encontrar a la hora de trabajar con identidades, existen muchos otros como errores de escritura, prefijos, Missing tokens, transposed characters, etc.

El gran problema que nos encontramos es que las herramientas de calidad de datos operan sólo con aquellos datos que pueden estandarizar y limpiar y muchos de estos casos no son fácilmente estandarizables, de esta forma todos aquellos datos que se consideran no estandarizables o incorrectos no son utilizados a la hora de realizar una desduplicación o un matching, motivando errores a la hora de detectar duplicados o identificar un contacto.

Otra de las grandes problemáticas es la imposibilidad de realizar comparaciones entre módulos de diferentes idiomas, de esta forma se hace imposible cruzar un listado de clientes inglés con un listado español para encontrar duplicados, ya que los diccionarios utilizados para matching suelen ser diferentes y no permiten ese tipo de desduplicación.

Las soluciones de Identity resolution solucionan esta problemática permitiendo detectar todo estos errores, para ello utilizan todos los datos, estén o no estandarizados y diferentes técnicas de detección y comparación de datos.

Las herramientas de calidad de datos suelen utilizar técnicas de lógica difusa (fuzzy logic) para realizar el matching de registros, en el caso de las herramientas de Identity resolution se utiliza una combinación de técnicas y algoritmos.



Este tipo de soluciones puede ser muy útil en diferentes sectores y diversos tipos de proyectos. Los proyectos más comunes que pueden necesitar de soluciones de resolución de identidades son:
• Customer Inquiry
• “Customer” Identification
• Account Number Confirmation
• Data Warehouse & Account Consolidation
• Marketing Database
• Mail Campaigns
• Certified Global Address Standardization
• Call Center
• Duplicate Discovery & External File Matching
• Address Searches
• Directory Inquiries
• Human Resources
• New Customer / Account Screening
• Credit Card / Loan Application Screening
• Fraud Investigation
• Welfare Eligibility & Tracking
• Healthcare & Community Services
• Police, Court & Intelligence Systems
• Tax Systems
• Customs & Immigration
• Company & Business Registers
• Patent & Trade Mark Registers
• License & Vehicle Registers
• Data Warehouse & Data Consolidation
• Fraud Investigation & Debt Recovery
• Criminal Justice Information Systems & Criminal History Systems
• Persons of Interest
• Intelligence & Case Management Systems
• Missing and Runaway Persons
• Stolen Property
• Border Control
• Data Consolidation or Linking across Jurisdictions
• Patient Inquiry
• Provider Inquiry
• Disease & Pathology Tracking Registries
• Pharmaceutical or Poison’s Databases
• Immunization Database
• ID Confirmation
• Fraud Discovery & Investigation

Como podéis comprobar la lista es bastante extensa, todo y que a priori pudiéramos considerar que la resolución de identidades no es importante, son muchos los procesos que pueden verse beneficiados del uso de esta tecnología.

Me gustaría acabar este artículo explicándoos una anécdota que me ha sucedido este pasado Enero. Como os comento en enero tuve que realizar un viaje a Estados Unidos para una convención de empresa, al llegar al aeropuerto de Nueva York (JFK) me retuvieron en el control de pasaportes y me llevaron a una sala anexa. Cuando pregunte que es lo que sucedía me indicaron que debían hacer una comprobación rutinaria, media hora más tarde una amable policía me devolvió mi pasaporte y me explico que el problema había sido que tengo un nombre “demasiado común” y que habían tenido que cotejar la lista de personas sospechosas que aparecían con mi nombre con todos mis datos para asegurarse que no era ninguno de ellos, os podéis imaginar lo primero que me vino a la cabeza “necesitan un sistema de identity resolution”.