Integración y Calidad de Datos: febrero 2010

martes, 23 de febrero de 2010

El portfolio de IBM (IBM Information Management Software)

Para empezar con el análisis de las plataformas de integración de datos he decidido utilizar la clasificación que ofrece Gartner en su último cuadrante de Noviembre de 2009, así que empezaremos por IBM.

La plataforma de gestión de datos de IBM se agrupa bajo la familia InfoSphere Software, esta familia de productos está compuesta por 4 piezas que forman el portfolio de soluciones de Information Management de IBM.

Cada una de estas áreas se identifica con un producto de software de la familia InfoSphere, de esta forma tenemos:

Master Data Management --> IBM InfoSphere MDM Server

Data Warehousing --> IBM InfoSphere Warehouse

Information Integration --> IBM InfoSphere Information Server

Design & Governance --> IBM InfoSphere Foundation Tools

Para los que ya conocíais un poco el portfolio de IBM, diríamos que esta es la nueva estructura o familia de productos que viene de lo que se conocía como IBM Information Server y anteriormente como DataStage, parte de la familia de Rational y algunos módulos de WebSphere.

A continuación os detallo los módulos o aplicaciones que contiene cada producto:

Os puedo asegurar que hacer este cuadro de resumen de los productos no ha sido fácil, ya que al cambiar IBM recientemente las versiones de producto, nombres y distribución de los mismos no existe información actualizada de todos los componentes.

Para el objetivo de nuestro artículo los productos de MDM y Warehouse no los englobaríamos dentro de las herramientas puras de integración y calidad de datos, así que ahora nos centraremos en los productos que componen las Foundation Tools y el Information Server.

A continuación haremos una breve explicación de las características de cada producto. Todos los productos empiezan con el nombre de la familia InfoSphere, con vuestro permiso omito esta palabra.

Information Services Director, es uno de los componentes clave de la plataforma de integración de IBM. Services Director proporciona un mecanismo común para publicar y administrar servicios compartidos entre las funciones de Data Quality, Data Integration y Federation. Es también el encargado de enlazar estas aplicaciones con sus metadatos y contiene los servicios de logging, reporting, security, administration, etc. Creo que el gráfico adjunto refleja las funciones principales del Information Services Director.

Change Data Capture, este componente ahora llamado IBM InfoSphere Change Data Capture era lo que conocíamos como DataMirror, este servicio permite la captura de datos en tiempo real para trabajos de estracción de datos (DataStage Jobs).

Este tipo de tecnología a día de hoy tiene un impacto muy bajo sobre el rendimiento de las bases de datos ya que actualmente se utiliza lo que se conoce como Log-based sourcing que es un control de cambios basado en la monitorización de log en lugar de la utilización de triggers de antaño. Actualmente IBM ofrece esta funcionalidad para DB2, Oracle y SQL Server y anuncian que en la próxima versión ya estará disponible también para Informix y Sybase.

DataStage y QualityStage, son los 2 productos core de Information Server, el primero ofrece las funcionalidades de desarrollo de Data Flows, como los llama IBM, o procesos de extracción de datos desde multiples orígnes, capacidades de tranformación y por último entrega sobre DDBB o aplicaciones de destino. Es el componente ETL de la solución. QualityStage proveee de funcionalidades de Data Quality a Information Server, en la versión 8,1 IBM anuncia que han ampliado las capacidades de verificación y estandarización de direcciones hasta 240 países. Como novedades también destacan nuevas funcionalidades de matching como el MULT_ALIGN Comparison Type o el Unduplicate Transitive Match, esta opción permite agrupar elementos mediante la aplicación de la propiedad transitiva de tal forma que si A coincide con B y B coincide con C, entonces a,B y C forman un grupo de coincidencia (digo coincide porque no me gusta utilizar la palabra matchea como he visto por ahí, si os gusta más podríamos decir hacer matching).

Federation Server, es la funcionalidad que permite crear una vista de datos federados para un acceso rápido a orígnes de datos, se utiliza por ejemplo para evitar tener que mover los datos físicamente a una nueva ubicación, con este utilidad podemos crear en una nueva ubicación física un puntero hacía los datos reales (vista federada) se utiliza para creación de prototipos (prototipado es otra palabra que no me gusta), o en procesos de fusiones, migraciones, etc para crear accesos temporales a bases de datos que no han de ser migradas, por ejemplo.

Discovery es una herramienta de automating discovery, permite crear un modelo de datos y relaciones de forma automatizada, es capaz de hacer este descubrimiento en entornos heterogéneos. Esta funcionalidad es básica por ejemplo en los productos de archivado (Data Archiving) y normalmente se conoce como Subsetting. Esta funcionalidad estaba incluida en el producto Optim de IBM y es muy útil para poder hacer extracciones de conjuntos de datos, un ejemplo típico se produce en la aseguradoras cuando quieres extraer los datos de una agencia y quieres que te de las pólizas de esa agencia, independientemente del tipo de póliza, con los clientes, comerciales, productos, etc que estén relacionados para hacer por ejemplo un entorno de pruebas.

FastTrack, es una herramienta de creación de reglas de negocio o de conversión de datos, lo que en otros artículos denominábamos Data Driven Tables. Estas reglas permiten especificar la lógica de negocio necesaria para traducir los datos fuente en un formato de consumo para una aplicación de destino. Por ejemplo, la definición de un cálculo matemático para rellenar una columna de destino, hacer una conversión del dato por ejemplo de M a Male y F a Female, etc.

Estos requisitos de negocio se pueden guardar y volver a utilizarse y servir como una pista de auditoría para las decisiones de diseño realizados durante el proceso de desarrollo o proporcionar información histórica.

Business Glossary es una herramienta web-based para gestionar, administrar, editar y compartir todos los metadatos de negocio y físicos. Es importante destacar este detalle, la misma herramienta permite trabajar con Business Metadata y Phisycal Metadata, la diferencia radica en que los metadatos físicos se centran en la definición de la estructura de los datos, localización, etc, mientras que los metadatos de negocio se centran en las características de la información, su uso y las reglas de negocio aplicables a los mismos. Este tipo de herramientas suelen ser visuales y muy intuitivas.

Information Analyzer es una herramienta de análisis de datos desde el punto de vista de su calidad, formato, precisión, longitud, compatibilidad, validez, etc. Otros fabricantes denominan a este tipo de herramientas, herramientas de perfilado de datos. Son muy útiles para entender exactamente qué es lo que tenemos dentro de los orígenes de datos y permite hacer un análisis previo a cualquier proceso de integración. Suelen incluir análisis de columnas, tablas y entre tablas para detectar inconsistencias, foreign keys, etc.

Data Architect, es una herramienta de diseño y modelado de datos. Esta herramienta permite optimizar el modelo de datos de nuestros orígnes, así como de las nuevas fuentes que vayamos generando. IBM facilita con esta herramienta modelos predefinidos para diferentes tipos de datos e industrias, permitiendo que personalicemos y realicemos cambios sobre estos modelos. Como funcionalidades Data Architect permite crear un modelo lógico y físico de datos, definir los atributos de los datos, incluidas las limitaciones de dominio y los atributos de privacidad, descubrir, explorar y visualizar la estructura de las fuentes de datos y descubrir, identificar, comparar y sincronizar la estructura de dos fuentes de datos.

La nueva versión de esta herramienta ofrece integración con IBM Rational Software Architect, Eclipse 3.2 y IBM Information Server; asignaciones adicionales y un soporte ampliado para XML, DB2 V9, Sybase, Informix y MySQL.

Metadata WorkBench, es la herramienta de trazabilidad y linaje de datos. Permite hacer un análisis de impacto de los procesos de integración o bien realizar trazabilidad inversa para ver de dónde salen los datos de un informe de BI, etc. Este tipo de funcionalidades son requeridas por ejemplo por regulaciones como Basilea II o Sarbanex-Oxley.

Bueno, espero que con toda esta información os podáis hacer una idea del portfolio de integración de IBM, a modo de resumen diríamos que el producto de Integración y Calidad de datos es el IBM InfoSphere Information Server y que podéis añadir funcionalidades a este producto mediante las herramientas que se incluyen en el InfoSphere Foundation Tools.

Por último y como os decía en el post “Las Plataformas de integración y calidad de datos de los principales fabricantes (Introducción)”, creo que viendo el portfolio de IBM entendéis él porque creo que intentar hacer una buena comparativa de productos de integración y calidad de datos es una tarea muy compleja, a no ser que tengas los recursos de Gartner o Forrester, por eso creo que tenéis que ser muy cautos a la hora de analizar las comparativas que circulan por la red donde se pueden ver tablas donde comparan los productos de IBM, Informatica, Oracle, SAP, Talend y por ejemplo Pentaho, en base a 7 u 8 parámetros del tipo coste, riesgo, facilidad de uso, desarrollo, velocidad, escalabilidad, conectividad y soporte y te dan una puntuación sin más, sin explicar que productos realmente han sido los analizados, con que módulos instalados, en base a qué tipo de procesos, etc.

Bueno y para el mes que viene iremos a por Informatica. Hasta entonces espero vuestros comentarios.

miércoles, 10 de febrero de 2010

Informatica Adquiere Siperian

Nota oficial de Informatica Corporation:

MADRID, 1 de febrero de 2010. — Informatica Corporation (NASDAQ: INFA), el número uno mundial de los proveedores independientes de software de integración de datos, anuncia que ha completado la adquisición de Siperian, líder en tecnología de infraestructura para la Gestión de Datos Maestros (MDM). MDM proporciona una visión única y holística de todas las entidades fundacionales del negocio, comúnmente llamados datos maestros, como por ejemplo datos de clientes, empleados, ciudadanos, ubicaciones y productos. Los proyectos MDM exitosos facilitan una mejor eficiencia operacional, una alta fidelidad de los clientes y la eficiencia en los esfuerzos de cumplimiento normativo.

Informatica adquirirá Siperian, sobre una base completamente diluida, por aproximadamente 130 millones de dólares en efectivo.

"La compra de Siperian ampliará el mercado potencial de Informatica con una categoría tecnológica adyacente de alto crecimiento, la infraestructura MDM, y reforzará nuestras importantes relaciones estratégicas", señala Sohaib Abbasi, presidente y CEO de Informatica. "Informatica Data Integration y Data Quality poseen un probado historial e éxito en proyectos MDM. Juntos, haremos avanzar a Informatica como líder en este apasionante campo de la Infraestructura MDM".

Para los proyectos MDM, los clientes tienen a su disposición productos de infraestructura y aplicaciones que abarcan desde soluciones personalizables a soluciones empaquetadas “llave en mano”. Siperian e Informatica ofrecen productos líderes en la categoría de Infraestructura MDM que complementan y posibilitan las Aplicaciones MDM. De acuerdo con un informe independiente, el 49% de las organizaciones estaban planteándose implementar o ampliar el uso del software MDM en 2009 (“Tendencias 2009: Gestión de Datos Maestros, MDM”, Forrester Research, Inc., octubre de 2009). Otra firma analista líder prevé un gasto de software en 2010 en el mercado de Infraestructura MDM de 1.000 millones de dólares, la mitad del mercado de software MDM total, con una tasa de crecimiento del 20%.

Siperian es un galardonado pionero que ofrece tres capacidades bien probadas y diferenciadas. Siperian suministra una plataforma MDM multi-dominio para optimizar las decisiones de negocio a lo largo de múltiples entidades o consideraciones. Con capacidades de sencilla configuración, Siperian acelera la obtención de resultados. Y, con métricas de calificación preconstruidas sobre la fiabilidad, los usuarios del negocio tienen una mayor confianza en sus datos maestros.

La nueva categoría de Infraestructura MDM amplía el mercado potencial de Informatica. La arquitectura unificada existente y la integración de productos, basados en la tecnología común Informatica Identity Resolution, facilitarán las oportunidades de ventas cruzadas para los productos Informatica Data Integration y Data Quality. La combinación de los productos Siperian y la completa Plataforma de Informatica ofrecerán un valor aún más distintivo a los clientes que utilicen Informatica B2B Data Exchange para compartir los datos maestros a lo largo de la red de partners en la cadena de suministro.

"Siperian es un reconocido líder y proporciona la única plataforma probada MDM multi-dominio del mercado", señala Peter Caswell, CEO de Siperian. "En combinación con Informatica, estamos mejor posicionados para suministrar una completa gama de soluciones de integración y gestión de datos que capacitan a las actuales empresas basadas en datos".

Más de 60 clientes en todo el mundo confían con éxito en Siperian, incluyendo a líderes en la industria de ciencias de la vida y servicios financieros. Entre estos clientes, figuran Pfizer, Shire, Bank of America, State Street Bank y Lexis Nexis. Un estudio sobre 400 proyectos MDM, elaborado por la firma analista Aberdeen Group, concluyó que las organizaciones que han confiado en Siperian lograron resultados de negocio más de un 50% mejores, en función de las tasas de retención de clientes y ventas cruzadas, frente a aquellas que confiaban en IBM.

Siperian fue fundada en abril de 2001 y tiene su sede central en Foster City, California.

martes, 9 de febrero de 2010

Análisis del portfolio de integración y calidad de datos de los principales fabricantes (Introducción)

Hasta ahora en los artículos que he ido publicando en este blog me he centrado en las funcionalidades y los conceptos básicos de la integración de datos, no entrando a analizar las funcionalidades de cada producto, todo y que hemos comentado algunas de ellas cuando hemos hablado de anuncios de nuevas versiones, publicación de cuadrantes de Gartner, Forrester, etc. A partir de ahora me gustaría comenzar una serie de artículos donde podamos analizar el portfolio de soluciones de integración y calidad de datos que nos ofrecen los principales fabricantes.

Como bien me habéis sugerido en varias ocasiones, la última de ellas ha sido la del comentario de Antonio, lo ideal sería poder hacer una comparativa de productos, y lo cierto es que llevaba bastante tiempo trabajando en hacer esta comparativa, pero creo sinceramente que de poco o nada iba a servir. Desde mi punto de vista creo que las comparativas de producto normalmente suelen ser incompletas, poco objetivas y en la mayoría de ocasiones poco útiles para poder decidir que producto es el más conveniente para nuestro propósito.

No conozco a nadie que sea capaz de decidir una compra de un producto de integración basándose en los datos de una comparativa, creo que una buena elección se tiene que fundamentar en muchos otros valores y condicionantes como ya os comentaba en el artículo Elegir una herramienta de integración de datos.

Otro de los inconvenientes que creo que se producen en las comparativas de producto es que es muy difícil poder analizar y hacer las pruebas de cada producto de forma completa y objetiva, ya que es complicado disponer de la infraestructura de hardware necesaria para llevar a cabo todas las pruebas y luego el diseño de la batería de pruebas a realizar tiene que ser muy estudiado para que sea independiente del producto a analizar de tal forma que no destaquemos las ventajas o inconvenientes de uno u otro producto de forma partidaria. Por último, y esto es una de las principales quejas de los fabricantes, el equipo que realiza las pruebas puede tener un mayor conocimiento o desconocimiento de un producto y esto puede motivar que el diseño de la solución no sea el optimo. Este último paso creo que es un factor muy importante en las herramientas de integración y de calidad de datos ya que el diseño del proceso de integración debe ser optimizado dependiendo del funcionamiento de cada una de las herramientas analizadas, por ejemplo, no es lo mismo programar un proceso para hacer una join de 2 tablas y generar una tercera tabla, si estas tablas residen todas en el mismo servidor de base de datos o en servidores diferentes y también hemos de tener en cuenta si la herramienta que estamos probando posee un motor de integración propio o es capaz de utilizar el motor de la base de datos, es decir si ha de mover los datos al servidor de integración o bien podemos convertir nuestro proceso en PL/SQL y enviarlo para que sea ejecutado por el motor de la base de datos. Otro claro ejemplo es que un proceso de movimiento de datos con filtrado puede dar un rendimiento muy diferente si las tablas de origen están indexadas, si hacemos un sorter previo, etc.

Por todas estas razones y por muchas otras que no quiero enumerar para no hacerme pesado, creo que intentar hacer una comparativa de los productos existentes actualmente en el mercado sería un despropósito por mi parte, así que lo que creo más honesto es explicaros el portfolio de productos de cada fabricante con el mayor nivel de detalle posible para que podáis entender que herramientas pueden ser útiles para vosotros. Como iréis viendo y supongo que algunos de vosotros ya lo habéis sufrido, entender el portfolio de cada fabricante no siempre es fácil, así que espero hacerlo lo mejor posible.

Un saludo.

Integración y Calidad de Datos

martes, 23 de febrero de 2010

El portfolio de IBM (IBM Information Management Software)

miércoles, 10 de febrero de 2010

Informatica Adquiere Siperian

martes, 9 de febrero de 2010

Análisis del portfolio de integración y calidad de datos de los principales fabricantes (Introducción)

Datos personales

Archivo del blog

Blogs interesantes

Seguidores

Etiquetas