La plataforma de Informatica Corporation ha ido creándose en base a su producto estrella, Informatica PowerCenter, con la finalidad de dotar a la plataforma de integración de todos los componentes necesarios a la hora de realizar una correcta gestión del intercambio de datos en la empresa. Bajo esa idea, Informatica ha creado una plataforma de integración de datos empresarial que explica con el siguiente gráfico:
Para cada uno de los apartados Informatica ofrece los siguientes productos:
Acceso
- Informatica PowerExchange
- Informatica B2B Data Exchange
- Informatica Cloud
Detección
- Informatica Data Explorer
- Informatica Cloud
Limpieza
- Informatica Data Quality
- Informatica Identity Resolution
- Informatica Cloud
Integración
- Informatica PowerCenter
- Informatica Cloud
Entrega
- Informatica PowerExchange
- Informatica B2B Data Exchange
- Informatica Cloud
Así entendemos que el primer requerimiento que debemos cubrir es la necesidad de acceso y entrega de la información (Access and Deliver), este acceso y entrega deberemos ser capaces de ejecutarlo con diferentes latencias o necesidades de tiempo, para cubrir estas necesidades la plataforma de Informatica ofrece los productos:
Informatica PowerExchange, que es bajo el nombre que se agrupan los conectores disponibles para las diferentes aplicaciones, bases de datos o repositorios de datos.
A día de hoy PowerExchange tiene los siguientes conectores disponibles:
Algunas de las características que debemos destacar es que cuando se adquiere PowerExchange no se adquiere la totalidad de conectores, sino que se contrata el uso de una tecnología, es decir, debemos comprar por separado el PowerExchange para cada una de las tecnologías que necesitamos. Por otra parte la adquisición de un conector nos permite utilizarlo independientemente del número de bases de datos, instancias, procesadores, orígenes o destinos que estén involucrados en nuestro proceso de integración. Por ejemplo, si compramos el PowerExchange for Oracle podemos utilizar este conector para acceder a tantas tablas de Oracle como queramos y entregar en las tablas de destino que deseemos independientemente de en que servidor o base de datos estén esas tablas, el número de procesadores que tenga instalada la Base de datos o el volumen de información que tengamos que intercambiar o procesar. Este detalle es importante tenerlo en cuenta ya que algunos fabricantes licencian los conectores por volumen de datos, número de orígenes o destinos, procesadores, etc.
Informatica PowerExchange ofrece como opción el producto PowerExchange Change Data Capture Option, este producto permite crear procesos de integración incremental de datos, pudiendo realizar traspasos de información de sólo aquellos datos que han cambiado desde el último traspaso. Esta funcionalidad es muy útil para realizar cargas incrementales en entornos DataWarehouse. La principal ventaja de la funcionalidad Change Data Capture es que está basada en la exploración del log de la base de datos o aplicación de origen y en ningún caso utiliza triggers que puedan ralentizar la aplicación de origen. Esta funcionalidad no está disponible para todos los conectores de PowerExchange, en la tabla anterior podréis comprobar para que conectores existe disponibilidad de Change Data Capture (marcados con un punto rojo).
Como complemento a PowerExchnage tenemos la aplicación Informatica B2B, este producto puede ser adquirido como complemento a PowerCenter o de forma independiente, existiendo dos versiones de producto Informatica B2B Data Exchange e Informatica B2B Data Transformation. El objetivo de este producto es dotar a la plataforma de integración de capacidades de intercambio de datos con otros estándares, formatos o incluso permite personalizar el tipo de origen.
La tabla de transformaciones predefinidas de Informatica B2B es la siguiente:
Además de este tipo de transformaciones Informatica B2B permite la creación de tranformaciones personalizadas sin necesidad de generar código, de esta forma podemos de una forma visual establecer una plantilla de transformación de cualquier tipo de formato.
La técnica que utiliza Informatica B2B consiste en realizar un parsing del fichero de origen convirtiéndolo en XML, una vez convertido en XML ya está estructurado y por lo tanto Informatica PowerCenter ya es capaz de tratarlo y entregarlo en el destino correspondiente.
Otra de las ventajas de informática B2B es que todos los estándares predefindos que vienen con el producto se basan en librerías que son actualizadas por el fabricante cuando cambia el estándar. De esta forma si nosotros creamos un proceso de integración de todos nuestros mensajes EDI, Swift, HIPAA, etc, y alguno de estos estándares cambia, sólo deberemos actualizar la librería dentro de Informatica B2B y automáticamente se actualizaran todos nuestros procesos de integración.
Por último dentro del apartado de acceso a la información tendríamos el producto Informatica Cloud. Este producto es la solución de integración de datos empresarial basada en Cloud creada por Informatica, ya que es un producto que engloba prácticamente todas las funcionalidades de integración y no un módulo específico, lo comentaremos de forma separada en otro artículo.
La fase de detección (Discover), es la fase donde se realiza un análisis previo de los datos para detectar posibles anomalías de formato, integridad, cumplimiento, etc, es la fase que muchos fabricantes denominan perfilado de datos. No os volveré a explicar la importancia de esta fase en cualquier proyecto de integración de datos, así que os dejo un enlace a una entrada antigua del blog para que podáis refrescar esa información Migraciones, fusiones y adquisiciones
Para realizar las funciones de perfilado de datos Informatica tiene dentro de su plataforma la herramienta Informatica Data Explorer, esta herramienta realiza un perfilado de datos completo permitiendo el perfilado no sólo a nivel de fila, columna y tabla, sino extendiendo el mismo entre tablas con el fin de encontrar dependencias.
Según Informatica la herramienta aplica más de 500 reglas de perfilado predefinidas a la hora de analizar los datos, de todas formas nosotros podremos definir de una forma fácil e intuitiva las reglas de negocio o de validación que deseamos emplear para perfilar nuestros datos.
Una vez perfilados los datos es posible generar informes sobre los resultados y calidad de los datos perfilados mediante el uso de Cuadros de mando, igual que si de una herramienta de BI se tratará. Informatica Data Explorer es capaz de realizar perfilado de datos sobre cualquier fuente de datos, aquí el secreto radica en que utiliza los conectores instalados en PowerExchange y el motor de acceso de PowerCenter para acceder a los datos y realizar el perfilado.
Entre las novedades anunciadas por Informatica en su última versión (Informatica Data Explorer 8.6) destaca una nueva funcionalidad de importación de datos VSAM e IMS, así como con capacidades mejoradas para la importación de archivos planos y .csv.
Una vez tenemos clara las fases de acceso y detección de datos, la siguiente fase según el modelo de Informatica correspondería a la limpieza de datos (Cleanse). Esta fase no es estrictamente necesaria, pero considero que es de vital importancia realizar una limpieza de los datos a migrar antes de efectuar la migración con la finalidad de asegurar que en el destino nos llegaran los datos ya limpios, estandarizados, desduplicados, con las direcciones completas y validadas, etc.
Para la limpieza de datos la herramienta se llama Informatica Data Quality, esta herramienta también está disponible como producto separado o bien como complemento de la plataforma de PowerCenter.
En el caso de Data Quality hemos de tener en cuenta que como herramienta de Calidad de Datos ya incluye funcionaliades de otras herramientas de la plataforma como puede ser la funcionalidad de perfilado de datos, o algunas funciones propias de la parte de integración para realizar pequeñas transformaciones o movimientos entre formatos de los datos a limpiar.
Actualmente Data Quality funciona con una combinación de diversas técnicas y algoritmos de fuzzy logic. Uno de los puntos fuertes de esta versión es la capacidad de diccionarios de idiomas disponibles, existen actualmente más 60 países soportados.
Por último dentro de las herramientas de detección de datos o limpieza tendríamos Informatica Identity Resolution que es una herramienta encargada de la resolución de identidades, entre sus principales ventajas destaca la capacidad de búsqueda de identidades entre diversos idiomas y alfabetos pudiendo buscar la transliteración de un nombre entre alfabetos cirílicos, árabes, occidentales, etc.
Toda esta plataforma gira alrededor del elemento estrella del portfolio de Informatica que es Informatica PowerCenter. PowerCenter es la herramienta de integración de datos (ETL) y el buque insignia de Informatica. Es una potente herramienta de integración de datos con un motor propio de integración y unas amplias funcionalidades de transformación y tratamiento de datos que se complementa con todos los productos que hemos comentado para ofrecer una plataforma de gestión de la integración unificada.
Como resumen y utilizando el gráfico que mostrábamos al principio de este artículo, podemos decir que los productos de Informatica solucionarían cada uno de los componentes de una plataforma de integración tal y como se muestra en el siguiente gráfico:
Para rematar este artículo me gustaría comentar que toda esta información de la suite de Informatica cambiará en breve ya que como bien sabéis, el fabricante ya ha anunciado el lanzamiento de la nueva versión Informatica 9. Este versión cambia un poco el plantemaiento de la suite y auqnue incluye prácticamente los mismo productos ahora quedan distribuidos en 3 grandes productos o soluciones tecnológicas que Informatica llama:
- Business-IT Collaboration
- SOA-Based Data Services
- Pervasive Data Quality
Además de este nuevo enfoque las herramientas incluyen nuevas funcionalidades y mejoras destinadas sobre todo a optimizar la integración entre toda la suite. Otro de los puntos destacables son los interfaces de administración, esta nueva versión incluye un mayor número de herramientas con interface web-based, a diferencia de las versiones anteriores donde las herramientas anteriores eran cliente- servidor y casi siempre basados en Windows.