lunes, 20 de julio de 2009

Pregunta de Juan Vidal

Hola a todos,

He recibido un comentarío de Juan vidal donde me hace la siguiente pregunta:

"Quería hacerte una consulta referente a herramientas de integración de datos. He trabajado con las herramientas de Data Integration comerciales como SAS y Oracle. Estamos empezando a evaluar herramientas open source, lo que es un mundo totalmente desconocido para mí. La herramienta en cuestión es Pentaho y estamos viendo su solución de data integration que se llama Kettle. Quería preguntarte si conoces esta herramienta y tienes referencias."

Os pongo aquí la respuesta ya que creo que puede ser interesante para todos comentar este tema con mayor profundidad.

Respecto de la pregunta que me formulas, es la pregunta del millón, yo no he trabajado directamente con Kettle, pero sí que he investigado un poco y he cruzado bastantes comentarios con diferentes integradores y fabricantes de software acerca de las herramientas de integración OpenSource ya sean de Pentaho o de Talend que son las más conocidas.

Normalmente los fabricantes te dicen que el OpenSource y en concreto las herramientas de Pentaho no son tan baratas como parecen y que ofrecen muchos inconvenientes en cuanto a funcionalidades y soporte.

Por otra parte los integradores no confían demasiado, ya que normalmente argumentan que suelen ser poco estables, que el desarrollo suele ser bastante complejo y que es difícil disponer de técnicos en el mercado que conozcan estas herramientas.

Por último los analistas como Gartner o Forrester recomiendan utilizar estas herramientas sólo para operaciones básicas de ETL y que cuando se desea una herramienta que ofrezca una visión empresarial y unas capacidades de integración que no se limiten a mover datos entre las principales bases de datos recurramos a herramientas más consolidadas como Informatica PowerCenter, IBM Integration Server (antes DataStage), SAS, Oracle Data Integrator, etc.

Mi experiencia me dice que normalmente los clientes que recurren a estas herramientas lo hacen basándose principalmente en el precio y luego disponen de recursos propios para dedicar al aprendizaje y al desarrollo con las mismas.

En este caso yo lo que te aconsejaría es que evaluarás que funcionalidades requieres para el proyecto que estáis evaluando y luego hagas una valoración un poco más a medio plazo viendo que otros proyectos se pueden beneficiar de tener una ETL y que funcionalidades puedes requerir en un futuro, ya sea a nivel de conectividad (conectores de aplicación, web services, intercambio de ficheros, colas de mensajería, etc) o a nivel de funcionalidades como Calidad de Datos, Alta Disponibilidad, gestión de metadatos, trazabilidad, etc. Cuando tengas esa lista confeccionada comprueba si las herramientas de OpenSouerce cumplen con los requerimientos que tenéis para el proyecto actual y con los que podáis tener a medio plazo.

Sobretodo no os ceguéis con el precio o con el ROI, evalúa primero muy bien las funcionalidades que necesitas y que necesitarás, ya que una vez que adquieras la herramienta la inversión la tendréis que amortizar a 3 ó 5 años y luego te será muy difícil justificar el reemplazo de la herramienta que hayáis elegido si aparecen nuevos proyectos y no puedes abordarlos con la ETL que elegisteis.

Te pongo un ejemplo que viví yo en un cliente, bastante grande por cierto. El responsable de BI de este cliente eligió una herramienta de ETL en su día para aprovisionar su DataWarehouse, al cabo de 1 año aproximadamente desde dirección solicitaron poder realizar informes operacionales y cuadros de mando que reflejarán la situación de las ventas a tiempo real. Eso significa disponer de una ETL que pudiera trabajar en Real Time, con capacidades de captura de cambios y que pudiera acceder a recuperar datos del portal online de venta (a través de web services). Se planteó la compra de una nueva herramienta que ofreciera esas funcionalidades y en una de las reuniones de evaluación de la herramienta el CIO preguntó al director de BI ¿Por qué había que cambiar la herramienta de ETL?, la persona de BI le explico que necesitaba esas nuevas funcionalidades, a lo que el CIO le volvió a preguntar ¿Por qué no se compró una herramienta con esas funcionalidades hace 1 año? Y el responsable de BI le dijo que compraron esa herramienta porque era más barata.

No te puedes imaginar la bronca que recibió por parte del CIO, entré las cosas que le dijo hizo una reflexión que considero muy interesante fue algo del tipo “como puedes decir que era más barata si a lo que nos costo la herramienta en su día has de añadir el coste de formación en esa herramienta, más los costes de desarrollo, más el coste de la herramienta que hemos de comprar ahora, más el coste de formación de la nueva herramienta, más el coste de cambio de todos los procesos a la nueva herramienta…” y concluyó diciendo que no había tenido en cuenta la evolución del negocio, las necesidades a futuro y los costes de cambio.

Cómo conclusión te diría que busques aquella ETL que te ofrezca todo lo que necesitas (ahora y a medio plazo), que no os centres sólo en el coste de adquisición, mira también desarrollo, soporte, disponibilidad de integradores o Partners con experiencia en el uso de la herramienta, referencias, etc. Sí todo lo que necesitas se cumple lo de menos es sí es OpenSource o no.
Por último os recomiendo un documento de Gartner títulado "Open Source in Data Integration Tools" que ilustra lo que os comentaba. También os dejo un enlace que habla del mismo tema.

Un saludo.

¡ Sí funciona, mejor no tocarlo!. Un error grave.

Desde que estoy trabajando en el sector he escuchado esta frase en un sinfín de ocasiones, siempre es utilizada como justificación, sobretodo por aquella gente más veterana en el sector, y siempre he tenido la misma impresión, ¡ Que grave error!.

Creo que esa frase evidencia la tendencia de los últimos tiempos de muchos profesionales y departamentos de IT ya que considero que esta máxima es la escenificación del inmovilismo y de la falta de inquietudes de nuestro sector.

Siempre hemos de preguntarnos el porqué de cada cosa y cuando las cosas funcionan, la pregunta que deberíamos formularnos es ¿podemos hacerlo mejor? o ¿sí lo cambiamos funcionará más rápido, de forma más eficiente, con menos recursos, etc?

Aquellos profesionales con más éxito, aquellos departamentos de IT más representativos, ejemplares y que ofrecen una mayor utilidad a la empresa son aquellos que son capaces de cuestionarlo todo, de buscar alternativas para mejorar, de invertir en hacer cosas que permitan mejorar los procesos, ahorrar costes o facilitar el trabajo en la organización, todos ellos ofrecen un valor añadido a su empresa y permiten mejorar el funcionamiento del negocio que siempre acaba redundando en un beneficio, monetario, operativo u organizativo al negocio.

Por eso desde hoy he decidido revelarme cada vez que escuche esa famosa frase y cuestionar en cada caso si merece o no la pena tocarlo todo y que hasta ahora haya funcionado.

Ejemplificando sobre el tema de este blog diríamos que porque no hemos de plantearnos cambiar todos los procesos que realizamos hoy en día de forma manual y buscar como hacerlos de una forma más eficiente, ya sea a través de una herramienta de integración (ETL) o bien con procesos automatizados de limpieza, estandarización o desduplicación de datos (Data Quality).

De esta forma igual podemos conseguir eliminar esos cientos o miles de programas PL/SQL, Cobol, Java, XML, etc que se encargan de mover datos dentro de nuestra organización (interfaces ETL) y sustituirlos por un software que permita administrarlos de forma centralizada, auditarlos, editarlos, documentarlos, reutilizarlos, analizarlos, etc, en busca de una mayor eficiencia y coherencia en nuestros procesos y sí de paso con ello nos ahorramos problemas de codificación, de reutilización, de necesidad de especialistas en diferentes lenguajes, problemas de perdida de conocimiento por fugas de desarrolladores o problemas de incompatibilidad que en algunos casos nos impiden avanzar o implantar nuevos proyectos, quizás sólo en ese momento nos habremos dado cuanta que el cambio merecía la pena todo y que como se hacía hasta ese momento funcionaba.

¡ Sí funciona, pensemos como funcionaría mejor!