lunes, 20 de julio de 2009

Pregunta de Juan Vidal

Hola a todos,

He recibido un comentarío de Juan vidal donde me hace la siguiente pregunta:

"Quería hacerte una consulta referente a herramientas de integración de datos. He trabajado con las herramientas de Data Integration comerciales como SAS y Oracle. Estamos empezando a evaluar herramientas open source, lo que es un mundo totalmente desconocido para mí. La herramienta en cuestión es Pentaho y estamos viendo su solución de data integration que se llama Kettle. Quería preguntarte si conoces esta herramienta y tienes referencias."

Os pongo aquí la respuesta ya que creo que puede ser interesante para todos comentar este tema con mayor profundidad.

Respecto de la pregunta que me formulas, es la pregunta del millón, yo no he trabajado directamente con Kettle, pero sí que he investigado un poco y he cruzado bastantes comentarios con diferentes integradores y fabricantes de software acerca de las herramientas de integración OpenSource ya sean de Pentaho o de Talend que son las más conocidas.

Normalmente los fabricantes te dicen que el OpenSource y en concreto las herramientas de Pentaho no son tan baratas como parecen y que ofrecen muchos inconvenientes en cuanto a funcionalidades y soporte.

Por otra parte los integradores no confían demasiado, ya que normalmente argumentan que suelen ser poco estables, que el desarrollo suele ser bastante complejo y que es difícil disponer de técnicos en el mercado que conozcan estas herramientas.

Por último los analistas como Gartner o Forrester recomiendan utilizar estas herramientas sólo para operaciones básicas de ETL y que cuando se desea una herramienta que ofrezca una visión empresarial y unas capacidades de integración que no se limiten a mover datos entre las principales bases de datos recurramos a herramientas más consolidadas como Informatica PowerCenter, IBM Integration Server (antes DataStage), SAS, Oracle Data Integrator, etc.

Mi experiencia me dice que normalmente los clientes que recurren a estas herramientas lo hacen basándose principalmente en el precio y luego disponen de recursos propios para dedicar al aprendizaje y al desarrollo con las mismas.

En este caso yo lo que te aconsejaría es que evaluarás que funcionalidades requieres para el proyecto que estáis evaluando y luego hagas una valoración un poco más a medio plazo viendo que otros proyectos se pueden beneficiar de tener una ETL y que funcionalidades puedes requerir en un futuro, ya sea a nivel de conectividad (conectores de aplicación, web services, intercambio de ficheros, colas de mensajería, etc) o a nivel de funcionalidades como Calidad de Datos, Alta Disponibilidad, gestión de metadatos, trazabilidad, etc. Cuando tengas esa lista confeccionada comprueba si las herramientas de OpenSouerce cumplen con los requerimientos que tenéis para el proyecto actual y con los que podáis tener a medio plazo.

Sobretodo no os ceguéis con el precio o con el ROI, evalúa primero muy bien las funcionalidades que necesitas y que necesitarás, ya que una vez que adquieras la herramienta la inversión la tendréis que amortizar a 3 ó 5 años y luego te será muy difícil justificar el reemplazo de la herramienta que hayáis elegido si aparecen nuevos proyectos y no puedes abordarlos con la ETL que elegisteis.

Te pongo un ejemplo que viví yo en un cliente, bastante grande por cierto. El responsable de BI de este cliente eligió una herramienta de ETL en su día para aprovisionar su DataWarehouse, al cabo de 1 año aproximadamente desde dirección solicitaron poder realizar informes operacionales y cuadros de mando que reflejarán la situación de las ventas a tiempo real. Eso significa disponer de una ETL que pudiera trabajar en Real Time, con capacidades de captura de cambios y que pudiera acceder a recuperar datos del portal online de venta (a través de web services). Se planteó la compra de una nueva herramienta que ofreciera esas funcionalidades y en una de las reuniones de evaluación de la herramienta el CIO preguntó al director de BI ¿Por qué había que cambiar la herramienta de ETL?, la persona de BI le explico que necesitaba esas nuevas funcionalidades, a lo que el CIO le volvió a preguntar ¿Por qué no se compró una herramienta con esas funcionalidades hace 1 año? Y el responsable de BI le dijo que compraron esa herramienta porque era más barata.

No te puedes imaginar la bronca que recibió por parte del CIO, entré las cosas que le dijo hizo una reflexión que considero muy interesante fue algo del tipo “como puedes decir que era más barata si a lo que nos costo la herramienta en su día has de añadir el coste de formación en esa herramienta, más los costes de desarrollo, más el coste de la herramienta que hemos de comprar ahora, más el coste de formación de la nueva herramienta, más el coste de cambio de todos los procesos a la nueva herramienta…” y concluyó diciendo que no había tenido en cuenta la evolución del negocio, las necesidades a futuro y los costes de cambio.

Cómo conclusión te diría que busques aquella ETL que te ofrezca todo lo que necesitas (ahora y a medio plazo), que no os centres sólo en el coste de adquisición, mira también desarrollo, soporte, disponibilidad de integradores o Partners con experiencia en el uso de la herramienta, referencias, etc. Sí todo lo que necesitas se cumple lo de menos es sí es OpenSource o no.
Por último os recomiendo un documento de Gartner títulado "Open Source in Data Integration Tools" que ilustra lo que os comentaba. También os dejo un enlace que habla del mismo tema.

Un saludo.

4 comentarios:

  1. David,

    Te agradezco mucho la contestación. Nos es de utilidad.
    Intentaré comentarte las conclusiones a las que llegamos sobre Kettle (Pentaho).

    Un saludo y muchas gracias

    Juan Vidal

    ResponderEliminar
  2. Justo hace unos días un usuario de Dataprix hacía prácticamente la misma pregunta.
    En la respuesta referencié algunas comparativas de herramientas open source vs. comerciales.
    Te paso el enlace al post por si alguna no la conocías y te puede servir:
    http://www.dataprix.com/forum/2009/07/informacion-powercenter

    y quedamos todos a la espera de esas conclusiones!

    ResponderEliminar
  3. Hola Carlos,

    Me alegro mucho de verte por aquí, gracias por el comentario y por citarme en Dataprix.

    Un saludo.

    ResponderEliminar
  4. De nada David, y aprovecho para felicitarte de nuevo por los contenidos de tu blog.

    ResponderEliminar