Febrero 2008
Newsletter de Business Intelligence
N°1

En este Newsletter...

Temas abordados en esta edición:

- Data Mining

- Model Manager

- Operational Resarch
Presentación

Estamos muy contentos por poder enviarles nuestro nuestro primer Newletter. Para nosotros es un medio de llegada a toda la comunidad que desea, al igual que nosotros, desarrollarse en el conocimiento y la aplicación de técnicas y herramientas de análisis de datos.

MAySA es una firma de consultoría especializada en el área conocida como Business Intelligence, especialmente en los segmentos de mayor valor agregado. Nuestra vocación es ayudar a las organizaciones a sacar el máximo provecho de sus datos disponibles y a construir información valiosa que produzca resultados concretos.

Esperamos que les guste y que nos hagan llegar su feedback. Quedamos también a disposición para profundizar los temas abordados en esta o en futuras ediciones.

¿Conoce el ROI* del Data Mining en su empresa?

(*) abreviatura en inglés para Retorno de Inversión

Probablemente no. Y para peor la perspectiva no es buena. Esta es una situación que ya ha sido advertida por algunas consultoras. No nos vamos a ocupar aquí de cómo medir el ROI del Data Mining (un problema en sí mismo), ni de por qué la mayoría de las organizaciones no hace mayormente esfuerzos por conocer cuál es en concreto este valor. Estos temas se tratarán en futuros Newsletters. Solamente vamos a considerar algunos factores que impactan negativamente sobre su ROI.

Es interesante hacer un breve recorrido “histórico”. Algunas “estrategias” para un Data Mining exitoso (tal como fueron propuestas, por ejemplo, por Noonan "Data Mining Strategies") siguen vigentes: preocuparse (y mucho) por la calidad de datos y por la formación de los analistas o data miners, no confundir Data Mining con activides de menor valor agregado (típicamente OLAP) y, sobre todo, cómo hacer el “deployment” de los resultados del Data Mining. En 2004, el Butler Group, en una evaluación negativa respecto del ROI del Data Mining, concentra los principales impactos desfavorables en tres áreas: data quality, niveles indeseables de duplicación (de datos, aplicaciones, etc.) y pobre integración con el resto del negocio. En 2007, Accenture pone el énfasis en una “arquitectura” de BI (Business Intelligence) "Competing on Analytics: The Architecture of Business Intelligence".

Este último es el tema que nos ocupa. Data Mining está lejos de la metáfora inicial de la “búsqueda pionera de pepitas de oro (o diamantes, petróleo, etc.)”. Cada vez más, Data Mining es el sector de una empresa que se encarga cotidianamente (o regularmente) de obtener datos prospectivos en los niveles operativos, tácticos y estratégicos. Esta transición de "pioneros en busca de pepitas" a la de explotadores de una mina de oro con una producción consistente, regular, eficaz y efectiva, con un valor demostrable y demostrado es lo que en este momento resulta problemático y atenta seriamente contra el ROI actual del data mining.

Estos son solamente algunos apuntes de las principales cuestiones a considerar. Cada una de ellas amerita un seminario completo. Excluimos cuestiones muy importantes (pero no tan novedosas) como la de integración de datos que se trata en otro lado. Nos concentramos más bien en lo que podríamos llamar la “administración del Data Mining”:

  • Los modelos predictivos en muchas áreas (especialmente CRM) de activación, respuesta, churn, attrition, etc. son demasiado “cortos de vista” y su valor agregado puede ser dudoso. El objetivo de la modelización debe basarse en el valor de tiempo de vida de un cliente. Existe poca formación de los analistas en este tipo de enfoques y técnicas. Existe poco a nivel de herramientas de software apropiadas para una implementación correcta de este enfoque.
  • Las modelizaciones de “única vez” son, salvo casos especiales, muy poco costo-eficientes. Un mismo modelo debe utilizarse regularmente y en situaciones controladas, por supuesto.
  • Un modelo es un recurso importante de una empresa. Como tal debe ser administrado. apropiadamente dentro de una organización humana e informática apropiadas.
  • Un modelo tiene un ciclo de vida que también debe ser controlado y mantenido, desde su origen, su competencia con otros modelos, sus calibraciones a lo largo del tiempo, y su retiro final.
  • Un modelo es un objeto complejo que incluye, además de una función matemática de transformación de datos, un conjunto importante de metadatos, documentación de especificación, de scoring, etc.
  • Un modelo debe inscribirse dentro de un proyecto de desarrollo que debe incluir responsables, aprobaciones, hitos, entregables, etc.
  • La tarea de Data Mining es una actividad interdisciplinaria que incluye además de a los analistas, a administradores de datos y aplicaciones, oficiales de calidad de datos, gerentes de marketing, planificación, atención al cliente. Todos ellos deben trabajar en un ambiente organizativo e informáticamente integrado.

Para encarar estas cuestiones surgieron principalmente dos estrategias complementarias: propuestas de la organización humana de las actividades de mining de una empresa y componentes de software para administrar las tareas de modelización. Los componentes de software poseen una concepción subyacente de cómo debiera organizarse esta actividad, más o menos explícita en la documentación acompañante.

Respecto de la organización humana, en diferentes sectores comenzaron a desarrollarse distintas propuestas. Algunas de ellas fueron compendiadas en algunos textos, principalmente Pendharkar (2003), Nemati y Barko (2004) y Kudyba (2004). Las propuestas son un tanto incipientes y no parecen haber tenido mayor desarrollo posterior, aunque seguramente la tendrán en un futuro próximo.

En cuando a los componentes de software, los dos principales “players” en data Mining, SAS y SPSS, desarrollaron sus respectivos productos. SAS desarrolló en 2007 su Model Manager, un componente que se integra junto con los componentes de mining (Enterprise Miner), data integration (Data Integration Studio) y otros en su SAS Intelligence Platform. SPSS desarrolló inicialmente como componente de Clementine 9 el SPSS Model Manager. Con la versión 10 de Clementine desarrolló un upgrade, al que denominó SPSS Predictive Enterprise Services, con una mayor integración con otros diversos componentes y una tecnología SOA.

Referencias bibliográficas:

  • Namid R. Nemati and Christopher D. Barko (eds) Organizational Data Mining: Leveraging Enterprise Data Resources for Optimal Performance. Idea Group Publishing © 2004
  • Kudyba, Stephan (ed.). Managing Data Mining Advice from Experts, CYBERTECH Publishing, Hershey, 2004.
  • Pendharkar, Parag. Managing Data Mining Technologies in Organizations: Techniques and applications. Idea Group Publishing, 2003.

Links de interés:

Por qué y cómo “Optimizar” en sectores operativos

En la concepción actual de BI, el “cutting edge” no es la modelización predictiva. Es la Optimización. Los datos brutos tienen poco valor sin algún proceso que produzca conocimiento. Reportes descriptivos son mejor que nada y un buen trabajo de OLAP ya es una mejora importante. Sin embargo, el conocimiento producido es conocimiento histórico. Más valor para una empresa tiene poder mirar hacia adelante mediante modelizaciones descriptivas (segmentación, etc.) o, mejor aùn, modelizaciones predictivas. Muchas empresas usan buenas herramientas de mining y analistas expertos, por lo cual esta tarea en sí ya no garantiza ninguna ventaja competitiva. En la actualidad, la diferencia competitiva proviene de optimizar la performance de una empresa usando los recursos de datos y modelos como materia prima y las técnicas de Optimización como herramientas.

La Optimización (y sus variantes) es el terreno de la Investigación Operativa, una disciplina aplicada que tiene su origen “oficial” en la época de la Segunda Guerra Mundial. Desde ese momento en adelante se han introducido y aplicado una diversidad de métodos matemáticos para hacer más eficientes procesos de todo tipo en una amplia variedad de industrias. Desde un punto de vista general, la Investigación Operativa es la clave para tomar decisiones informadas (véase una buena y breve introducción en la nota "Shhhh... It’s a Secret"). Este es actualmente un tema básico de estudio de cualquier MBA. Y de aquí a pensar que la optimización es una herramienta fundamental en BI hay un solo paso que comenzó a darse aproximadamente en el 2004.

En ese año se comienza a hablar de BI Modeling and Optimization (BIMO). Los vendors tradicionales de software de Investigación Operativa empiezan a mirar hacia este sector y los principales players en BI extienden su oferta para incluir este tipo de recursos. Comienzan a discutirse en el área de BI las distintas herramientas de la IO y sus características. Se habla de la “nueva infraestructura de BI” ( véase "¿No se puede hacer eso con BI, o sí?!" ) Se realizan taxonomías de las herramientas, incluyendo la clase más reciente de sistemas o componentes anidados en sistemas empresariales más amplios como los de PeopleSoft, Manugistics, i2 y SAS.

La resolución de cualquier problema mediante herramientas de optimización requiere de una etapa de modelización previa. En una interpretación amplia de esta etapa, se necesita una formulación precisa del problema que se desea optimizar, un análisis de los datos disponibles y su calidad, una representación formal en términos de un sistema de ecuaciones (variables de decisión, función objetivo, restricciones, etc.), reformulaciones y calibraciones mediante distintas técnicas de análisis de sensibilidad que pueden llevar fácilmente a “retoques” de la modelización y otras cosas.

Algunos sectores como los de productos financieros y productos masivos de telecomunicaciones plantean serios desafíos para la aplicación de las técnicas tradicionales de optimización. Una empresa de telefonía celular cambia de manera importante su oferta de productos, planes comerciales, etc. por lo menos un par de veces al año, un banco retailer pasa en un mismo año por tres sistemas diferentes de back office para la gestión de alta de sus productos, etc. La información histórica (muchas veces imprescindible para la modelización) es con frecuencia inexistente, insuficiente o muy poco confiable. Los cambios del entorno económico y el impacto de nuevas tecnologías hacen que la validez de un modelo se restrinja a unos pocos meses (en el mejor de los casos). En este contexto, es muy grande la probabilidad de que la resolución de un problema de Optimización llegue cuando el sistema para el que se lo planteó ya dejó de existir. Los cambios son usualmente demasiado grandes como para que se los pueda introducir en la modelización como “ajustes de parámetros”.

Es un hecho conocido en Investigación Operativa que existen problemas con diverso grado de dificultad y que cuanto más complejo es un problema más difícil es encontrar una solución óptima. De hecho, para clases completas de problemas es casi imposible en la práctica encontrar una solución óptima, de modo que se plantean objetivos algo menos ambiciosos pero más factibles como semi-optimizar, aproximar, satisfacer restricciones, etc. Cada uno de estos constituyen clases de problemas con métodos de resolución asociados. Esta situación es tan común que en muchos contextos ha ocurrido un “deslizamiento semántico” del término “optimizar”, que ahora pasa a significar “mejorar o aumentar la eficiencia”, sin ninguna garantía de que ese mejoramiento represente un máximo en ese sentido.

En este contexto, el mejor recurso para “optimizar” áreas de back-office y otros sectores en condiciones muy cambiantes es recurrir a técnicas más “débiles”, pero menos “rígidas”. Algunas de las técnicas de aproximación lo son. Otras son las propias técnicas predictivas usadas en data mining que, usadas del modo apropiado, permiten encontrar soluciones satisfactorias e incluso adaptarse bastante fácilmente a situaciones cambiantes mediante calibraciones sencillas de sus respectivos modelos. Esto exige repensar (un poco, no mucho) las dos áreas, la de investigación operativa y la de data mining. El surgimiento de nuevas denominaciones como “Analytics” y “Análisis Inteligente de Datos” se encaminan en este sentido. Para un análisis más en profundidad de un caso concreto véase “Utilizando SAS para la Optimización del Back Office”.

Links de interés:

Si no quiere seguir recibiendo este Newsletter por favor enviar un mail de respuesta colocando "EXCLUIR" en su título.
Copyright © 2008 MAySA Consultores. Todos los derechos reservados.