¿Conoce
el ROI* del Data Mining en su empresa? (*)
abreviatura en inglés para Retorno de Inversión
Probablemente no. Y para peor la
perspectiva no es buena. Esta es una situación que ya ha
sido advertida por algunas consultoras. No nos vamos a ocupar aquí
de cómo medir el ROI del Data Mining (un problema en sí
mismo), ni de por qué la mayoría de las organizaciones
no hace mayormente esfuerzos por conocer cuál es en concreto
este valor. Estos temas se tratarán en futuros Newsletters.
Solamente vamos a considerar algunos factores que impactan negativamente
sobre su ROI.
Es interesante hacer un breve recorrido “histórico”.
Algunas “estrategias” para un Data Mining exitoso (tal
como fueron propuestas, por ejemplo, por Noonan "Data
Mining Strategies") siguen vigentes: preocuparse (y mucho)
por la calidad de datos y por la formación de los analistas
o data miners, no confundir Data Mining con activides de menor valor
agregado (típicamente OLAP) y, sobre todo, cómo hacer
el “deployment” de los resultados del Data Mining. En
2004, el Butler Group, en una evaluación negativa respecto
del ROI del Data Mining, concentra los principales impactos desfavorables
en tres áreas: data quality, niveles indeseables de duplicación
(de datos, aplicaciones, etc.) y pobre integración con el
resto del negocio. En 2007, Accenture pone el énfasis en
una “arquitectura” de BI (Business Intelligence) "Competing
on Analytics: The Architecture of Business Intelligence".
Este último es el tema que nos ocupa. Data Mining está
lejos de la metáfora inicial de la “búsqueda
pionera de pepitas de oro (o diamantes, petróleo, etc.)”.
Cada vez más, Data Mining es el sector de una empresa que
se encarga cotidianamente (o regularmente) de obtener datos prospectivos
en los niveles operativos, tácticos y estratégicos.
Esta transición de "pioneros en busca de pepitas"
a la de explotadores de una mina de oro con una producción
consistente, regular, eficaz y efectiva, con un valor demostrable
y demostrado es lo que en este momento resulta problemático
y atenta seriamente contra el ROI actual del data mining.
Estos son solamente algunos apuntes de las principales cuestiones
a considerar. Cada una de ellas amerita un seminario completo. Excluimos
cuestiones muy importantes (pero no tan novedosas) como la de integración
de datos que se trata en otro lado. Nos concentramos más
bien en lo que podríamos llamar la “administración
del Data Mining”:
- Los modelos predictivos en muchas áreas (especialmente
CRM) de activación, respuesta, churn, attrition, etc. son
demasiado “cortos de vista” y su valor agregado puede
ser dudoso. El objetivo de la modelización debe basarse
en el valor de tiempo de vida de un cliente. Existe poca formación
de los analistas en este tipo de enfoques y técnicas. Existe
poco a nivel de herramientas de software apropiadas para una implementación
correcta de este enfoque.
- Las modelizaciones de “única vez” son, salvo
casos especiales, muy poco costo-eficientes. Un mismo modelo debe
utilizarse regularmente y en situaciones controladas, por supuesto.
- Un modelo es un recurso importante de una empresa. Como tal
debe ser administrado. apropiadamente dentro de una organización
humana e informática apropiadas.
- Un modelo tiene un ciclo de vida que también debe ser
controlado y mantenido, desde su origen, su competencia con otros
modelos, sus calibraciones a lo largo del tiempo, y su retiro
final.
- Un modelo es un objeto complejo que incluye, además
de una función matemática de transformación
de datos, un conjunto importante de metadatos, documentación
de especificación, de scoring, etc.
- Un modelo debe inscribirse dentro de un proyecto de desarrollo
que debe incluir responsables, aprobaciones, hitos, entregables,
etc.
- La tarea de Data Mining es una actividad interdisciplinaria
que incluye además de a los analistas, a administradores
de datos y aplicaciones, oficiales de calidad de datos, gerentes
de marketing, planificación, atención al cliente.
Todos ellos deben trabajar en un ambiente organizativo e informáticamente
integrado.
Para encarar estas cuestiones surgieron principalmente dos estrategias
complementarias: propuestas de la organización humana de
las actividades de mining de una empresa y componentes de software
para administrar las tareas de modelización. Los componentes
de software poseen una concepción subyacente de cómo
debiera organizarse esta actividad, más o menos explícita
en la documentación acompañante.
Respecto de la organización humana, en diferentes sectores
comenzaron a desarrollarse distintas propuestas. Algunas de ellas
fueron compendiadas en algunos textos, principalmente Pendharkar
(2003), Nemati y Barko (2004) y Kudyba (2004). Las propuestas son
un tanto incipientes y no parecen haber tenido mayor desarrollo
posterior, aunque seguramente la tendrán en un futuro próximo.
En cuando a los componentes de software, los dos principales “players”
en data Mining, SAS y SPSS, desarrollaron sus respectivos productos.
SAS desarrolló en 2007 su Model Manager, un componente que
se integra junto con los componentes de mining (Enterprise Miner),
data integration (Data Integration Studio) y otros en su SAS Intelligence
Platform. SPSS desarrolló inicialmente como componente de
Clementine 9 el SPSS Model Manager. Con la versión 10 de
Clementine desarrolló un upgrade, al que denominó
SPSS Predictive Enterprise Services, con una mayor integración
con otros diversos componentes y una tecnología SOA.
Referencias bibliográficas:
- Namid R. Nemati and Christopher D. Barko (eds) Organizational
Data Mining: Leveraging Enterprise Data Resources for Optimal
Performance. Idea Group Publishing © 2004
- Kudyba, Stephan (ed.). Managing Data Mining
Advice from Experts, CYBERTECH Publishing, Hershey, 2004.
- Pendharkar, Parag. Managing Data Mining Technologies
in Organizations: Techniques and applications. Idea
Group Publishing, 2003.
Links de interés:
|