Análisis
de Supervivencia en Marketing y Data Mining Las
disciplinas de marketing y data mining tienen cierta intersección
en lo que se refiere a su aplicación a la gestión
de la relación con los clientes, área habitualmente
conocida como CRM. Tareas como la identificación de los prospectos
para campañas focalizadas, la predicción de qué
clientes tienen una probabilidad significativa de cese o mora, cuál
sería la tasa de respuesta de una campaña de ventas,
la tasa de adquisición de un nuevo producto o servicio, y
tantas otras son rutinariamente realizadas dentro de ambas disciplinas.
Las herramientas principales son el desarrollo de modelos predictivos
basados en técnicas estadísticas que, a partir de
una caracterización individual de cada cliente, pueden predecir
la probabilidad de que éste incurra en algún suceso
deseado o no deseado.
Sin embargo, las técnicas habituales sufren de ciertas limitaciones
que le dificultan a un analista generar predicciones más
precisas o beneficiosas, o dar respuesta a problemas tan importantes
como los anteriores.
La mayoría de las técnicas típicas seleccionan
un conjunto de personas o clientes según la probabilidad
de ocurrencia de un determinado suceso (respuesta, activación,
churn, etc.). Sin embargo, es posible una perspectiva que haga un
mejor uso de lo que sabemos de los clientes, es decir, un enfoque
menos “miope”. En base a lo que conocemos de cada cliente
podemos asociar a cada uno un “valor”. En una perspectiva
a mediano plazo, ese valor está asociado a su ciclo de vida
como cliente. Una persona que tenga una probabilidad alta de responder
a una campaña de marketing, pero que se encuentra en la zona
de “declinación” de su ciclo de vida, puede ser
un target seleccionable, aunque no tan interesante como otra persona
con una probabilidad de respuesta menor pero que recién inicia
la relación y tiene una amplia perspectiva de cross-selling
y upselling durante un plazo de mediana duración. El valor
de tiempo de vida de esta segunda persona es bastante mayor que
el de la primera, de modo que estaríamos dispuestos a invertir
en contactarlo (aun cuando su probabilidad de respuesta sea menor)
en vista de futuras ganancias. Estas consideraciones permiten que
un modelo predictivo pueda ser más efectivo y beneficioso
en un mediano plazo (algunos pocos años). Para un cálculo
apropiado del valor de tiempo de vida necesitamos complementar las
técnicas tradicionales con otras más aptas para modelizar
los factores temporales involucrados.
Por otro lado, aunque en relación con lo anterior, existe
un conjunto grande de preguntas que los modelos predictivos convencionales
no pueden contestar. Por ejemplo, ¿cuánto tiempo durará
la relación con un cliente?, ¿cuándo empezar
a preocuparse si un cliente no se reactiva, no responde, no cancela
una cuota, etc.?, ¿cuándo ocurrirá la próxima
transacción, compra, consulta, etc. de un cliente?, ¿cuál
es el efecto de diversos factores sobre la duración de la
relación con el cliente?, y otras tantas preguntas por el
estilo. Lo que todas estas preguntas y los cálculos de valor
de tiempo de vida del cliente tienen en común es la necesidad
de incorporación efectiva de un análisis de la dimensión
temporal.
Los métodos tradicionales en marketing y en data mining
sirven para predecir la ocurrencia de sucesos específicos
en un intervalo relativamente corto de tiempo, no cuándo
ocurrirán distintos tipos de sucesos (por ejemplo, sirven
para predecir qué clientes desertarán el próximo
mes, pero no para pronosticar cuándo desertarán nuestros
clientes dentro de los dos próximos años). Los métodos
tradicionales para tratar los fenómenos temporales, el llamado
análisis de series de tiempo, tiene el enfoque equivocado
desde el punto de vista del marketing: trata los sucesos de un modo
agregado (el número total de clientes que realizará
alguna conducta), perdiendo de vista el foco en el individuo (cuándo
un cliente determinado realizará la conducta).
Es aquí donde el análisis de supervivencia puede
complementar muy eficazmente los métodos tradicionales. Agrega
el elemento de cuándo ocurren las cosas. La supervivencia
es particularmente valiosa para ganar comprensión de los
clientes y cuantificar esa comprensión. En términos
generales, permite predecir cuándo ocurren sucesos particulares,
comprender qué factores afectan el cuándo y cuantificar
qué ocurre a lo largo del tiempo.
El análisis de supervivencia tiene su origen a finales
del siglo XVII. La primera referencia conocida es la de un trabajo
de 1693 de Edmund Halley (el descubridor del cometa Halley) sobra
la estimación de la tasa de mortalidad. Desde entonces el
análisis de supervivencia fue usado principalmente por actuarios
hasta el siglo XX. En este siglo la disciplina se desarrolló
considerablemente y fue utilizada en diversas áreas incluyendo
la medicina y el control de calidad (aunque existieron algunos pocos
precedentes en siglos anteriores). A comienzos del siglo XXI fue
introducida al marketing y data mining por Michael Berry y Gordon
Linoff, dos matemáticos estadounidenses que trabajan en estas
áreas.
Tal vez las diferencias entre la aplicación del análisis
de supervivencia en medicina o control de calidad y marketing o
data mining sea lo que explique la demora en la adopción
de este conjunto de técnicas por parte de estas últimas
disciplinas:
- Cantidad de datos: en medicina los casos se cuentan por decenas,
en control de calidad por miles, pero en marketing y data mining
los casos son cientos de miles o millones.
- Tiempo: en medicina y control de calidad el tiempo se trata
de forma continua, en marketing y data mining en forma discreta.
- Causas: en medicina y control de calidad las causas se vinculan
con la enfermedad, la muerte y las fallas, mientras que en marketing
y data mining las causas de los fenómenos modelizados son
muy diversas y, por lo general, no vinculadas a cuestiones negativas
(o no tanto) como las primeras.
Las desemejanzas anteriores marcan profundas diferencias en la
forma en que el análisis de supervivencia se aplica en medicina
y control de calidad por un lado y en marketing y data mining por
el otro. A nivel conceptual, las herramientas del análisis
de supervivencia son el riesgo (sólo una probabilidad condicional)
y la supervivencia (la probabilidad acumulada de que un suceso no
ocurrirá). Las curvas de riesgo y de supervivencia son herramientas
gráficas y analíticas fundamentales para modelizar
el ciclo de vida de los clientes, cuantificar factores como la retención
(fundamental para el cálculo del tiempo de vida) usando medidas
como el tiempo de vida medio de un cliente, detectar sucesos conocidos
o inesperados, etc. Otras técnicas, permiten realizar una
diversidad de análisis: estratificación en las curvas
de supervivencia para determinar el efecto de distintas causas sobre
un suceso y su tiempo de ocurrencia, ventanas temporales para resolver
problemas de truncado izquierdo (fenómeno frecuente que ocurre
cuando se pierde información histórica de los clientes
debido, por ejemplo, a migraciones de las bases de datos, algo que
afecta perjudicialmente a muchos análisis estadísticos),
métodos de regresión especiales (la regresión
de Cox y otras surgidas de ésta) para la modelización
del efecto de covariables y riesgos competidores sobre el suceso
de interés, y tantas otras.
En síntesis, ya sea para adoptar criterios de selección
de clientes más provechosos en un mediano plazo como para
incorporar los aspectos temporales de tantos fenómenos de
interés en el mundo del marketing o el data mining, es preciso
complementar las técnicas tradicionales con las provenientes
del análisis de supervivencia. La sinergia de ambas permite
un análisis de mayor amplitud y precisión que resulta
muy favorable en el área de inteligencia de negocios.
Para consultar:
|