Calificación crediticia: Parte 2 - Metodología de modelado de cuadro de mandos de crédito

Blog

Publicado

21 sep. 2017

Categoría

Ciencia de datos

Compartir

De: Natasha Mashanovich, Científica de datos superior en World Programming, Reino Unido

Razones

Un gran diseño es una gran complejidad presentada a través de la simplicidad. (M. Cobanli)" – Mi responsabilidad, como científico de datos, es diseñar y desarrollar un modelo de riesgo de crédito preciso, útil y estable. También necesito asegurarme de que otros científicos de datos y analistas de negocios puedan evaluar mi modelo o replicar los mismos pasos, y producir resultados idénticos o similares.

Durante el proceso de desarrollo del modelo, trato de encontrar las respuestas desde la empresa a una serie de preguntas. Esas respuestas a veces requieren un juicio subjetivo. No hay nada malo en este subjetivismo, mientras pueda documentar mis preguntas y respuestas correspondientes. Obviamente, si sigo añadiendo esas preguntas y respuestas a una lista, existe el peligro de terminar con una enorme lista que es difícil de seguir. También podría terminar con algunas preguntas repetidas o incluso respuestas contradictorias.

¿Cómo puedo estar seguro de que: (1) No faltaré respuestas a preguntas importantes; (2) mi modelo aprobará correctamente un proceso de revisión por pares o de auditoría; o (3) mis colegas serán capaces de replicar los resultados del modelo?

Para satisfacer los puntos anteriores, necesito:

  • pasos sistemáticos, metodología, que seguiré para asegurar las mejores prácticas;
  • una estructura de soporte, marco de trabajo teórico, que voy a empezar a llenar con mis respuestas;
  • una descripción de un modelo de riesgo crediticio que establece características importantes, diseño de modelo, que demuestra ventajas empresariales, tales como generar mayores ganancias .

Una vez que he identificado estos elementos importantes, puedo empezar a llenar mis preguntas en los bloques adecuados de mi marco de trabajo teórico y proceder con el diseño y la construcción del modelo. El proceso podría ser algo como esto:

  • Pregunta 1: ¿Cómo puedo distinguir entre clientes "malos" y "buenos"? ¿Pagan 60, 90 o 180 días más tarde?
  • Respuesta 1: Esto es parte de mi diseño de modelo. Voy a buscar la respuesta desde la empresa y la documentaré bajo "definición operativa".

  • Pregunta 2: Cuando el modelo predice "malos"/"buenos" clientes, ¿cuánto tiempo debe ser el período de resultado? ¿Debo fijar la fecha o la duración de ese período?
  • Respuesta 2: Esto también es parte de mi diseño de modelo. Una vez más, tengo que comprobar con la empresa lo que espera que el modelo prediga. Voy a presentar esta respuesta en la "ventana de rendimiento". Una vez que he establecido la definición, y el período de resultado, puedo derivar la variable de resultado desde mis datos, que formarán parte de mi marco de trabajo.

  • Pregunta 3: ¿Quién se debe incluir en el análisis? ¿Necesito excluir clientes fraudulentos o aquellos que están en algún estado entre "bueno" y "malo"?
  • Respuesta 3: En mi diseño de modelo, necesito agregar una lista con todas las hipótesis que hago para que pueda pedirle a la empresa que confirme.

  • Pregunta 4: ¿Cuáles son las principales características que distinguen los "malos" de los "buenos" clientes?
  • Respuesta 4: Esto es parte de mi marco de trabajo teórico, específicamente la identificación de variables independientes. Voy a llevar a cabo la exploración de datos para establecer las relaciones entre las características de los clientes y la variable de resultado. Por ejemplo, "los clientes que tienen ingresos regulares tienen menos probabilidades de incumplimiento" o "los viejos clientes tienen menos probabilidades de incumplimiento". En la terminología científica, cada característica, como el ingreso o la edad, representa una hipótesis que se comprueba para la importancia usando un método estadístico como la regresión logística. Con base en el análisis estadístico, puedo decidir si retener tales variables en el modelo.

  • y demás…

Las secciones siguientes describen la metodología de modelado del cuadro de mandos en más detalles.

Metodologías de desarrollo

Cualquier empresa, investigación o proyecto de software requiere una metodología sólida, a menudo en una forma de marco de trabajo teórico o conceptual. El propósito del marco es describir el orden de los pasos y sus interacciones. Esto garantiza que todas las etapas importantes se lleven a cabo, proporciona una comprensión del proyecto en sí, establece importantes hitos y establece una colaboración activa entre las partes interesadas del proyecto.

A menudo, hay más de una metodología establecida que podría adoptarse. Los proyectos de minería de datos son ejemplos típicos donde hay varios marcos de trabajo conceptuales disponibles. La minería de datos normalmente se relaciona con el desarrollo de un modelo predictivo utilizado con fines comerciales. Teniendo un carácter multidisciplinario, los proyectos de minería de datos requieren consideración desde diferentes perspectivas, incluyendo:

  • Empresa: para evaluar los posibles beneficios empresariales
  • Ciencia de los datos: para crear un modelo teórico
  • Desarrollo de software: para desarrollar una solución de software viable

Cada punto de vista puede requerir una metodología separada, pero al menos dos serían necesarios para acomodar las perspectivas anteriores. Ejemplos de dos metodologías populares son Agile-scrum y CRISP-DM (Cross Industry Standard Process for Data Mining); la primera adoptada para abordar tanto los requisitos de desarrollo de negocio y software, y el último adoptado para la construcción de un modelo de negocio.

La metodología Agile-scrum es un enfoque iterativo y con tiempo limitado en el desarrollo de software que compila software de forma incremental y tiene el objetivo principal de ofrecer valor al negocio. La metodología promueve la participación activa de los usuarios, las interacciones efectivas entre las partes interesadas y los informes frecuentes. Como tal, es muy adecuado para los proyectos de minería de datos, que normalmente se llevan a cabo en plazos cortos y requieren actualizaciones frecuentes para hacer frente a un clima económico en constante cambio.

CRISP-DM es la metodología líder en la industria para un modelo de proceso de minería de datos. Consta de seis grandes fases interconectadas: (1) conocimiento de la empresa, (2) conocimiento de datos, (3) preparación de datos, (4) modelado, (5) evaluación e (6) implementación.


Figura 1. CRISP-DM – Marco de trabajo de minería de datos

El objetivo final de un modelo predictivo es satisfacer necesidades específicas de negocio con respecto a mejorar el desempeño de una empresa y los procesos de negocio. El conocimiento de la empresa y de los datos son ambas etapas cruciales del CRISP-DM. Los resultados de estas dos fases deberían ser un sólido marco de trabajo teórico y un modelo de diseño.

Marco de trabajo teórico y diseño del modelo

Un Marco de trabajo teórico es un fundamento de componentes básicos que ayuda a identificar los factores importantes y sus relaciones en un modelo predictivo (hipotético), tal como un modelo de riesgo de crédito. El objetivo es formular una serie de hipótesis y decidir sobre un enfoque de modelado (como la regresión logística) para probar esas hipótesis. Sin embargo, lo más importante es establecer métodos para replicar/convalidar los hallazgos para obtener una mayor confianza en el rigor del modelo.

Los elementos clave de este marco de trabajo son: (1) la variable dependiente (criterio), por ejemplo, "Estado de crédito", (2) variables independientes o predictores, tales como la edad, el estado residencial y de empleo, los ingresos, los datos de las cuentas bancarias, el historial de pagos o el historial de deudas incobrables, y (3) las hipótesis comprobables, por ejemplo "los propietarios de viviendas tienen menos probabilidades de incumplimiento".

El Diseño de modelo debe seguir los principios aceptados de metodología de diseño de investigación que es el plano para la recopilación de datos, medición y análisis de datos, por lo que el modelo puede ser probado para la fiabilidad y validez. El primero comprueba el grado en que el modelo produce resultados estables y consistentes, este último prueba si el modelo representa verdaderamente el fenómeno que estamos tratando de predecir, es decir, "¿Construimos lo correcto?"

Un buen diseño de modelo debería documentar lo siguiente:

  • la unidad de análisis (por ejemplo, el nivel de cliente o producto),
  • marco de población (por ejemplo, los solicitantes de prestamos ocasionales) y el tamaño de la muestra,
  • las definiciones operativas (tal como la definición de "malo") y las suposiciones de modelado (por ejemplo, excluyendo clientes fraudulentos),
  • el horizonte temporal de observación (tal como el historial de pagos de los clientes en los últimos dos años) y las ventanas de rendimiento, es decir, el periodo de tiempo para el cual se aplica la definición "malo".
  • orígenes de datos y métodos de recopilación de datos.


Figura 2. Utilización de datos históricos para predecir los resultados futuros

La longitud de las ventanas de observación y rendimiento dependerá del sector industrial para el que se esté diseñando el modelo. Por ejemplo, en el sector bancario, ambas ventanas suelen ser más largas en comparación con el sector de telecomunicaciones, donde los cambios frecuentes en los productos requieren observaciones más cortas y ventanas de rendimiento.

Los cuadros de mandos de aplicación se aplican típicamente a nuevos clientes y no tienen ventana de observación porque los clientes son calificados usando información conocida en el momento de la aplicación. Los datos externos como los datos de la oficina dominan los datos internos para este tipo de cuadro de mandos. Los cuadros de mandos conductuales tienen una ventana de observación que utiliza datos internos y tienden a tener un poder predictivo mejor que los cuadros de mandos de aplicación.

Diferentes cuadros de mandos se pueden aplicar a lo largo de todo el viaje del cliente, a partir de las campañas de adquisición para predecir la probabilidad de que un cliente responda a una campaña de marketing. Durante la etapa de aplicación, los clientes pueden calificarse contra varios modelos predictivos, como su probabilidad de incumplimiento de una obligación de crédito o de predecir clientes fraudulentos. Se aplicaría una gama de modelos de cuadros de mandos conductuales a los clientes existentes, para predecir la probabilidad de incumplimiento con el fin de establecer límites de crédito y tasas de interés, o planear campañas de ventas aumentadas y de ventas cruzadas; la probabilidad de revolver para campañas de retención o para predecir la probabilidad de devolución del monto de la deuda o la probabilidad de "autocurables" para fines de cobros.

Pasos para el desarrollo de modelos de cuadros de mandos crediticios

Una vez que se especifica el marco teórico y el diseño del modelo, estamos listos para los próximos pasos dentro del CRISP-DM. Con ligeras modificaciones de un caso a otro, los pasos típicos del proceso de desarrollo del cuadro de mandos crediticio se describen en la siguiente tabla.

Fase de CRISP-DMPasos
Preparación de datos1. Integración de datos
2. Análisis exploratorio de datos
3. Limpieza de datos
4. Transformación de datos
Modelado5. Datos de entrenamiento (creación de particiones)
6. Selección de predictores
7. Transformación de ponderación de las pruebas
8. Construcción de modelo (por ejemplo, regresión logística)
9. Inferencia de rechazos (opcional)
10. Escalado del modelo de cuadros de mandos
Evaluación11. Evaluación y validación de modelos
12. Estrategias de riesgo crediticio
13. Análisis del ROI
Implementación14. Código de implementación
15. Modelo de puntuación, prueba e implementación
16 Supervisión del modelo

Tabla 1. Pasos típicos en la construcción de un modelo estándar de cuadros de mandos de riesgo de crédito