Calificación crediticia: Parte 6 - Segmentación e inferencia de rechazos

Blog

Publicado

25 oct. 2017

Categoría

Ciencia de datos

Compartir



De: Natasha Mashanovich, Científica de datos superior en World Programming, Reino Unido

Parte 6: Segmentación e inferencia de rechazos

"¿Segmentación e inferencia de rechazos, o simplificación? - ¡Esa es la pregunta!" Este artículo explora dos aspectos adicionales que a menudo necesitan abordarse durante el proceso de desarrollo del cuadro de mandos: la segmentación y la inferencia de rechazos (RI).

Segmentación

¿Cuántos cuadros de mandos? ¿Cuáles son los criterios? ¿Cuál es la mejor práctica? - son las preguntas comunes que tratamos de responder tempranamente en el desarrollo del cuadro de mandos, comenzando con el proceso de identificar y justificar el número de cuadros de mandos, conocido como segmentación.


Figura 1. Segmentación de cuadros de mandos

La pre-evaluación de la segmentación inicial se lleva a cabo durante el análisis de las perspectivas empresariales. En esta etapa, se debe informar la empresa sobre cualquier segmento de la población heterogéneo identificado que pueda tener diferentes características, imposibles de tratar como un único grupo para permitir una decisión temprana sobre la aprobación de múltiples cuadros de mandos.

Los impulsores de negocios para la segmentación son: (1) la mercadotecnia, tales como las ofertas de productos o nuevos mercados, (2) los diferentes tratamientos entre diferentes grupos de clientes, por ejemplo, basados en datos demográficos y (3) la disponibilidad de datos, es decir que pueden estar disponibles diferentes datos a través de diferentes canales de comercialización o algunos grupos de clientes pueden no tener a disposición un historial de crédito.

Los controladores estadísticos para la segmentación suponen que haya un número suficiente de observaciones en cada segmento, incluyendo cuentas "buenas" y "malas", y cada segmento contiene efectos de interacción donde los patrones predictivos varían entre segmentos.

Típicamente el proceso de segmentación incluye los siguientes pasos:

  1. Identificar un esquema de segmentación simple mediante la segmentación supervisada o no supervisada.
    1. Para la segmentación supervisada, a menudo se utiliza un árbol de decisión para identificar los segmentos potenciales y capturar los efectos de la interacción. Alternativamente, los residuos de un modelo de conjunto se pueden utilizar para detectar interacciones en los datos.
    2. La segmentación no supervisada, como la agrupación, se puede utilizar para crear los segmentos, pero este método no necesariamente captura los efectos de la interacción.
  2. Identificar un conjunto de predictores candidatos para cada uno de los segmentos.
  3. Construya un modelo separado por segmento.
  4. Prueba:
    1. Si los modelos segmentados tienen diferentes patrones predictivos. La falta de identificación de nuevas características predictivas entre segmentos indica que el científico de datos debe buscar una mejor división de segmentación o construir un modelo único.
    2. Si los modelos segmentados tienen patrones predictivos similares, pero con magnitudes considerablemente diferentes o efectos opuestos entre los segmentos.
    3. Si los modelos segmentados producen una elevación superior en la capacidad predictiva, comparado con un único modelo construido sobre toda la población.

La segmentación es un proceso iterativo que requiere un juicio constante para determinar si se usan segmentos únicos o múltiples. De la experiencia de los profesionales, la segmentación rara vez da lugar a una elevación significativa y se debe hacer todo lo posible para producir un único cuadro de mandos. Los métodos comunes utilizados para evitar la segmentación incluyen la adición de variables adicionales en la regresión logística para capturar los efectos de interacción o identificar las variables más predictivas por segmento y combinarlas en un modelo único.

Los cuadros de mandos independientes suelen ser construidos independientemente. Sin embargo, si la fiabilidad de los factores modelo es un problema, un modelo primario/secundario puede ofrecer un enfoque alternativo. En este enfoque, desarrollamos un modelo primario sobre las características comunes, y usamos la salida del modelo como un predictor en sus modelos secundarios para complementar las características únicas entre los segmentos secundarios.

El objetivo principal de los cuadros de mandos múltiples es mejorar la calidad de la evaluación del riesgo en comparación con un único cuadro de mandos. Los cuadros de mandos segmentados sólo deben utilizarse si ofrecen un valor significativo a la empresa que supera el mayor coste de desarrollo e implementación, la complejidad en el proceso de administración de decisiones, la administración adicional de los cuadros de mandos y un mayor uso de los recursos informáticos.

Inferencia de rechazos

Los cuadros de mandos de aplicación tienen un sesgo de selección de origen natural si el modelado se basa únicamente en la población aprobada con rendimiento conocido. Sin embargo, hay un grupo significativo de clientes rechazados excluidos del proceso de modelado debido a sus rendimientos desconocidos. Para abordar el sesgo de selección, los modelos de cuadro de mandos de aplicación deberían incluir ambas poblaciones. Esto significa que se debe inferir el rendimiento desconocido de los rechazados, que se completa a través del método Inferencia de rechazos (RI).


Figura 2. Poblaciones de aprobados y rechazados

¿Con o sin inferencia de rechazos? - Hay dos corrientes de pensamiento: aquellas que piensan que el RI es un círculo vicioso, donde el rendimiento inferido de los rechazos se basaría en la población aprobada pero sesgada, lo cual conduce por lo tanto a una inferencia de rechazos menos fiable; y aquellos que defienden la metodología del RI como un enfoque valioso que beneficia el rendimiento del modelo.

Hay algunos pasos adicionales requeridos durante el desarrollo del cuadro de mandos si se usa la RI:

  1. Construir un modelo de regresión logística sobre los aprobados: el modelo base_logit_model
  2. Inferir los rechazos utilizando una técnica de inferencia de rechazos
  3. Combinar los aprobados y rechazados inferidos en un único conjunto de datos (complete_population)
  4. Construir un nuevo modelo de regresión logística sobre complete_population: el modelo final_logit_model
  5. Validar el modelo final_logit_model
  6. Crear un modelo de cuadro de mandos basado en el modelo final_logit_model


Figura 3. Desarrollo de cuadros de mandos mediante inferencia de rechazos

La inferencia de rechazos es una forma de tratamiento de valores ausentes donde los resultados "no son aleatorios" (MNAR), dando lugar a diferencias significativas entre las poblaciones de aprobados y rechazados. Hay dos enfoques amplios utilizados para inferir el rendimiento faltante: asignación y aumento, cada uno con un conjunto diferente de técnicas. Las técnicas más populares en los dos enfoques son asignación proporcional, aumento simple y difuso, y parcelación.

Técnicas de asignación Técnicas de aumento
Ignorar rechazados, no utilizar RI Aumento simple
Asignar el estado "malo" a todos los rechazados Aumento difuso
Enfoque basado en la regla Parcelación
Asignación proporcional Inferencia basada en casos
Inferencia de dos variables

Tabla 1. Técnicas de inferencia de rechazos

La asignación proporcional es la asignación aleatoria de particiones de los rechazados en cuentas "buenas" y "malas" con una tasa de "malos" de dos a cinco veces mayor que en la población de aprobados.

El aumento simple supone la puntuación de los rechazados con el modelo base_logit_model y la asignación de particiones en cuentas "buenas" y "malas" basadas en un valor de límite. El valor de límite se selecciona de modo que la tasa de "malos" en los rechazados sea de dos a cinco veces mayor que en los aprobados.

El aumento difuso supone la puntuación de los rechazados con el modelo base_logit_model. Cada registro se duplica efectivamente conteniendo componentes "malos" ponderados y "buenos" ponderados, ambos derivados de las puntuaciones de los rechazados. Estos pesos, junto con los pesos iguales a "1" para todos los aprobados, se usan en el modelo final_logit_model. Una tasa de "malos" en los rechazados de dos a cinco veces mayor que en los aprobados es la estrategia recomendada.

La parcelación es un método híbrido que abarca el aumento simple y la asignación proporcional. Las parcelas se crean mediante la discretización de las puntuaciones de los rechazados, generadas usando el modelo base_logit_model, en las bandas de puntuación. La asignación proporcional se aplica en cada parcela con una tasa de "malos" de dos a cinco veces mayor que la tasa de "malos" en la banda de puntuación equivalente de la población de aprobados.


Figura 4. Asignación proporcional

Figura 5. Aumento simple

Figura 6. Aumento difuso

Figura 7. Parcelación