Calificación crediticia: Parte 5 - Desarrollo de cuadros de mandos

Blog

Megaphone

Publicado

18 oct. 2017

Categoría

Ciencia de datos

Compartir



De: Natasha Mashanovich, Científica de datos superior en World Programming, Reino Unido

Main image

Parte 5: Desarrollo de cuadros de mandos

El desarrollo de cuadros de mandos describe cómo convertir los datos en un modelo de cuadros de mandos, suponiendo que la preparación de los datos y el proceso de selección de variables iniciales (filtrado) se hayan completado y que un conjunto de datos de formación filtrada esté disponible para el proceso de construcción de modelos. El proceso de desarrollo consta de cuatro partes principales: transformaciones de variables, entrenamiento del modelo mediante la regresión logística, la validación del modelo y el escalamiento.

Part5 1.es es
Figura 1. Proceso de desarrollo de cuadros de mandos estándar

Transformaciones de variables

"Torturas los números y lo confesarán todo." (Ronald Coase, Economista) - Un modelo de cuadros de mandos estándar, basado en la regresión logística, es un modelo aditivo; por lo tanto, se requieren transformaciones de variables especiales. Las transformaciones adoptadas comúnmente: clasificación detallada, clasificación global y codificación ficticia o transformación de ponderación de las pruebas (WOE), forman un proceso secuencial que proporciona un resultado del modelo que es fácil de implementar y explicar a la empresa. Además, estas transformaciones ayudan a convertir relaciones no lineales entre variables independientes y la variable dependiente en una relación lineal: el comportamiento del cliente a menudo solicitado por la empresa.

Clasificación detallada

Aplicada a todas las variables continuas y aquellas variables discretas con alta cardinalidad. Este es el proceso de discretización inicial en típicamente entre 20 y 50 grupos granulares finos.

Clasificación global

Cuando se aplica un proceso de discretización a los intervalos granulares finos para combinar aquellos con riesgo similar y crear menos intervalos, generalmente hasta diez. El objetivo es lograr la simplicidad creando menos bins, cada uno con factores de riesgo distintivamente diferentes, minimizando al mismo tiempo la pérdida de información. Sin embargo, para crear un modelo sólido que sea resistente al sobreajuste, cada bin debe contener un número suficiente de observaciones de la cuenta total (el 5% es el mínimo recomendado por la mayoría de los profesionales). Estos objetivos opuestos pueden lograrse mediante una optimización en forma de discretización óptima que maximiza la capacidad predictiva de una variable durante el proceso de clasificación global. La discretización óptima utiliza las mismas medidas estadísticas utilizadas durante la selección de variables, como el valor de la información, las estadísticas de Gini y el chi-cuadrado. La medida más popular es, de nuevo, el valor de la información, aunque la combinación de dos o más medidas es a menudo beneficiosa. Los valores ausentes, si contienen la información predictiva, deben ser una clase separada o fusionarse para discretizarse con factores de riesgo similares.

Codificación ficticia

El proceso de creación de variables binarias (ficticias) para todas las clases globales, excepto la clase de referencia. Este enfoque puede presentar problemas ya que las variables adicionales requieren más recursos de memoria y procesamiento, y ocasionalmente se puede producir sobreajuste debido a los reducidos grados de libertad.

Transformación de la ponderación de las pruebas (WOE)

El enfoque alternativo, más favorecido, de la codificación ficticia que sustituye cada clase global por un valor de riesgo y, a su vez, contrae los valores de riesgo en una sola variable numérica. La variable numérica describe la relación entre una variable independiente y una variable dependiente. El marco de WOE es muy adecuado para el modelado de regresiones logísticas, ya que ambos se basan en el cálculo de log-odds. Además, la transformación de WOE normaliza todas las variables independientes, por lo tanto, los parámetros en una regresión logística subsiguiente se pueden comparar directamente. El principal inconveniente de este enfoque es considerar solamente el riesgo relativo de cada bin, sin considerar la proporción de cuentas en cada bin. El valor de la información se puede utilizar en su lugar para evaluar la contribución relativa de cada bin.

Tanto la codificación ficticia como la transformación WOE producen resultados similares. La elección que se utiliza depende principalmente de las preferencias de los científicos de datos.

Sin embargo tener en cuenta que la discretización óptima, la codificación ficticia y la transformación de la ponderación de las pruebas son, cuando se llevan a cabo manualmente, los procesos que llevan mucho tiempo. Un paquete de software para la discretización, optimización y transformación de WOE es por lo tanto extremadamente útil y altamente recomendado.

Part5 2
Figura 2. Discretización óptima automatizada y transformación de WOE con el software World Programming

Entrenamiento y escalamiento del modelo

La regresión logística es una técnica comúnmente utilizada en la puntuación de crédito para resolver los problemas de clasificación binaria. Antes del ajuste de modelos, otra iteración de la selección de variables es valiosa para comprobar si las variables recientemente transformadas de WOE siguen siendo buenas candidatas de modelos. Las variables candidatas preferidas son aquellas con mayor valor de la información (generalmente entre 0,1 y 0,5) tienen una relación lineal con la variable dependiente, tienen una buena cobertura en todas las categorías, tienen una distribución normal, contienen una contribución global notable y son relevantes para la empresa.

Muchos proveedores de análisis incluyen el modelo de regresión logística en sus productos de software, generalmente con una amplia gama de funciones estadísticas y gráficas. Por ejemplo, la implementación de PROC LOGISTIC del lenguaje SAS en WPS ofrece un amplio conjunto de opciones para la selección automatizada de variables, la restricción de parámetros del modelo, variables ponderadas, obtención de análisis separados para diferentes segmentos, la puntuación en un conjunto de datos diferente, la generación del código de despliegue automatizado, para nombrar unos pocos.

Una vez que se haya alineado el modelo, el siguiente paso es ajustar el modelo a una escala deseada por la empresa. Se conoce como escalamiento. El escalamiento actúa como un instrumento de medición que proporciona coherencia y estandarización de las puntuaciones a lo largo de cuadros de mandos diferentes. Los valores de puntuación mínima y máxima y el rango de puntuación ayudan en la interpretación del riesgo y se deben reportar a la empresa. A menudo, el requisito de la empresa es usar el mismo rango de puntuación para varios cuadros de mandos para que todos tengan la misma interpretación de riesgo.

Un método de puntuación popular crea logarítmicamente puntuaciones discretas, donde las probabilidades doblan a un número predeterminado de puntos. Esto requiere especificar los tres parámetros: los puntos base tales como 600 puntos, las probabilidades base, por ejemplo 50:1 y puntos para duplicar las probabilidades, por ejemplo 20. Los puntos de puntuación corresponden a cada uno de los bins de las variables del modelo, mientras que el intercepto del modelo se traduce en los puntos de base. La salida del escalamiento con asignación tabulada de puntos representa el real modelo de cuadros de mandos.

Part5 3
Figura 3. Escalamiento de cuadros de mandos

Rendimiento del modelo

La evaluación del modelo es el paso final en el proceso de construcción del modelo. Consta de tres fases distintivas: evaluación, validación y aprobación.

Evaluación de la exactitud - ¿He construido el modelo correctamente? - es la primera pregunta que poner para probar el modelo. Las métrica clave evaluada consta de medidas estadísticas que incluyen la precisión del modelo, la complejidad, la tasa de error, las estadísticas de ajuste de modelos, las estadísticas de las variables, los valores de importancia y las proporciones de probabilidades.

Validación de la robustez - ¿He construido el modelo correcto? - es la siguiente pregunta a hacer cuando se pasa de la precisión de la clasificación y la evaluación estadística a la capacidad de clasificación y la evaluación de la empresa.

La elección de la métrica de validación depende del tipo de clasificador del modelo. La métrica más común para los problemas de clasificación binaria son el gráfico de ganancias, el gráfico de elevación, la curva ROC y el gráfico de Kolmogorov-Smirnov. La curva ROC es la herramienta más común para visualizar el rendimiento del modelo. Es una herramienta de uso múltiple que se utiliza para:

  • la metodología de campeón-desafiante para elegir el mejor modelo de rendimiento;
  • probar los rendimientos de los modelos en datos no vistos y compararlo con los datos de entrenamiento;
  • seleccionando el umbral óptimo, que maximiza la tasa de verdaderos positivos, mientras que reduce la tasa de falsos positivos.

La curva ROC se crea trazando la sensibilidad frente a la probabilidad de falsa alarma (tasa de falsos positivos) en diferentes umbrales. La evaluación de la métrica de rendimiento en diferentes umbrales es una característica deseable de la curva ROC. Diferentes tipos de problemas empresariales tendrán diferentes umbrales basados en una estrategia empresarial.

El área bajo la curva ROC (AUC) es una medida útil que indica la capacidad predictiva de un clasificador. En el riesgo de crédito un AUC de 0,75 o superior es el estándar aprobado por el sector y el requisito previo para la aceptación del modelo.

Part5 4
Figura 4. Métrica de rendimiento del modelo

Aceptación para la utilidad - ¿Se aceptará el modelo? - es la pregunta final a poner para probar si el modelo es valioso del punto de vista de la empresa. Esta es la fase crítica donde el científico de datos tiene que reproducir el resultado del modelo para la empresa y "defender" su modelo. Los criterios de la clave de evaluación es el beneficio de la empresa del modelo, por lo tanto, el análisis de beneficios es la parte central al presentar los resultados. Los científicos de datos deben hacer todo lo posible para presentar los resultados de una manera concisa, por lo que los resultados y hallazgos son fáciles de seguir y entender. La imposibilidad de lograrlo, podría resultar en el rechazo del modelo y, en consecuencia, el fracaso del proyecto.