Calificación crediticia: Parte 7 - Consideraciones adicionales en el modelado del riesgo de crédito

Blog

Megaphone

Publicado

01 nov. 2017

Categoría

Ciencia de datos

Compartir

De: Natasha Mashanovich, Científica de datos superior en World Programming, Reino Unido

Main image

Parte 7: Consideraciones adicionales en el modelado del riesgo de crédito

Para satisfacer las marcas distintivas del desarrollo del modelo científico: rigor, testabilidad, replicabilidad y precisión, y confianza, es importante considerar la validación del modelo y cómo tratar los datos desequilibrados. Este artículo resume un marco de validación avanzado que puede utilizarse para satisfacer esas marcas distintivas y proporciona una breve introducción general de las metodologías aplicadas con frecuencia cuando se trata de datos desequilibrados.

Marco de validación avanzado

"Es demasiado bueno para ser cierto" - Cualquier modelo predictivo que se ajuste demasiado bien a los datos debe considerarse sospechoso. Mediante la construcción de modelos predictivos, complejos y de alto rendimiento, los científicos de datos suelen cometer errores de modelado, denominados sobreajuste. El sobreajuste, que sucede cuando un modelo se adapta perfectamente al conjunto de datos de entrenamiento, pero no se generaliza en un conjunto de datos de entrenamiento, es una cuestión fundamental y la mayor amenaza para los modelos predictivos. La consecuencia es una predicción deficiente en nuevos conjuntos de datos (no vistos, retenidos).

Part7 1
Figura 1. Sobreajuste del modelo

Existen varios marcos de validación con el propósito de detectar y reducir el sobreajuste. Difieren en cuanto a complejidad del algoritmo, potencia de computación y robustez. Dos técnicas simples y comunes son:

Validación simple – asignación aleatoria o estratificada en particiones de entrenamiento y prueba.

Validación de retención anidada – asignación aleatoria o estratificada en particiones de entrenamiento, validación y prueba. Se entrenan modelos diferentes en la partición de entrenamiento, comparados mutuamente en la muestra de validación, y el modelo muestra se valida en unos datos no vistos que es la partición de prueba.

El principal inconveniente de estos dos enfoques es que el modelo ajustado a un subconjunto de datos disponibles podría estar sujeto a un sobreajuste. Esto es cierto en particular con los conjuntos de datos que contienen un pequeño número de observaciones.

Otro problema de la validación simple surge cuando se ajustan los parámetros del modelo y se comprueba constantemente el rendimiento del modelo en la misma muestra de prueba. Esto conduce a la fuga de datos ya que el modelo efectivamente "aprende" de la muestra de prueba, es decir que la muestra de prueba ya no es la verdadera muestra de retención y el sobreajuste puede convertirse en un problema. La validación de retención anidada podría resolver el problema hasta un cierto punto, sin embargo este enfoque requiere una gran cantidad de datos que podría ser el problema.

El arranque y la validación cruzada son dos marcos de validación diseñados específicamente para superar los problemas con el sobreajuste y capturar más a fondo las fuentes de variación.

El arranque es muestreo con reemplazo. El proceso estándar de validación de arranque crea aleatoriamente M muestras diferentes de los datos originales, del mismo tamaño. El modelo se ajusta en cada una de las muestras del arranque y posteriormente se prueba en la totalidad de los datos para medir el rendimiento.

La validación cruzada (CV, Cross-validation) se ajusta a los datos de toda la población mediante el intercambio sistemático de muestras para pruebas y entrenamiento. La validación cruzada tiene muchas formas, incluyendo:

  • K-ésimo – asignación de particiones de la población en muestras de igual tamaño K y la realización de la iteración de K veces en las divisiones de entrenamiento/prueba
  • Dejar uno fuera (Leave-one-out)
  • Estratificada
  • Validación cruzada anidada

La validación cruzada anidada se necesita si queremos validar el modelo además del ajuste de parámetros y/o la selección de variables. Consta de una CV interna y externa. La CV interna se utiliza para el ajuste de parámetros o selección de variables mientras que la CV externa se utiliza para la validación del modelo.

Con algunas modificaciones, tanto el arranque como la validación cruzada pueden lograr simultáneamente tres objetivos diferentes:

  1. validación del modelo
  2. selección de variables y
  3. ajuste de parámetros (búsqueda de cuadrícula).
Marco de diseño Complejidad de ejecución Técnica Parámetros de optimización Pliegues de la CV Repeticiones de la CV
Validación del modelo 1 CV K N
Selección de variables 1 CV de búsqueda de cuadrícula 1-D S* K N
Ajuste de parámetros 1 CV de búsqueda de cuadrícula 1-D P** K N
Selección de variables
Ajuste de parámetros
2 CV de búsqueda de cuadrícula 2-D (S, P) K N
Selección de variables
Validación del modelo
2 CV anidada de búsqueda de cuadrícula 1-D S K1, K2 N1, N2
Ajuste de parámetros
Validación del modelo
2 CV anidada de búsqueda de cuadrícula 1-D P K1, K2 K1, K2
Selección de variables
Ajuste de parámetros
Validación del modelo
3 CV anidada de búsqueda de cuadrícula 2-D (S, P) K1, K2 N1, N2

Tabla 2. Búsqueda de cuadrícula y CV para validación, selección y ajuste

Modelado de datos desequilibrados

"Cuando lo bueno no es suficientemente bueno" - La precisión del modelo, definida como la proporción entre las predicciones correctas y el número total de casos, es una medida típica utilizada para evaluar el rendimiento del modelo. Sin embargo, la evaluación del rendimiento del modelo sólo por la exactitud puede en sí presentar problemas, ya que podríamos encontrar una paradoja de precisión. Por ejemplo, supongamos de tener un conjunto de datos desequilibrados de entrenamiento con un porcentaje muy pequeño de población objetivo (1%) para quien se predice fraude u otros eventos catastróficos. Incluso sin un modelo predictivo, sólo con hacer la misma suposición "ningún fraude" o "ninguna catástrofe" alcanzamos el 99% de precisión. ¡Impresionante! Sin embargo, dicha estrategia tendría una tasa de errores de 100%, es decir que todavía necesitamos un modelo predictivo para reducir la tasa de errores (falso negativo, un "error de tipo II") o para reducir las falsas alarmas (falso positivo, un "error de tipo I").

La medida correcta de rendimiento depende de los objetivos empresariales. Algunos casos requieren la reducción de la tasa de errores, otros están más centrados en reducir las falsas alarmas, especialmente si la satisfacción del cliente es el objetivo principal. Basándose en el objetivo general, los científicos de datos necesitan identificar la mejor metodología para construir y evaluar un modelo utilizando datos desequilibrados.

Los datos desequilibrados pueden ser un problema cuando se usan algoritmos de aprendizaje automático ya que estos conjuntos de datos podrían tener información insuficiente acerca de la clase minoritaria. Esto se debe a que los algoritmos basados en reducir el error general están sesgados hacia la clase mayoritaria, descuidando la contribución de los casos en los que estamos más interesados.

Dos técnicas generales, utilizadas para combatir problemas relacionados al modelado de datos desequilibrados, son modelados de muestreo y conjunto.

Los métodos de muestreo se clasifican además en técnicas de subamuestreo y sobremuestreo. El subamuestreo consta en eliminar casos de la clase mayoritaria y mantener a la población minoritaria completa. El sobremuestreo es el proceso de replicar la clase minoritaria para equilibrar los datos. Ambas se proponen crear datos de entrenamiento equilibrados para que los algoritmos de aprendizaje puedan producir resultados menos sesgados. Ambas técnicas tienen desventajas potenciales: el subamuestreo puede conducir a la pérdida de información, mientras que el sobremuestreo puede conducir al sobreajuste.

Una modificación popular de la técnica de sobremuestreo, desarrollada para reducir el sobreajuste, es la técnica de sobremuestreo de la minoría sintética (SMOTE) que crea casos de minorías basados en otra técnica de aprendizaje, generalmente el algoritmo KNN. Como regla general, si hay un gran número de observaciones disponibles, utilice el subamuestreo, de lo contrario, el sobremuestreo es el método preferido.

Los pasos a continuación resumen un ejemplo simple de pasos de desarrollo que utilizan la técnica de subamuestreo.

  1. Crear una vista de entrenamiento equilibrada, seleccionando todos los casos "malos" y una muestra aleatoria de casos "buenos" en proporción, respectivamente por ejemplo 35%/65%. Si hay un número suficiente de casos "malos", subamostrar una partición de entrenamiento desequilibrada, de lo contrario utilizar a toda la población para subamostrar.
  2. Seleccione el mejor conjunto de predictores usando los habituales pasos del modelado:
    1. Selección de variables candidatas
    2. Clasificación detallada
    3. Clasificación global con discretización óptima
    4. Ponderación de las pruebas o transformaciones ficticias
    5. Modelo de regresión logística por pasos
  3. Si no se crea en el paso 1, divida el conjunto de datos desequilibrados completo en particiones de entrenamiento y prueba, por ejemplo 70% en la partición de entrenamiento, 30% en la partición de prueba. Mantenga la proporción de la clase minoritaria igual en ambas particiones.
  4. Entrenar el modelo con las variables de modelo seleccionadas por el método "por pasos" en el paso 2e en la partición de entrenamiento.
  5. Validar el modelo en la partición de prueba

El modelado de conjunto es una alternativa para el modelado de datos desequilibrados. El ensacado y el impulso son técnicas típicas utilizadas para hacer predictores más fuertes y superar el sobreajuste sin utilizar el subamuestreo o sobremuestreo. El ensacado es una agregación de arranque que crea diferentes bootstraps con reemplazo, entrena el modelo en cada bootstrap y promedia los resultados de predicción. El impulso funciona construyendo gradualmente un predictor más fuerte en cada iteración y aprendiendo de los errores cometidos en la iteración anterior.

Como se ha descrito anteriormente, la precisión no es la métrica preferida para datos desequilibrados, ya que sólo considera predicciones correctas. Sin embargo, considerando los resultados correctos e incorrectos simultáneamente, podemos obtener más información sobre el modelo de clasificación. En tales casos, las medidas de rendimiento útiles son la sensibilidad (los sinónimos son el recuerdo, la tasa de éxito, la probabilidad de detección o tasa de verdaderos positivos), la especificidad (tasa de verdaderos negativos) o la precisión.

Además de estas tres métricas escalares, otra medida popular que domina a lo largo del sector es la curva ROC. La curva ROC es independiente de la proporción de casos "malos" contra los "buenos", lo cual es la característica importante, especialmente a los datos desequilibrados. Cuando existe un número suficiente de casos "malos", en lugar de utilizar métodos de datos desequilibrados, se puede aplicar la metodología de modelado estándar y probar el modelo resultante utilizando la curva ROC.