Calificación crediticia: Parte 4 - Selección de variables

Blog

Megaphone

Publicado

11 oct. 2017

Categoría

Ciencia de datos

Compartir



De: Natasha Mashanovich, Científica de datos superior en World Programming, Reino Unido

Main image

Parte 4: Selección de variables

Razones

"Hacer más con menos" es la filosofía principal de la inteligencia de crédito, y los modelos de riesgo de crédito son los medios para lograr este objetivo. Mediante un proceso automatizado y centrado en la información clave, las decisiones de crédito se pueden tomar en cuestión de segundos y, eventualmente, puede reducir el coste de explotación acelerando mucho más el proceso de toma de decisión. Menos preguntas y decisiones de crédito rápido en última instancia aumentan la satisfacción del cliente. Para las entidades crediticias esto significa ampliar su base de clientes, teniendo en cuenta a los clientes menos arriesgados y aumentando las ganancias.

¿Cómo lograr la parsimonia y cuál es la información clave para buscar? La respuesta se encuentra durante el siguiente paso del proceso de modelado del riesgo de crédito: el proceso de selección de variables.

La vista de minería creada como resultado de la preparación de datos es una firma multidimensional de una firma de cliente única, utilizada para descubrir relaciones potencialmente predictivas y probar la fortaleza de esas relaciones. Un análisis exhaustivo de la firma del cliente es un paso importante al crear un conjunto de hipótesis comprobables basadas en las características encontradas en la firma del cliente. A menudo denominadas perspectivas empresariales, este análisis proporciona una interpretación de las tendencias en el comportamiento del cliente, que apunta a dirigir el proceso de modelado.

El propósito del análisis de la perspectiva empresarial es:

  1. Validar que los datos del cliente derivado están de acuerdo con la comprensión de la empresa. Por ejemplo, el análisis de la perspectiva debe apoyar la declaración de la empresa de que los clientes con mayor relación deudas-ingresos tienen más probabilidades de incumplimiento;
  2. Proporcionar bancos de pruebas para analizar los resultados del modelo;
  3. Formar la metodología de modelado

El análisis de las perspectivas empresariales utilizan técnicas similares al análisis de datos exploratorio combinando estadísticas a una variable y con múltiples variables, y diferentes técnicas de visualización de datos. Las técnicas típicas son la correlación, la tabulación cruzada, la distribución, el análisis de series de tiempo y el análisis de segmentación supervisado y no supervisado. La segmentación es de especial importancia, ya que determina cuándo se necesitan varios cuadros de mandos.

La selección de variables, basada en los resultados del análisis de perspectiva empresarial, comienza asignando particiones de la vista de minería en al menos dos particiones diferentes: partición de entrenamiento y prueba. La partición de entrenamiento se utiliza para desarrollar el modelo y la partición de prueba se utiliza para evaluar el rendimiento del modelo y validar el modelo.

Part4 1.es es
Figura 1. Proceso de construcción de modelos de cuadros de mandos simplificado

Selección de variables

La selección de variables es una recopilación de variables del modelo candidato probadas por importancia durante el entrenamiento del modelo. Las variables del modelo candidato también se conocen como variables independientes, predictores, atributos, factores del modelo, covariables, regresores, elementos o características.

La selección de variables es un proceso parsimonioso que tiene como objetivo identificar un conjunto mínimo de predictores para la ganancia máxima (precisión predictiva). Este enfoque es lo opuesto a la preparación de datos donde se añaden tantas variables significativas como sea posible a la vista de minería. Estos requisitos opuestos se logran mediante la optimización, es decir, buscando el sesgo de selección mínimo bajo las restricciones proporcionadas.

El objetivo clave es buscar un conjunto adecuado de variables para que el modelo de cuadro de mandos pueda, no sólo clasificar a los clientes en función de su probabilidad de deudas incobrables, sino también estimar la probabilidad de deudas incobrables. Esto generalmente significa seleccionar variables estadísticamente significativas en el modelo predictivo y tener un conjunto equilibrado de predictores (por lo general, 8-15 se considera un buen equilibrio) para converger a una vista del cliente de 360 grados. Además de las características de riesgo específicas del cliente, también debemos considerar la inclusión de factores de riesgo sistemáticos para tener en cuenta las tendencias económicas y las volatilidades.

Es más fácil decirlo que hacerlo: al seleccionar las variables, hay varias limitaciones. En primer lugar, el modelo suele contener algunas variables altamente predictivas cuyo uso está prohibido por normas legales, éticas o reglamentarias. En segundo lugar, algunas variables podrían no estar disponibles o ser de baja calidad durante las etapas de modelado o producción. Además, podría haber variables importantes que no han sido reconocidas como tales, por ejemplo, debido a una muestra poblacional sesgada, o porque el efecto de su modelo es contraintuitivo como consecuencia de la multicolinealidad. Y por último, la empresa siempre tendrá la última palabra, y podría insistir en que sólo se incluyen las variables sensatas por la empresa, o solicitar efectos monotónicamente crecientes o decrecientes.

Todas estas restricciones son fuentes potenciales de sesgo, lo que da a los científicos de datos una tarea desafiante para minimizar el sesgo de selección. Las medidas preventivas típicas durante la selección de variables incluyen:

  • colaboración con expertos en el campo para identificar las variables importantes;
  • conocimiento de cualquier problema en relación con el origen de datos, la confiabilidad o la medida errónea;
  • limpieza de los datos;
  • utilizando variables de control para tener en cuenta las variables prohibidas o eventos específicos, tales como una tendencia económica.

Es importante reconocer que la selección de variables es un proceso iterativo que tiene lugar durante todo el proceso de construcción del modelo.

  • Comienza antes del ajuste del modelo reduciendo el número de variables en la vista de minería a un conjunto manejable de variables candidatas;
  • continúa durante el proceso de entrenamiento del modelo, donde se implementa una reducción adicional como resultado de la insignificancia estadística, multicolinealidad, contribuciones bajas o penalización para evitar el sobreajuste;
  • continúa durante la evaluación y validación del modelo; y
  • finaliza durante la aprobación de parte de la empresa, donde la legibilidad y la interpretabilidad del modelo juegan un papel importante.

La selección de variables finaliza después de que se haya alcanzado el "punto justo", es decir que no se pueden lograr más mejoras en cuanto a precisión del modelo.

Part4 2.es es
Figura 2. Naturaleza iterativa del proceso de selección de variables

Una plétora de métodos de selección de variables están disponibles. Con los avances en el aprendizaje automático, este número ha estado en constante aumento. Las técnicas de selección de variables dependen de si utilizamos la reducción de variables o la eliminación de variables (filtrado), si el proceso de selección se lleva a cabo dentro o fuera de los modelos predictivos; si usamos el aprendizaje supervisado o no supervisado o si los métodos subyacentes se basan en técnicas específicas incrustada, tal como la validación cruzada.

Método de selección de variablesEjemplos

Selección de
variables supervisadas
fuera de los modelos predictivos (Figura 3)

  • Valor de la información
  • Estadísticas del chi-cuadrado
  • Índice de Gini

Selección/Extracción de
variables no supervisadas
fuera de los modelos predictivos

  • Análisis de correlación
  • Análisis de conglomerados
  • Análisis de componentes principales
  • Redes neuronales

Selección de
variables supervisadas
dentro de los modelos predictivos

  • Selección de características recurrentes:
    hacia adelante, hacia atrás y por pasos
  • Técnicas de regularización
    (por ejemplo, AIC/BIC, lazo, regresión contraida)
  • Técnicas de conjunto
    (por ejemplo, bosque aleatorio y gradient boosting)
  • Validación cruzada

Tabla 1. Métodos de selección de variables típicos en el modelado del riesgo de crédito
Part4 3
Figura 3. Selección de variables mediante el análisis de dos variables

En el modelado de riesgo de crédito, dos de los métodos de selección de variables más comúnmente utilizados son el valor de la información para el filtrado antes del entrenamiento del modelo y la selección por pasos para la selección de variables durante el entrenamiento de un modelo de regresión logística. Aunque ambos reciban algunas críticas de los profesionales, es importante reconocer que no existe una metodología ideal ya que cada uno de los métodos para la selección de variables tiene sus pros y sus contras. Cuál utilizar y la mejor manera de combinarlos no es una tarea fácil de resolver y requiere un buen conocimiento del dominio, una buena comprensión de los datos y una amplia experiencia de modelado.