Credit Scoring : 7e partie – Autres points à prendre en compte en modélisation des risques de crédit

Blog

Megaphone

Publié

01 nov. 2017

Catégorie

Science des données

Partager

Par : Natasha Mashanovich, Senior Data Scientist chez World Programming, Royaume Uni

Main image

7e partie : Autres points à prendre en compte en modélisation des risques de crédit

Pour obéir aux règles de la méthode scientifique – rigueur, testabilité, réplicabilité, fidélité, et confiance – il est important de prendre en compte la validation du modèle et comment traiter des données déséquilibrées. Cet article décrit l'architecture de validation avancée qu'il est possible d'utiliser pour respecter ces règles, et donne un bref aperçu des méthodologies appliquées fréquemment pour gérer les données déséquilibrées.

Architecture de validation avancée

« Trop beau pour être vrai » – Tout modèle prédictif qui s'adapte trop bien aux données doit être suspect. En élaborant des modèles prédictifs complexes et performants, les data scientists (ou « experts en mégadonnées », comme on dit dans le Journal Officiel) commettent souvent des erreurs de modélisation, que l'on qualifie de sur-ajustement. Le sur-ajustement – lorsque le modèle est parfaitement adapté à l'ensemble de données d'apprentissage, mais s'applique mal à un ensemble de données générique – est le problème fondamental des modèles prédictifs. Il a pour conséquence des prédictions inexactes sur les ensembles de données inconnus.

Part7 1
Figure 1. Sur-ajustement des modèles

Il existe de nombreuses architectures de validation pour détecter et réduire le sur-ajustement. Elles diffèrent en termes de complexité des algorithmes, de puissance de traitement et de solidité. Parmi elles, deux techniques simples et courantes :

Validation simple – division aléatoire ou stratifiée en partitions d'apprentissage et de test.

Validation imbriquée – division aléatoire ou stratifiée en partitions d'apprentissage, de validation et de test. Les divers modèles sont formés sur la partition d'apprentissage, comparés mutuellement sur l'échantillon de validation, et le meilleur modèle est validé sur des données inconnues, qui constituent la partition de test.

Le principal inconvénient de ces approches est que le modèle est ajusté à un sous-ensemble des données disponibles, et peut donc toujours faire preuve de sur-ajustement. C'est particulièrement le cas avec les ensembles de données contenant un petit nombre d'observations.

Un autre problème concernant la validation simple apparaît lors de l'ajustement des paramètres du modèle et des tests de performance successifs su un même échantillon. En effet, le modèle apprend avec l'échantillon de test, ce dernier n'étant donc plus inconnu. Le sur-ajustement peut donc redevenir un problème. La validation imbriquée résout partiellement ce problème, mais nécessite une grande quantité de données, ce qui peut poser problème.

Le bootstrap et la validation croisée sont deux architectures de validation conçues pour remédier au sur-ajustement, et pour mieux capturer les sources de variation.

Le bootstrap est un échantillonnage avec remplacement. Un processus standard de validation par bootstrap crée de manière aléatoire M échantillons différents des données d'origine, mais de même taille. Le modèle est ajusté à chacun des échantillons de bootstrap, puis testé à l'ensemble des données afin de mesurer les performances.

La validation croisée ajuste le modèle à l'ensemble de la population en échangeant systématiquement les échantillons d'apprentissage et de test. La validation croisée peut prendre diverses formes, telles que :

  • K-fold – divise la population en K échantillons de taille égale et effectue K fois l'itération sur les partitions apprentissage/test.
  • Leave-one-out
  • Stratifié
  • Validation croisée imbriquée

La validation croisée imbriquée est nécessaire pour valider le modèle en plus d'ajuster les paramètres et/ou de sélectionner les variables. Elle est constituée d'une validation croisée (VC) interne et d'une validation croisée externe. La validation croisée interne est utilisée soit pour ajuster les paramètres, soit pour sélectionner les variables, alors que la VC externe est utilisée pour la validation du modèle.

Avec certaines modifications, le bootstrap et la validation croisée permettent de réaliser simultanément trois objectifs :

  1. validation des modèles ;
  2. sélection des variables ;
  3. ajustement des paramètres.
Architecture de conception Complexité d'exécution Technique Paramètres d'optimisation Nombre de VC Répétition des VC
Validation des modèles 1 VC K N
Sélection des variables 1 VC recherche de grille 1D S* K N
Ajustement des paramètres 1 VC recherche de grille 1D P** K N
Sélection des variables
Ajustement des paramètres
2 VC recherche de grille 2D (S, P) K N
Sélection des variables
Validation des modèles
2 VC imbriquée - recherche de grille 1D S K1, K2 N1, N2
Ajustement des paramètres
Validation des modèles
2 VC imbriquée - recherche de grille 1D P K1, K2 K1, K2
Sélection des variables
Ajustement des paramètres
Validation des modèles
3 VC imbriquée - recherche de grille 2D (S, P) K1, K2 N1, N2

Tableau 2. Recherche de grille et VC pour validation, sélection et ajustement

Modélisation de données déséquilibrées

« Peut mieux faire » – l'exactitude du modèle, telle que définie par le taux de prédictions justes par rapport au nombre total de cas, est une mesure souvent utilisée pour évaluer la performance du modèle. Toutefois, cela peut poser problème, car le paradoxe de l'exactitude peut survenir : Par exemple, prenons un ensemble de données d'apprentissage déséquilibré, avec un très petit pourcentage de la population cible (1 %) pour lesquels on prédit une fraude ou des événements catastrophiques. Même sans modèle prédictif, il suffit de deviner qu'il n'y aura pas de fraudes ni de catastrophes pour avoir une exactitude de 99 %. Etonnant, non ? Toutefois, cette stratégie aurait un taux d'échec de 100 %, car un modèle prédictif est nécessaire pour réduire le taux d'échec (faux négatif, ou « erreur de type II ») ou les fausses alarmes (faux positif, ou « erreur de type I »).

La bonne mesure de performances dépend des objectifs de l'entreprise. Certains cas nécessitent la minimisation du taux d'échec, d'autres s'attachent plus à minimiser les fausses alarmes, surtout si la satisfaction du client est l'objectif principal. En se basant sur l'objectif global, les data scientists doivent identifier la méthodologie optimale pour élaborer et évaluer un modèle en utilisant des données déséquilibrées.

Les données déséquilibrées peuvent poser problème lors de l'utilisation d'algorithmes d'apprentissage automatique, car ces ensembles de données pourraient n'avoir pas assez d'informations sur la classe minoritaire. En effet, les algorithmes basés sur la minimisation de l'erreur globale sont biaisés en faveur de la classe majoritaire et négligent la contribution des cas qui nous intéressent le plus.

Deux techniques permettent de combattre les problèmes de modélisation de données déséquilibrées : l'échantillonnage et la modélisation d'ensemble.

Les méthodes d'échantillonnage se divisent entre technique de sous-échantillonnage et de sur-échantillonnage. Le sous-échantillonnage consiste à retirer des cas de la classe majoritaire tout en conservant toute la population minoritaire. Le sur-échantillonnage duplique ou réplique la classe minoritaire pour équilibrer les données. Dans les deux cas, l'objectif est d'équilibrer les données d'apprentissage pour que les algorithmes offrent des résultats moins biaisés. Les deux techniques peuvent présenter des inconvénients : le sous-échantillonnage peut causer la perte d'informations, et le sur-échantillonnage, un sur-ajustement.

Une modification souvent apportée à la technique de sur-échantillonnage pour réduire le sur-ajustement est nommée SMOTE (synthetic minority oversampling technique). Elle crée des cas minoritaires à l'aide d'une autre technique d'apprentissage automatique (souvent l'algorithme KNN). En règle générale, si le nombre d'observations disponibles est élevé, il est conseillé de recourir au sous-échantillonnage. Sinon, le sur-échantillonnage est préférable.

Les étapes suivantes décrivent un processus de développement simple utilisant la technique de sous-échantillonnage.

  1. Créez une vue d'apprentissage équilibrée en sélectionnant tous les « mauvais » cas et un échantillon aléatoire de « bons » cas, avec une proportion d'environ 35 %. Si le nombre de « mauvais » cas est suffisant, vous pouvez sous-échantillonner dans une partition d'apprentissage déséquilibrée ; sinon, sous-échantillonnez sur l'ensemble de la population.
  2. Sélectionnez le meilleur jeu de prédicteurs en utilisant les étapes de modélisation habituelles :
    1. Sélection des variables potentielles
    2. Catégorisation fine
    3. Catégorisation grossière avec regroupement par classe optimal
    4. Pondération des preuves ou transformations factices
    5. Modèle de régression logistique pas à pas
  3. Si ce n'est pas déjà fait à l'étape 1, divisez l'ensemble de données déséquilibré en partitions d'apprentissage et de test – par exemple, 70 % des observations dans la partition d'apprentissage, 30 % dans la partition de test. Le taux de la classe minoritaire doit être le même dans les deux partitions.
  4. Appliquer l'apprentissage au modèle avec les variables sélectionnées par la méthode pas-à-pas de l'étape 2 sur la partition d'apprentissage.
  5. Validez le modèle sur la partition de test.

La modélisation d'ensemble est une autre possibilité pour la modélisation des données déséquilibrées. Les techniques souvent utilisées pour renforcer les prédicteurs et surmonter le sur-ajustement sans avoir recours au sur- ou sous-échantillonnage sont le « bagging » et le « boosting ». Le bagging est une agrégation bootstrap qui crée d'autres bootstraps avec remplacement, forme le modèle sur chaque bootstrap et fait la moyenne des résultats de prédiction. Le boosting construit progressivement un prédicteur plus fort dans chaque itération et apprend à partir des erreurs commises lors de l'itération précédente.

Comme nous l'avons vu plus haut, l'exactitude n'est pas la référence appropriée pour les données déséquilibrées, car elle ne prend en compte que les prédictions correctes. En revanche, l'examen simultané des résultats corrects et incorrects permet de mieux comprendre le modèle de classification. Dans ce cas, les mesures de performance utiles sont la sensibilité (taux de vrais positifs), la spécificité (taux de vrais négatifs) ou la fidélité.

Outre ces trois mesures scalaires, la courbe ROC (AUC) est très utilisée. Elle est indépendante des proportions de « mauvais » et de « bons » cas, ce qui est essentiel, surtout pour les données déséquilibrées. Si le nombre de « mauvais » cas est suffisant, au lieu d'utiliser les méthodes destinées aux données déséquilibrées, vous pouvez appliquer la méthodologie de modélisation standard. Testez le modèle résultant à l'aide de la courbe ROC (AUC).