Credit Scoring : 4e partie – Sélection des variables

Blog

Megaphone

Publié

11 oct. 2017

Catégorie

Science des données

Partager

Par : Natasha Mashanovich, Senior Data Scientist chez World Programming, Royaume Uni

Main image

4e partie : Sélection des variables

Explication

La recherche de renseignements et la création de modèles sur les risques de crédit cherchent à accomplir un maximum avec un minimum de tâches. En utilisant des processus automatisés et en se concentrant sur les informations essentielles, il est possible de prendre des décisions concernant l'octroi de crédits en quelques secondes. Les coûts opérationnels sont réduits car les décisions sont plus rapides. Moins de questions posées, une décision plus rapide : le client est plus satisfait. Les prêteurs peuvent ainsi étendre leur clientèle tout en sélectionnant des clients moins risqués, de qui permet d'augmenter les bénéfices.

Comment être concis, et quelles sont les informations clés ? La réponse se trouve à l'étape suivante du processus de modélisation du risque de crédit – le processus de sélection des variables.

La vue d'exploration créée lors de la préparation des données est une signature multidimensionnelle unique utilisée pour découvrir des relations potentiellement prédictives et tester la force de ces relations. Une analyse complète de la vue d'exploration est une étape important lors de la création d'hypothèses testables basées sur ses caractéristiques. Les perspectives ouvertes par cette analyse permettent d'interpréter les tendances dans les comportements des clients, et donc d'orienter le processus de modélisation.

Les objectifs sont les suivants :

  1. Vérifier que les données client dérivées correspondent à la connaissance du métier. Par exemple, l'analyse devrait renforcer le principe selon lequel plus le rapport dette/revenus est élevé, plus le risque de défaut est grand.
  2. Fournir des références pour analyser les résultats du modèle.
  3. Former la méthodologie de modélisation.

L'analyse des perspectives utilise des techniques similaires à l'analyse exploratoire des données en combinant les statistiques univariées et multivariées et diverses techniques de visualisation de données. Les techniques typiques sont la corrélation, la tabulation croisée, la distribution, l'analyse des séries temporelles, ainsi que l'analyse de segmentation, supervisée ou non. La segmentation est particulièrement importante, car elle détermine quand plusieurs fiches d'évaluation sont nécessaires.

La sélection des variables, basée sur les résultats de l'analyse des perspectives, commence par la division de la vue d'exploration en au moins deux sections : la section d'apprentissage et la section de test. La section d'apprentissage est utilisée pour développer le modèle, la section de test, pour évaluer ses performances et le valider.

Part4 1.fr fr

Figure 1. Processus de construction d'un modèle de fiche d'évaluation simplifiée

Sélection des variables

La sélection des variables est l'ensemble des variables proposées pour le modèle et testées pour leur pertinence lors de la phase d'apprentissage du modèle. Les variables proposées pour le modèle sont aussi appelées variables indépendantes, prédicteurs, attributs, facteurs de modèle, covariants ou caractéristiques.

La sélection des variables est un processus visant à la concision. Elle veut identifier un nombre minimal de prédicteurs pour un résultat optimal (précision prédictive). Cette approche est l'opposée de la préparation des données, dans laquelle vous ajoutez autant de variables que possible à la vue d'exploration. Pour répondre à ces exigences contradictoires, il faut optimiser, c'est-à-dire trouver la sélection objective minimale répondant aux contraintes fixées.

L'objectif clé est de trouver le bon ensemble de variables pour que le modèle de fiche d'évaluation puisse non seulement classer les clients en fonction du risque de crédit, mais aussi déterminer la probabilité d'un défaut de paiement. Cela consiste généralement à sélectionner des variables pertinentes au niveau statistique dans le modèle prédictif et à avoir un ensemble de prédicteurs bien équilibré (de 8 à 15) afin d'offrir une vue client à 360 °. Outre les caractéristiques de risque spécifiques au client, nous devons aussi inclure les facteurs de risque systémiques pour prendre en compte les tendances et volatilités économiques.

Mais cela est plus facile à dire qu'à faire. Lors de la sélection des variables, nous devons faire face à certaines limites. Tout d'abord, le modèle contient généralement des variables fortement prédictives dont l'utilisation est interdite par des règles juridiques, éthiques ou réglementaires. Certaines variables utilisées lors des phases de modélisation et de production ne sont pas forcément disponibles, ou sont de mauvaise qualité. De plus, il se peut que certaines variables importantes n'aient pas été reconnues en tant que telles à cause, par exemple, d'un échantillon de population biaisé, ou parce que l'effet du modèle serait contre-intuitif à cause de la multicollinéarité. Enfin, l'entreprise a toujours le dernier mot. Elle peut insister pour que ne soient incluses que des variables fiables au niveau métier, ou demander des effets monotones croissants ou décroissants.

Toutes ces contraintes sont potentiellement sources de biais. Il incombe au spécialiste de la science des données de réduire autant que possible les biais de sélection. Les mesures préventives fréquentes lors de la sélection des variables incluent :

  • la collaboration avec des experts du domaine pour identifier les variables importantes ;
  • la prise en compte de tous les problèmes concernant les sources de données, la fiabilité ou les erreurs de mesure ;
  • le nettoyage des données ;
  • l'utilisation des variables de contrôle pour prendre en compte les variables interdites ou des événements spécifiques tels qu'une dérive économique.

Il est important de reconnaître que la sélection des variables est un processus itératif qui se déroule tout au long de la construction du modèle.

  • Il commence avant l'ajustement du modèle, en réduisant le nombre de variables de la vue d'exploration à un nombre adéquat de variables potentielles.
  • Ensuite, pendant le processus d'apprentissage du modèle, le nombre de variables est encore réduit en raison de leur manque de signifiance statistique, de leur multicollinéarité, de leurs faibles contributions ou le surajustement.
  • Il se poursuit pendant l'évaluation et la validation du modèle.
  • Il se termine avec l'approbation métier, où la lisibilité du modèle et son interprétabilité ont le rôle principal.

La sélection des variables se termine une fois que vous avez atteint le point optimal, où aucune modification n'améliore plus la précision du modèle.

Part4 2.fr fr

Figure 2. Nature itérative du processus de sélection des variables

De très nombreuses méthodes sont disponibles pour la sélection des variables. Leur nombre s'accroît sans cesse avec les progrès de l'apprentissage automatique. Les techniques de sélection des variables varient en fonction de nombreux paramètres : réduction ou élimination des variables (filtrage), processus de sélection dans ou hors des modèles prédictifs, apprentissage supervisé ou non supervisé, méthodes sous-jacentes basées ou non sur des techniques intégrées spécifiques telles que la validation croisée.

Méthode de sélection des variablesExemples

Sélection des variables
supervisée
hors des modèles prédictifs (Figure 3)

  • Valeur des informations
  • Statistiques χ²
  • Indice Gini

Sélection des variables
non supervisée / extraction
hors des modèles prédictifs

  • Analyse de corrélation
  • Analyse de classification
  • Analyse des composants principaux
  • Réseaux neuronaux

Sélection des variables
supervisée
dans des modèles prédictifs (Figure 3)

  • Sélection récursive des fonctionnalités :
    vers l'avant, vers l'arrière et par étape
  • Techniques de régularisation
    (par exemple, AIC/BIC, lasso, crête)
  • Techniques ensemblistes
    (par exemple, forêt d'arbres décisionnels et renforcement de gradient (gradient boosting))
  • Validation croisée

Tableau 1. Méthodes de sélection des variables communes en modélisation des risques de crédit

Part4 3

Figure 3. Sélection des variables par analyse bivariée

Dans la modélisation des risques de crédit, les deux méthodes de sélection des variables les plus fréquentes consistent à filtrer avant l'apprentissage du modèle et à effectuer une sélection étape par étape pendant l'apprentissage d'un modèle de régression logistique. Il faut reconnaître qu'il n'existe pas de méthode idéale, chacune ayant ses avantages et ses inconvénients, et les deux méthodes ci-dessus sont toutes deux critiquées par les utilisateurs. Pour déterminer laquelle utiliser et comment les combiner, il faut bien connaître le domaine d'application, bien comprendre les données, et avoir une expérience approfondie de la modélisation.