Credit Scoring : 2e partie – Méthodologie de modélisation de fiche d'évaluation du risque de crédit

Blog

Megaphone

Publié

21 sept. 2017

Catégorie

Science des données

Partager

Par : Natasha Mashanovich, Senior Data Scientist chez World Programming, Royaume Uni

Main image

Explication

« En design, le génie consiste à représenter une grande complexité via la simplicité. (M. Cobanli) » – En tant que spécialiste de la science des données, mon rôle consiste à concevoir et développer un modèle de risque de crédit exact, utile et stable. Je dois également faire en sorte que d'autres spécialistes de la science des données, mais aussi des analystes métier, puissent évaluer mon modèle ou reproduire les mêmes étapes et obtenir des résultats identiques ou similaires.

Au cours du processus de développement du modèle, j'essaye d'obtenir des réponses à nombre de questions auprès de l'entreprise. Ces réponses nécessitent parfois un jugement subjectif. Soyons clairs : la subjectivité n'est pas forcément une mauvaise chose. Il faut cependant que je documente mes questions et leurs réponses. Evidemment, si je continue d'ajouter des questions/réponses à la liste, il est possible que je me retrouve avec une liste énorme et difficile à suivre. Je peux également me retrouver avec des questions en doublon, voire avec des réponses contradictoires.

Comment faire pour être certaine que : (1) j'ai toutes les réponses aux questions importantes ; (2) mon modèle sera validé par mes pairs ou lors d'une procédure d'audit ; (3) mes collègues seront capables de reproduire les résultats du modèle ?

Pour y parvenir, il me faut :

  • des étapes systématiques – une méthodologie – à suivre pour garantir le respect des meilleures pratiques ;
  • une ossature – une structure théorique – que je vais consolider à l'aide de mes réponses ;
  • une description d'un modèle de risque de crédit qui décrit les caractéristiques essentielles – le design du modèle – prouvant les avantages métier tels que l'accroissement des profits.

Une fois ces éléments identifiés, je peux commencer à classer chacune de mes questions dans le casier approprié de ma structure théorique. Je continue alors à élaborer le modèle. Le processus peut ressembler à ça :

  • Question 1 : Comment distinguer les « mauvais » clients des « bons » ? Payent-ils avec 60, 90 ou 180 jours de retard ?
  • Réponse 1 : Cette question fait partie de mon modèle. Je classe la réponse fournie par l'entreprise et je la documente en tant que « définition opérationnelle ».

  • Question 2 : Lorsque le modèle prédit les « bons » et « mauvais » clients, quelle doit être la durée de pa période de résultat ? Faut-il spécifier une date fixe ou une durée ?
  • Réponse 2 : Cette question fait aussi partie de mon modèle. Là encore, je dois vérifier auprès de l'entreprise pour savoir ce qu'elle espère que le modèle prédise. Je classerai sa réponse sous « fenêtre de performances ». Une fois que j'ai établi la définition et la période de résultat, je peux dériver la variable de résultat à partir de mes données, qui formeront partie de ma structure.

  • Question 3 : Qui faut-il inclure dans l'analyse ? Dois-je exclure les clients fraudeurs ? Ceux qui sont entre « bon » et « mauvais » ?
  • Réponse 3 : Dans mon modèle, je dois ajouter une liste de toutes mes suppositions, afin de demander à l'entreprise de les confirmer.

  • Question 4 : Quelles sont les principales caractéristiques séparant les « mauvais » clients des « bons » ?
  • Réponse 4 : Cette question fait partie de ma structure théorique. Elle permet l'identification de variables indépendantes. Je procède à une exploration des données afin d'établir les rapports entre les caractéristiques du client et la variable de résultat. Par exemple, « il est moins probable que les clients qui ont des revenus réguliers soient en défaut de paiement », ou « il est moins probable que les personnes âgées soient en défaut de paiement ». En termes scientifiques, chaque caractéristique, telle que les revenus ou l'âge, représente une hypothèse qui doit être testée pour déterminer son importance à l'aide d'une méthode statistique telle que la régression logistique. Sur la base des analyses statistiques, je détermine s'il est utile de conserver ces variables dans le modèle.

  • et ainsi de suite...

Les sections suivantes décrivent de manière plus détaillée la méthodologie de modélisation de fiche d'évaluation.

Méthodologies de développement

Une bonne méthodologie, souvent sous la forme d'une structure théorique ou conceptuelle, est essentielle pour tout projet, qu'il soit d'entreprise, de recherche ou informatique. Cette structure a pour objet de décrire l'ordre des étapes et leurs interactions. Ceci garantit que toutes les étapes importantes sont respectées, offre une meilleure compréhension du projet, pose les jalons importants et établit une collaboration active entre les parties prenantes.

Souvent, il est possible d'adopter plus d'une méthodologie reconnue. Les projets d'exploration des données (« data mining » en anglais) sont des exemples typiques de situations où plusieurs structures conceptuelles sont disponibles. L'exploration des données concerne généralement la mise au point d'un modèle prédictif à but professionnel. Les projets d'exploration des données sont, par nature, pluridisciplinaires. Ils nécessitent la prise en compte de diverses perspectives, notamment :

  • Entreprise – évaluer les bénéfices potentiels pour l'entreprise.
  • Science des données – créer un modèle théorique.
  • Développement logiciel – développer une solution logicielle viable.

Chaque point de vue peut nécessiter une méthodologie distincte. Il en faut au moins deux pour accommoder les perspectives ci-dessus. Parmi les méthodologies les plus populaires, on trouve Agile-scrum et CRISP-DM (Cross Industry Standard Process for Data Mining) ; la première répond aux problématiques d'entreprise et de développement logiciel, et la seconde facilite la construction d'un modèle d'entreprise.

La méthodologie Agile-scrum est une approche itérative à temps limité du développement logiciel. La construction du logiciel se fait de manière incrémentielle. Le principal objectif est de réduire les coûts pour l'entreprise. Cette méthodologie promeut l'implication active des utilisateurs, avec des interactions efficaces entre les parties prenantes, et des livraisons fréquentes. Elle convient donc aux projets d'exploration de données menés sur de courtes périodes et nécessitant des mises à jours fréquentes pour faire face aux évolutions constantes du climat économique.

CRISP-DM est la méthodologie la plus utilisée pour les modèles de processus d'exploration des données. Elle comporte six grandes phases : (1) comprendre l'entreprise, (2) comprendre les données, (3) préparer les données, (4) modéliser, (5) évaluer et (6) deployer.

Part2 1.fr fr
Figure 1. CRISP-DM – Modèle d'exploration de données

L'objectif est de créer un modèle prédictif répondant aux besoins spécifiques de l'entreprise en ce qui concerne l'amélioration des performances et des processus. La compréhension de l'entreprise et celle des données sont deux étapes essentielles. Leur résultat doit permettre une structure théorique et un modèle solides.

Structure théorique et modèle

La structure théorique est un élément essentiel aidant à identifier les facteurs importants et leurs rapports dans un modèle prédictif tel qu'un modèle de risque de crédit. Le but est de formuler une série d'hypothèses et de décider du modèle à utiliser (régression logistique, par exemple) pour les tester. Il est cependant plus important d'établir les méthodes permettant de dupliquer/valider les résultats afin d'avoir plus confiance dans la rigueur du modèle.

Les clés de voute de cette structure sont : (1) la variable dépendante (critère) ; par exemple, « Score de risque de crédit » ; (2) les variables indépendantes, ou prédicteurs, tels que l'âge, l'emploi, le logement, les revenus, les coordonnées bancaires, l'historique de crédit et/ou des défauts de paiement ; (3) les hypothèses testables, telles que « il est peu probable que les clients propriétaires de leur domicile soient en défaut de paiement ».

Le modèle doit suivre les principes de méthodologie de concept de recherche utilisés pour la collecte des données, les mesures et l'analyse des données afin de permettre de tester la fiabilité et la validité du modèle. Les tests de fiabilité vérifie que le modèle produit des résultats stables et cohérents. Les tests de validité vérifient que le modèle représente réellement le phénomène que nous tentons de prédire – avons-nous créé le modèle approprié ?

Un bon concept de modèle devrait documenter :

  • l'unité d'analyse (client, niveau de produit, etc.) ;
  • le cadre de population (par exemple, le nombre de candidats) et la taille de l'échantillon ;
  • les définitions opérationnelles (telles que la définition de « mauvais ») et les suppositions de modélisation (par exemple, l'exclusion des clients fraudeurs) ;
  • la durée observée (l'historique de paiement du client sur les deux dernières années, par exemple) et les fenêtres de performance, c'est-à-dire la période pendant laquelle la définition de « mauvais » est applicable ;
  • les sources et les méthodes de collecte des données.

Part2 2.fr fr
Figure 2. Utilisation de données historiques pour prédire les résultats futurs

La durée observée et les fenêtres de performance dépendent du secteur auquel le modèle est destiné. Par exemple, dans le secteur bancaire, les deux fenêtres sont généralement plus longues que dans les télécoms, où les changements fréquents de produits nécessitent des fenêtres d'observation et de performance plus courtes.

Les fiches d'évaluation de demande sont généralement appliquées aux nouveaux clients, et elles n'ont pas de fenêtre d'observation car les clients sont notés sur la base des informations connues au moment de l'application. Les données externes telles que les données de bureau d'études prennent le pas sur les données internes pour ce type de fiche. Les fiches d'évaluation comportementale ont une fenêtre d'observation qui utilise les données internes. Elles ont souvent une meilleure puissance prédictive que les fiches d'évaluation de demande.

Il est possible d'appliquer diverses fiches d'évaluation tout au long du parcours client, en commençant par les campagnes d'acquisition, afin de prédire la probabilité de réponse du client à la campagne marketing. Pendant la phase de demande, les clients peuvent être notés selon plusieurs modèles prédictifs afin de déterminer s'ils risquent d'être en défaut de paiement ou s'ils présentent une demande frauduleuse. Toute une gamme de modèles de fiches d'évaluation comportementale seraient appliquées aux clients existants afin de prédire le risque de défaut de paiement et d'établir la limite de crédit et les taux d'intérêt ou de planifier les campagnes de marketing complémentaires. Ils permettraient aussi de prédire la probabilité de perte de clientèle pour les campagnes de fidélisation, de remboursement de la dette ou de paiement sans rappel.

Etapes de développement d'un modèle de fiche d'évaluation de risque de crédit

Une fois la structure théorique et le concept de modèle spécifiés, nous pouvons passer aux étapes suivantes du CRISP-DM. Les étapes génériques du processus de développement d'une fiche d'évaluation de risque de crédit sont décrites ci-dessous. De légères modifications sont applicables selon les cas.

Phase CRISP-DMEtapes
Préparation des données1. Intégration des données
2. Analyse exploratoire des données
3. Nettoyage des données
4. Transformation des données
Modélisation5. Données d'entraînement (partition)
6. Sélection des prédicteurs
7. Transformation de la pondération des preuves
8. Construction du modèle (régression logistique, par exemple)
9. Inférence de rejet (facultatif)
10. Dimensionnement du projet de fiche d'évaluation
Evaluation11. Evaluation et validation du modèle
12. Fiche d'évaluation de risque de crédit
13. Analyse de RSI
Déploiement14. Code de déploiement
15. Scoring, test et implémentation du modèle
16. Surveillance du modèle

Table 1. Etapes de l'élaboration d'un modèle de fiche d'évaluation de risque de crédit standard