Credit Scoring : 6e partie – Segmentation et inférence de rejet

Blog

Megaphone

Publié

25 oct. 2017

Catégorie

Science des données

Partager

Par : Natasha Mashanovich, Senior Data Scientist chez World Programming, Royaume Uni

Main image

6e partie : Segmentation et inférence de rejet

Segmentation et inférence de rejet, ou simplicité – un choix difficile. Cet article explore deux aspects supplémentaires du processus de développement d'une fiche d'évaluation : la segmentation et l'inférence de rejet.

Segmentation

Combien de fiches d'évaluation ? Quels sont les critères ? Quelle est la meilleure pratique ? – Voici les questions les plus fréquentes auxquelles nous devons répondre dès le début du processus de développement, en commençant par l'identification et la justification du nombre de fiches d'évaluation – ou segmentation.

Part6 1.fr fr
Figure 1. Segmentation des fiches d'évaluation

L'évaluation préalable a lieu pendant l'analyse des perspectives. A cette étape, il est nécessaire d'informer l'entreprise des segments de population hétérogènes qui peuvent avoir des caractéristiques différentes les rendant impossibles à traiter comme un seul groupe. L'entreprise peut ainsi prendre rapidement la décision d'accepter plusieurs fiches d'évaluation.

Pour l'entreprise, les avantages de la segmentation sont les suivants : (1) marketing : offre de produits et nouveaux marchés, (2) traitements différents pour les divers groupes de clients déterminés par la démographie, et (3) disponibilité des données : les données peuvent provenir de canaux différents ou, par exemple, certains groupes de clients n'auront pas d'historique de crédit.

Pour observer les avantages statistiques de la segmentation, il faut que chaque segment comporte un nombre suffisant d'observations, y compris de « bons » et de « mauvais » comptes, ainsi que des effets d'interaction dont les motifs prédictifs diffèrent selon les segments.

En général, le processus de segmentation inclut les étapes suivantes :

  1. Identifier un schéma de segmentation simple à l'aide d'une segmentation supervisée ou non.
    1. La segmentation supervisée fait souvent appel à une forêt d'arbres décisionnels pour identifier les segments potentiels et capturer les effets d'interaction. Sinon, il est également possible d'utiliser les résiduels d'un modèle d'ensemble pour détecter les interactions au sein des données.
    2. Une segmentation non supervisée, telle que la classification (clustering), permet de créer des segments, mais cette méthode ne capture pas toujours les effets d'interaction.
  2. Identifier un ensemble de prédicteurs de candidats pour chacun des segments.
  3. Créer un modèle distinct pour chaque segment.
  4. Vérifiez que :
    1. Chacun des modèles segmentés ont des motifs prédictifs distincts. S'il n'est pas possible d'identifier de nouvelles caractéristiques prédictives entre les segments, le data scientist (pardon, l'expert en science des données !) doit chercher à établir une meilleure segmentation (ou ne créer qu'un seul modèle).
    2. Les modèles segmentés ont des motifs prédictifs similaires, mais avec des magnitudes différentes, ou des effets opposés entre les segments.
    3. Les modèles segmentés offrent une meilleure puissance prédictive qu'un modèle unique s'appliquant à l'ensemble de la population.

La segmentation et un processus itératif qui nécessite des décisions constantes afin de déterminer s'il faut un ou plusieurs segments. Du point de vue du spécialiste, la segmentation produit rarement une amélioration notable. Il est donc recommandé, dans la mesure du possible, de créer une fiche d'évaluation unique. Les méthodes permettant d'éviter la segmentation incluent l'ajout de variables à la régression logistique pour capturer des effets d'interaction, et l'identification des variables les plus prédictives par segment pour les combiner en un seul modèle.

Les fiches d'évaluation distinctes sont généralement élaborées séparément. Toutefois, si la fiabilité des facteurs de modèle pose problème, il est possible d'envisage une approche parent/enfant. Elle consiste à développer un modèle parent basé sur les caractéristiques les plus communes, puis à utiliser la sortie du modèle comme prédicteur dans ses modèles enfants comme complément aux caractéristiques uniques sur l'ensemble des segments enfants.

Il n'est recommandé d'utiliser plusieurs fiches d'évaluation que si la qualité de l'évaluation du risque est meilleure qu'avec une seule. La segmentation doit offrir une valeur ajoutée notable à l'entreprise afin de contrebalancer les coûts de développement et d'implémentation plus élevés, la complexité du processus de gestion de la décision, la gestion des fiches d'évaluation supplémentaires et l'utilisation accrue des ressources informatiques.

Inférence de rejet

Les fiches d'évaluation de demande comportent un biais de sélection naturel si la modélisation se base uniquement sur la population acceptée avec des performances connues. Toutefois, il existe un nombre important de clients refusés, et qui sont exclus du processus de modélisation car leurs performances ne sont pas connues. Afin de compenser le biais de sélection, le modèle de fiche d'évaluation de demande doit inclure les deux populations. Il est donc nécessaire d'inférer la performance des clients rejetés : c'est ce qu'on appelle inférence de rejet.

Part6 2.fr fr
Figure 2. Population acceptée et population rejetée

Avec ou inférence de rejet ? – Deux écoles s'affrontent : ceux qui pensent que l'IR est un cercle vicieux, les performances évaluées des clients rejetés étant évaluées à partir de la population approuvée (avec le biais correspondant), ce qui mène à une inférence peu fiable, et ceux qui prônent l'inférence de rejet en tant qu'approche améliorant les performances du modèle.

Quelques étapes supplémentaires sont nécessaires lors du développement de la fiche d'évaluation si vous utilisez l'inférence de rejet :

  1. Baser un modèle de régression logistique sur les acceptations – modèle_logit_base
  2. Inférer les refus à l'aide d'une technique d'inférence de rejet
  3. Combiner les acceptations et les refus dans un même ensemble de données (population_entière)
  4. Baser un autre modèle de régression logistique sur population_entière – modèle_logit_final
  5. Valider modèle_logit_final
  6. Créer un modèle de fiche d'évaluation sur la base de modèle_logit_final

Part6 3.fr fr
Figure 3. Développement d'une fiche d'évaluation avec inférence de rejet

L'inférence de rejet est une forme de traitement des valeurs manquantes où les résultats sont manquants de manière non aléatoire (MNAR), causant des différences notables entre les populations acceptées et rejetées. Il existe deux grandes approches pour l'inférence des performances manquantes : l'attribution et l'augmentation, chacune ayant un autre ensemble de techniques. Les techniques les plus utilisées parmi ces approches sont l'attribution proportionnelle, l'augmentation simple, l'augmentation floue et la parcellisation.

Techniques d'attribution Techniques d'augmentation
Ignorer les refus, ne pas utiliser l'inférence de rejet Augmentation simple
Attribuer le statut « mauvais » à tous les refus Augmentation floue
Approche basée sur les règles Parcellisation
Attribution proportionnelle Inférence basée sur les cas
Inférence bivariée

Tableau 1. Techniques d'inférence de rejet

L'attribution proportionnelle consiste à partitionner les refus en « bons » et « mauvais » comptes, avec un taux de « mauvais » deux à cinq fois plus élevé que dans la population acceptée.

L'augmentation simple note les refus sur la base de modèle_logit_base et les divise en « bons » et « mauvais » comptes en fonction d'une valeur seuil. Cette valeur est sélectionnée de sorte que les refus comportent deux à cinq fois plus de « mauvais » que de « bons ».

L'augmentation floue note les refus sur la base de modèle_logit_base. Chaque enregistrement est dupliqué avec des composants pondérés « mauvais » et « bons », dérivés des notes des refus. Ces pondérations, ainsi que des pondérations égales à « 1 » pour toutes les acceptations, sont utilisées dans modèle_logit_final. Il est conseillé que les refus comportent deux à cinq fois plus de « mauvais » que les acceptations.

La parcellisation est une méthode hybride incluant l'augmentation simple et l'attribution proportionnelle. Les « parcelles », ou paquets, sont créées en catégorisant les notes de refus, générées à l'aide de modèle_logit_base, dans les classes de score. L'attribution proportionnelle est appliquée à chaque « parcelle » avec un taux de « mauvais » deux à cinq fois plus élevé que dans la population acceptée.

Part6 4.fr fr
Figure 4. Attribution proportionnelle
Part6 5.fr fr
Figure 5. Augmentation simple
Part6 6.fr fr
Figure 6. Augmentation floue
Part6 7.fr fr
Figure 7. Parcellisation