Credit Scoring : 3e partie – Préparation et analyse exploratoire des données

Blog

Megaphone

Publié

04 oct. 2017

Catégorie

Science des données

Partager

Par : Natasha Mashanovich, Senior Data Scientist chez World Programming, Royaume Uni

Main image

Explication

« Garbage in, garbage out » est un principe de base en informatique. Pour qu'un projet réussisse et donne des résultats corrects, la qualité des données en entrée doit être à la hauteur. C'est pourquoi la préparation des données est un aspect essentiel de tout projet d'exploitation des données, notamment la mise au point d'une fiche d'évaluation de risque de crédit. Il s'agit en fait de la phase la plus difficile et la plus longue du cycle CRISP-DM. Elle représente de 70 à 90 % du temps consacré à un projet. La préparation inclut la collecte des données, la combinaison de plusieurs sources de données, l'aggrégation des données, leur transformation, le nettoyage des données, leur découpage, mais aussi leur étude. Ceci permet de déterminer leur étendue et leur profondeur, de bien les comprendre, et de transformer quantité en qualité avant de passer à l'étape suivante, la création du modèle.

L'article précédent de cette série, Méthodologie de modélisation de fiche d'évaluation, traite de l'importance du modèle, et identifie ses principaux composants : unité d'analyse, cadre de population, taille d'échantillon, variable de critère, fenêtres de modélisation, sources de données et méthodes de de collecte des données. Il est essentiel de prendre en compte chacun de ces composants pour réussir la préparation des données. Le produit final de cette étape est une vue d'exploration qui offre le niveau approprié d'analyse, des données de modélisation, et des variables indépendantes et dépendantes.

Composant de vue d'explorationÉtude de cas
Unité d'analyseNiveau client
Cadre de populationDemandeurs de prêt ayant un historique de remboursement médiocre
Taille de l'échantillonDemandeurs venus en agence en 2015 et 2016
Sources de donnéesInformations sur l'historique bancaire, données du demandeur, historique des crédits
Variables indépendantesMélange de données nominales, ordinales et d'intervalle, telles que des valeurs agrégées, des marqueurs, des taux, des heures et des dates
Variables dépendantesStatut par défaut (1 ou 0)
Définitions opérationnellesPar défaut : 90 jours après échéance
Fenêtre d'observationHistorique de crédit du client au cours des trois dernières années
Fenêtre de performanceUn an

Tableau 1. Composants du modèle

Sources de données

« Plus on est de fous, plus on rit » – Dans le cadre de la compréhension des données, il est nécessaire que les sources de données externes et internes offrent quantité tout comme qualité. Les données utilisées doivent être pertinentes, exactes, appropriées, cohérentes et complètes, tout en offrant un volume et une diversité suffisants pour que l'analyse donne des résultats utiles. Pour les fiches d'évaluation de demande, où la quantité de données internes est limitée, les données externes sont prioritaires. En revanche, les fiches d'évaluation comportementale utilisent plus de données internes, et offrent généralement de meilleurs résultats au niveau de la prédiction. Les sources de données communes nécessaires à la vérification des clients, à la détection des fraudes ou à l'accord de crédits sont détaillées ci-dessous.

SourceCatégorieFourni par l'administration
ExterneAdresse, code postalOfficines de notation
Recherches de solvabilité
Données du registre électoral
Comptes financiers
Décisions judiciaires et insolvabilité
Cotes de solvabilité
InterneDonnées démographiqueClient
Contact
Stabilité
Gestion des comptesPrêteurs
Détails du produit
Données de performances
Campagnes marketing
Interactions avec la clientèle

Tableau 2. Diversité des sources de données

Processus

Le processus de préparation des données commence par la collecte, généralement désignée par l'acronyme ETL (extract, transform and load – extraction, transformation et chargement). Intégration des données – combine les diverses sources par fusion et concaténation. En général, ceci nécessite la manipulation de tables de bases de données relationnelles à l'aide de contraintes d'intégrité telles que l'intégrité d'entité, de référence et de domaine. En utilisant de relations un-à-un, un-à-plusieurs ou plusieurs-à-plusieurs, les données sont agrégées au niveau requis pour l'analyse, créant un produit unique.

Part3 1.fr fr

Figure 1. Processus de préparation des données

L'exploration des données et leur nettoyage sont des étapes mutuellement itératives. L'exploration des données inclut les analyses univariées et bivariées et les plages des statistiques univaries et des distributions de fréquence, les corrélations, les tabulations croisées et l'analyse des caractéristiques.

Part3 2

Figure 2. Vue Univarié

Part3 3

Figure 3. Analyse des caractéristiques

Suite à l'analyse exploratoire des données, ces dernières sont traitées afin d'améliorer leur qualité. Le nettoyage des données nécessite une bonne compréhension de l'activité de l'entreprise et des données, afin d'interpréter celles-ci correctement. C'est un processus itératif visant à éliminer les irrégularités et à remplacer, modifier ou supprimer celles-ci de manière appropriée. Les deux principaux problèmes des données non nettoyées sont les données manquantes et les données aberrantes. Elles peuvent affecter fortement l'exactitude du modèle. Il est donc impératif d'intervenir avec délicatesse.

Avant de décider de comment traiter les données manquantes, nous devons comprendre pourquoi elles sont absentes. On trouve trois grandes catégories :

  1. données manquantes de manière totalement aléatoire (MCAR) ;
  2. données manquantes de manière aléatoire (MAR) ;
  3. données manquantes de manière non aléatoire.

Le traitement des données manquantes tient généralement pour acquis les deux premiers cas de figure. Le troisième est plus difficile à gérer. La liste suivante présente les traitements les plus communs, par ordre de complexité croissante.

Traitement des données manquantesDescription
Laisser les données manquantes
  • Il est possible de tolérer un petit nombre de données manquantes
  • Les données manquantes ont une signification spécifique, et doivent être traitées comme une catégorie distincte
Supprimer les données manquantes
  • Par liste (complètement) ou
  • Par paire
    Avantages : simple et rapide
    Inconvénients : réduit la puissance statistique, pose des problèmes pour les ensembles de données de petite taille.
Imputation simple
  • Moyenne, mode, médiane, ajout d'un indicateur pour l'ajustement ;
    Avantages : simple, rapide, et permet d'utiliser la totalité de l'ensemble de données
    Inconvénients : réduit la variabilité, ne tient pas compte des relations entre les variables, n'est pas efficace si les données comportent une grande quantité de valeurs manquantes (5 % ou plus des données).
Imputation sur modèle
  • Régression
    Avantages : simple
    Inconvénients : variance réduite
  • Imputation KNN
    Avantages : impute les données catégoriques et numériques
    Inconvénients : problèmes de performances sur les ensembles de données volumineux.
  • Estimation de probabilité maximale
    Avantages : impartial, utilise l'ensemble de données en entier
    Inconvénient : complexe
  • Imputation multiple
    Avantages : technique de pointe précise, basée sur l'apprentissage automatique
    Inconvénients : difficile à coder sans fonction spéciale

Tableau 3. Traitement des données manquantes

Les données aberrantes sont un autre problème, car leur présence peut mettre en danger les suppositions statistiques sur lesquelles nous basons notre modèle. Une fois les données aberrantes identifiées, il est nécessaire de comprendre pourquoi elles sont présentes avant de les traiter. Par exemple, elles peuvent représenter des sources d'informations précieuses pour la détection des fraudes. Il n'est donc pas conseillé de les remplacer par une valeur moyenne ou médiane.

Il faut analyser les données aberrantes à l'aide d'une analyse univariée et multivariée. Pour la détection, nous pouvons utiliser des méthodes visuelles telles que des histogrammes, des boîtes à moustache ou des nuages de points, ainsi que des méthodes statistiques telles que la moyenne et l'écart type, la classification en examinant les classes distantes, les nœuds de petits arbres décisionnels, la distance de Mahalanobis, la distance de Cook ou le test de Grubb. Il est plus difficile de déterminer ce qui constitue une donnée aberrante que d'identifier les valeurs manquantes. Il convient d'utiliser un critère spécifique. Par exemple, toute valeur hors d'un écart type de ±3, ou d'un écart interquartile de ±1.5, ou d'une plage allant du 5e au 95e centile devrait être considérée comme aberrante.

Les valeurs aberrantes peuvent être traitées comme les valeurs manquantes. Vous pouvez également effectuer d'autres transformations, telles que le regroupement par classe, la pondération, la conversion en valeurs manquantes et la transformation logarithmique pour éliminer l'influence des valeurs extrêmes.

Comme indiqué plus haut, le nettoyage des données peut nécessiter la mise en œuvre de diverses techniques statistiques et d'apprentissage automatique. Même si ces transformations peuvent créer un modèle de fiche d'évaluation supérieur, il est important de considérer l'aspect pratique de la mise en œuvre, car les manipulations complexes de données peuvent être difficiles, coûteuses et ralentir le traitement du modèle.

Une fois les données nettoyées, nous pouvons prendre un rôle plus créatif et passer à la transformation des données. La transformation des données consiste à créer des variables de modèle supplémentaires (hypothétiques) qui sont testées pour déterminer leur importance. Les transformations les plus fréquentes incluent le regroupement par classe et le regroupement par classe optimal, la normalisation, le changement d'échelle, l'encodage one-hot, les termes d'interaction, les transformations mathématiques (des relations non-linéaires aux linéaires, et des données biaisées en données réparties normalement) et la réduction des données à l'aide de la classification et l'analyse de facteurs.

Hormis certaines recommandations génériques sur comment effectuer cette tâche, il incombe au spécialiste de la science des données de suggérer l'approche optimale sur comment transformer la signature des données du client pour en faire un outil puissant : la vue d'exploration. Il s'agit probablement de l'aspect le plus créatif et le plus difficile de la science des données, car il nécessite une compréhension approfondie de l'activité de l'entreprise en plus de capacités statistiques et analytiques. Très souvent, le secret d'un bon modèle n'est pas la puissance d'une technique de modélisation, mais l'étendue et la profondeur des variables dérivées, qui offrent un meilleur niveau de connaissances sur les phénomènes observés.

Le reste consiste à créer des fonctionnalités.