Credit Scoring : 3e partie – Préparation et analyse exploratoire des données
Blog

Explication
“Garbage in, garbage out” est un principe de base en informatique. Pour qu’un projet réussisse et donne des résultats corrects, la qualité des données en entrée doit être à la hauteur. C’est pourquoi la préparation des données est un aspect essentiel de tout projet d’exploitation des données, notamment la mise au point d’une fiche d’évaluation de risque de crédit. Il s’agit en fait de la phase la plus difficile et la plus longue du cycle CRISP-DM.Elle représente de 70 à 90 % du temps consacré à un projet. La préparation inclut la collecte des données, la combinaison de plusieurs sources de données, l’agrégation des données, leur transformation, le nettoyage des données, leur découpage, mais aussi leur étude. Ceci permet de déterminer leur étendue et leur profondeur, de bien les comprendre, et de transformer quantité en qualité avant de passer à l’étape suivante, la création du modèle.

L’article précédent de cette série, Méthodologie de modélisation de fiche d’évaluation, traite de l’importance du modèle, et identifie ses principaux composants : unité d’analyse, cadre de population, taille d’échantillon, variable de critère, fenêtres de modélisation, sources de données et méthodes de collecte des données. Il est essentiel de prendre en compte chacun de ces composants pour réussir la préparation des données. Le produit final de cette étape est une vue d’exploration qui offre le niveau approprié d’analyse, des données de modélisation, et des variables indépendantes et dépendantes.
Composant de vue d’exploration | Étude de cas |
---|---|
Unité d’analyse | Niveau client |
Cadre de population | Demandeurs de prêt ayant un historique de remboursement médiocre |
Taille de l’échantillon | Demandeurs venus en agence en 2015 et 2016 |
Sources de données | Informations sur l’historique bancaire, données du demandeur, historique des crédits |
Variables indépendantes | Mélange de données nominales, ordinales et d’intervalle, telles que des valeurs agrégées, des marqueurs, des taux, des heures et des dates |
Variable dépendante | Statut par défaut (1 ou 0) |
Définitions opérationnelles | Par défaut : 90 jours après échéance |
Fenêtre d’observation | Historique de crédit du client au cours des trois dernières années |
Fenêtre de performance | Un an |
Tableau 1. Composants du modèle
Sources de données
“Plus on est de fous, plus on rit” – Dans le cadre de la compréhension des données, il est nécessaire que les sources de données externes et internes offrent quantité tout comme qualité. Les données utilisées doivent être pertinentes, exactes, appropriées, cohérentes et complètes, tout en offrant un volume et une diversité suffisants pour que l’analyse donne des résultats utiles. Pour les fiches d’évaluation de demande, où la quantité de données internes est limitée, les données externes sont prioritaires. En revanche, les fiches d’évaluation comportementale utilisent plus de données internes, et offrent généralement de meilleurs résultats au niveau de la prédiction. Les sources de données communes nécessaires à la vérification des clients, à la détection des fraudes ou à l’accord de crédits sont détaillées ci-dessous.
Source | Catégorie | Fourni par l’administration |
---|---|---|
Externe | Adresse, code postal | Officines de notation |
Recherches de solvabilité | ||
Données du registre électoral | ||
Comptes financiers | ||
Décisions judiciaires et insolvabilité | ||
Cotes de solvabilité | ||
Interne | Données démographiques | Client |
Contact | ||
Stabilité | ||
Gestion des comptes | Prêteurs | |
Détails du produit | ||
Données de performances | ||
Campagnes marketing | ||
Interactions avec la clientèle |
Tableau 2. Diversité des sources de données
Processus
Le processus de préparation des données commence par la collecte, généralement désignée par l’acronyme ETL (extract, transform and load – extraction, transformation et chargement). Intégration des données – combine les diverses sources par fusion et concaténation. En général, ceci nécessite la manipulation de tables de bases de données relationnelles à l’aide de contraintes d’intégrité telles que l’intégrité d’entité, de référence et de domaine. En utilisant de relations un-à-un, un-à-plusieurs ou plusieurs-à-plusieurs, les données sont agrégées au niveau requis pour l’analyse, créant un produit unique.
Figure 1. Processus de préparation des données
L’exploration des données et leur nettoyage sont des étapes mutuellement itératives. L’exploration des données inclut les analyses univariées et bivariées et les plages des statistiques univaries et des distributions de fréquence, les corrélations, les tabulations croisées et l’analyse des caractéristiques.

Figure 2. Vue Univarié

Figure 3. Analyse des caractéristiques
Suite à l’analyse exploratoire des données, ces dernières sont traitées afin d’améliorer leur qualité. Le nettoyage des données nécessite une bonne compréhension de l’activité de l’entreprise et des données, afin d’interpréter celles-ci correctement. C’est un processus itératif visant à éliminer les irrégularités et à remplacer, modifier ou supprimer celles-ci de manière appropriée. Les deux principaux problèmes des données non nettoyées sont les données manquantes et les données aberrantes. Elles peuvent affecter fortement l’exactitude du modèle. Il est donc impératif d’intervenir avec délicatesse.
Avant de décider de comment traiter les données manquantes, nous devons comprendre pourquoi elles sont absentes. On trouve trois grandes catégories :
- données manquantes de manière totalement aléatoire (MCAR) ;
- données manquantes de manière aléatoire (MAR) ;
- données manquantes de manière non aléatoire.
Le traitement des données manquantes tient généralement pour acquis les deux premiers cas de figure. Le troisième est plus difficile à gérer. La liste suivante présente les traitements les plus communs, par ordre de complexité croissante.
Traitement des données manquantes | Description |
---|---|
Laisser les données manquantes | Il est possible de tolérer un petit nombre de données manquantes Les données manquantes ont une signification spécifique, et doivent être traitées comme une catégorie distincte |
Supprimer les données manquantes | Par liste (complètement) ou Par paire Avantages : simple et rapide Inconvénients : réduit la puissance statistique, problématique sur les petits ensembles de données |
Imputation simple | Moyenne, mode, médiane ; ajouter un indicateur pour l’ajustement ; Avantages : simple, rapide et utilise la totalité de l’ensemble de données Inconvénients : réduit la variabilité, ne tient pas compte des relations entre les variables, n’est pas efficace si les données comportent une grande quantité de valeurs manquantes (5 % ou plus des données). |
Imputation sur modèle | Régression Avantages : simple Inconvénients : variance réduite Imputation KNN Avantages : impute les données catégoriques et numériques Inconvénients : problèmes de performances sur les ensembles de données volumineux. Estimation de probabilité maximale Avantages : impartial, utilise l’ensemble de données en entier Inconvénient : complexe Imputation multiple Avantages : technique de pointe précise, basée sur l’apprentissage automatique Inconvénients : difficile à coder sans fonction spéciale |
Tableau 3. Traitement des données manquantes
Les données aberrantes sont un autre problème, car leur présence peut mettre en danger les suppositions statistiques sur lesquelles nous basons notre modèle. Une fois les données aberrantes identifiées, il est nécessaire de comprendre pourquoi elles sont présentes avant de les traiter. Par exemple, elles peuvent représenter des sources d’informations précieuses pour la détection des fraudes. Il n’est donc pas conseillé de les remplacer par une valeur moyenne ou médiane.
Il faut analyser les données aberrantes à l’aide d’une analyse univariée et multivariée. Pour la détection, nous pouvons utiliser des méthodes visuelles telles que des histogrammes, des boîtes à moustache ou des nuages de points, ainsi que des méthodes statistiques telles que la moyenne et l’écart type, la classification en examinant les classes distantes, les nœuds de petits arbres décisionnels, la distance de Mahalanobis, la distance de Cook ou le test de Grubb. Il est plus difficile de déterminer ce qui constitue une donnée aberrante que d’identifier les valeurs manquantes. Il convient d’utiliser un critère spécifique. Par exemple, toute valeur hors d’un écart type de ±3, ou d’un écart interquartile de ±1.5, ou d’une plage allant du 5e au 95e centile devrait être considérée comme aberrante.
Les valeurs aberrantes peuvent être traitées comme les valeurs manquantes. Vous pouvez également effectuer d’autres transformations, telles que le regroupement par classe, la pondération, la conversion en valeurs manquantes et la transformation logarithmique pour éliminer l’influence des valeurs extrêmes.
Comme indiqué plus haut, le nettoyage des données peut nécessiter la mise en œuvre de diverses techniques statistiques et d’apprentissage automatique. Même si ces transformations peuvent créer un modèle de fiche d’évaluation supérieur, il est important de considérer l’aspect pratique de la mise en œuvre, car les manipulations complexes de données peuvent être difficiles, coûteuses et ralentir le traitement du modèle.
Une fois les données nettoyées, nous pouvons prendre un rôle plus créatif et passer à la transformation des données. La transformation des données consiste à créer des variables de modèle supplémentaires (hypothétiques) qui sont testées pour déterminer leur importance. Les transformations les plus fréquentes incluent le regroupement par classe et le regroupement par classe optimal, la normalisation, le changement d’échelle, l’encodage one-hot, les termes d’interaction, les transformations mathématiques (des relations non-linéaires aux linéaires, et des données biaisées en données réparties normalement) et la réduction des données à l’aide de la classification et l’analyse de facteurs.
Hormis certaines recommandations génériques sur comment effectuer cette tâche, il incombe au spécialiste de la science des données de suggérer l’approche optimale sur comment transformer la signature des données du client pour en faire un outil puissant : la vue d’exploration. Il s’agit probablement de l’aspect le plus créatif et le plus difficile de la science des données, car il nécessite une compréhension approfondie de l’activité de l’entreprise en plus de capacités statistiques et analytiques. Très souvent, le secret d’un bon modèle n’est pas la puissance d’une technique de modélisation, mais l’étendue et la profondeur des variables dérivées, qui offrent un meilleur niveau de connaissances sur les phénomènes observés.
Le reste consiste à créer des fonctionnalités.
Vous avez des questions ?
Essayer ou acheter
Edition Standard
Edition Education
Edition Express