Assegnazione del punteggio di affidabilità creditizia: Parte 3 - Preparazione dei dati e analisi dei dati esploratoria

Blog

Inserito

04 ott 2017

Categoria

Scienza dei dati

Condividi

Di: Natasha Mashanovich, Senior Data Scientist presso World Programming, Regno Unito

Parte 3: Preparazione dei dati e analisi dei dati esploratoria

Ragioni

"Garbage In, Garbage Out" (GIGO, "Spazzatura dentro, spazzatura fuori") è un assioma normalmente utilizzato nell'informatica e una minaccia al successo di un progetto, la qualità dell'output viene ampiamente determinata dalla qualità dell'input. Pertanto, la preparazione dei dati è un aspetto chiave di qualsiasi progetto di data mining, incluso lo sviluppo di una scorecard del credito. Questa è la fase più impegnativa e richiede molto tempo del ciclo CRISP-DM. Almeno il 70%, talvolta oltre il 90%, del tempo totale del progetto è dedicato a questa attività. Prevede la raccolta dei dati, combinando più origini dati, aggregazioni, trasformazioni, pulizia dei dati, "slicing e dicing", e osservando all'ampiezza e alla profondità dei dati per ottenere una chiara comprensione e per trasformare la quantità dei dati in qualità dei dati in modo che possiamo prepararli con fiducia per la fase successiva: costruzione del modello.

L'articolo precedente in questa serie, Metodologia di costruzione di modelli per credit scorecard ha descritto l'importanza di una progettazione dei modelli e ha individuato i suoi principali componenti, inclusa l'unità di analisi, delimitazione della popolazione, finestre per la costruzione di modelli, origini dati e metodi di raccolta dei dati. Una considerazione attenta di ognuno dei componenti è fondamentale per la corretta preparazione dei dati. Il prodotto finale di questa fase è una Vista del mining che comprende il giusto livello di analisi, la popolazione per la costruzione di modelli. le variabili indipendenti e dipendenti.

Componente della vista del miningEsempio di casistica di scorecard delle richieste
Unità di analisiLivello del cliente
Delimitazione della popolazioneRichiedenti di prestiti con un antecedente di svalutazione crediti
Dimensione del campioneRichiedenti "opportunisti" durante il 2015 e 2016
Origini datiDati della centrale dei rischi, dati dei richiedenti, storia dell'anzianità dello scaduto
Variabili indipendentiCombinazione di dati nominali, ordinali e di intervalli, quali i valori aggregati, i contrassegni, i rapporti, i valori di data e ora
Variabile dipendenteStato predefinito (1 o 0)
Definizioni operativeValore predefinito: 90 giorni insoluto
Finestra di osservazioneDati storici sul cliente della centrale dei rischi durante il periodo di tre anni
Finestra alle prestazioniUn anno

Tabella 1. Componenti della progettazione di modelli

Origini dati

"Più siamo, più ci divertiamo" – Come parte della fase di comprensione dei dati, le origini dati esterne ed interne devono fornire sia la quantità che la qualità. I dati utilizzati devono essere pertinenti, precisi, tempestivi, coerenti e completi, essendo al contempo di volume sufficiente e diverso per fornire un risultato utile nell'analisi. Per le scorecard delle domande dove vi è una quantità limitata di dati interni, i dati esterni hanno la prevalenza. Per contro, le scorecard del comportamento utilizzano più dei dati interni e sono normalmente di grado superiore in termini di capacità di previsione. Vengono delineate di seguito le comuni origini dati che sono richieste per la verifica del cliente, il rilevamento delle frodi o la concessione di credito.

OrigineCategoriaIn dotazione dall'autorità
EsternaIndirizzo, codice postaleCentrale dei rischi
Ricerche della centrale
Dati delle liste elettorali
Conti finanziari
Tribunale e insolvenza
Indici sintetici della rischiosità creditizia generici
InternaDati demograficiCliente
Contatto
Stabilità
Gestione contabileIstituti finanziatori
Informazioni dettagliate sul prodotto
Dati sulle prestazioni
Campagne di marketing
Interazioni del cliente

Tabella 2. Diversità delle origini dati

Il processo

Il processo di preparazione di dati comincia con la raccolta dei dati, comunemente denominata processo ETL (Extract-Transform-Load, ovvero Estrarre-Trasformare-Caricare). L'integrazione dei dati combina diverse origini tramite l'unione e la concatenazione dei dati. Normalmente, richiede la manipolazione di tabelle relazionali tramite numerose regole di integrità, quale l'integrità del dominio, referenziale e dell'entità. Utilizzando relazioni uno-a-uno, uno-a-molti o molti-a-molti, i dati vengono aggregati al livello desiderato di analisi in modo che venga prodotta una firma del cliente univoca.


Figura 1. Processo di preparazione dei dati

L'esplorazione dei dati e la pulizia dei dati sono fasi reciprocamente iterative. L'esplorazione dei dati include l'analisi univariata e bivariata, e varia da statistiche univariate e distribuzioni di frequenze, fino a correlazioni, analisi di tabulazione incrociata e di caratteristiche.

Figura 2. EDA (Univariate View)

Figura 3. EDA (Characteristic Analysis)

Dopo l'analisi dei dati esploratoria (EDA), i dati vengono trattati per migliorare la qualità. La pulizia dei dati richiede una buona comprensione dell'azienda e dei dati in modo che i dati si possano interpretare nel modo corretto. Questo è un processo iterativo concepito per rimuovere le irregolarità e sostituire, modificare o eliminare tali irregolarità ove opportuno. Due problemi gravi con dati incorretti sono i valori mancanti e i valori anomali; entrambi possono influire pesantemente sulla precisione del modello e l'intervento attento è dunque fondamentale.

Prima che si prenda una decisione su come trattare i valori mancanti, dobbiamo comprendere la ragione per i dati mancanti e comprendere la distribuzione dei dati mancanti in modo da poterli categorizzare come:

  1. Missing completely at random (MCAR, mancanza completamente a caso);
  2. Missing at random (MAR, mancanza a caso) oppure
  3. Not missing at random (MAR, mancanza non a caso).

Il trattamento dei dati mancanti spesso acquisisce MCAR e MAR, mentre è più difficile trattare NMAR. L'elenco di seguito descrive i trattamenti comuni ordinati per complessità.

Trattamento dei dati mancantiDescrizione
Lasciare i dati mancanti
  • È possibile tollerale una piccola percentuale di valori mancanti
  • I valori mancanti hanno un significato speciale e vengono trattati come una categoria separata
Eliminare i dati mancanti
  • Dal punto di vista dell'elenco (completo) oppure
  • Dal punto di vista della coppia
    Pro: semplice e veloce
    Contro: ridurre la capacità statistica, problematico su piccoli set di dati
Singola imputazione
  • Media, moda, mediana; aggiungere missing_flag per la regolazione;
    Pro: semplice, veloce e usa il set di dati completo
    Contro: variabilità ridotta, ignora la relazione tra le variabili; non efficace laddove quei dati contengono una grande quantità di valori mancanti (normalmente più del 5% dei dati)
Imputazione basata sul modello
  • Regressione
    Pro: semplice
    Contro: varianza ridotta
  • Imputazione KNN
    Pro: imputa i dati categorici e numerici
    Contro: problema alle prestazioni su grandi set di dati
  • Stima della massima verosimiglianza
    Pro: non distorta, utilizzata il set di dati completo
    Contro: complessa
  • Imputazione multipla
    Pro: tecnica di apprendimento automatico precisa e all'avanguardia
    Contro: difficile da codificare senza una funzione speciale

Tabella 3. Trattamenti dei dati mancanti

I valori anomali sono un'altra "bestia" nei nostri dati poiché la loro presenza può violare i presupposti statistici con cui sviluppiamo un modello. Una volta individuati, è importante comprendere le ragioni per avere valori anomali prima di applicare qualsiasi trattamento. Per esempio, i valori anomali potrebbero essere una preziosa fonte di informazioni nel rilevamento delle frodi; per cui sarebbe una cattiva idea sostituirli con un valore di media o valore mediano.

È necessario analizzare i valori anomali utilizzando analisi univariate e multivariate. Per il rilevamento, possiamo utilizzare metodi visivi, quali gli istogrammi, diagrammi Box-and-Whisker o grafici a dispersione e metodi statistici, quali la media e la deviazione standard, clustering per esaminare cluster distanti, piccoli nodi foglia dell'albero delle decisioni, distanza di Mahalanobis, distanza di Cook o test di Grubbs. La valutazione di ciò che bisogna considerare valore anomalo non è così chiara come l'individuazione dei valori mancanti. È necessario basare la decisione su un criterio specifico, ad esempio: qualsiasi valore esterno a ±3 deviazioni standard, ±1,5 IQR (differenza interquartile) o un intervallo di 5°–95° centili, viene etichettato come valore anomalo.

È possibile trattare i valori anomali in modo simile ai valori mancanti. È possibile anche utilizzare altre trasformazioni, tra cui: binning, assegnazione di pesi, conversione a valori mancanti, trasformazioni di logaritmi per eliminare l'influenza di valori estremi o winsorizzazione.

Come descritto in precedenza, la pulizia dei dati può includere l'implementazione di tecniche statistiche diverse e di apprendimento automatico. Anche se tali trasformazioni potrebbero creare un modello con scorecard di grado superiore, è necessario considerare la praticità dell'implementazione, poiché manipolazioni complesse di dati possono essere difficili da implementare, possono essere costose e possono rallentare le prestazioni dell'elaborazione dei modelli.

Una volta puliti i dati, siamo pronti per la parte più creativa: le trasformazioni dei dati. La trasformazione dei dati o feature engineering è la creazione di ulteriori variabili del modello (ipotizzate) che vengono verificate per importanza. La maggior parte delle trasformazioni comprende binning e binning ottimale, standardizzazione, ridimensionamento, codifica one-hot, termini di interazione, trasformazioni matematiche (da relazioni non lineari in lineari e dai dati asimmetrici in dati normalmente distribuiti) e la riduzione di dati tramite clustering e analisi dei fattori.

A parte alcuni consigli generici su come affrontare questa attività, è responsabilità dello scienziato dei dati suggerire la migliore strategia per trasformare la firma dei dati del cliente in un potente artefatto di informazioni: la vista del mining. Questo è probabilmente l'aspetto più creativo e più impegnativo del ruolo dello scienziato dei dati, poiché richiede una buona padronanza della comprensione dell'azienda, oltre ad abilità statistiche e analitiche. Molto spesso, la chiave della creazione di un buon modello non è la potenza di una specifica tecnica di costruzione di modelli, ma l'ampiezza e la profondità di variabili derivate che rappresentano un livello superiore di conoscenza sui fenomeni sotto osservazione.

Il resto è l'arte della creazione di caratteristiche...