Inserito
04 ott 2017Categoria
Scienza dei datiCondividi
Di: Natasha Mashanovich, Senior Data Scientist presso World Programming, Regno Unito
Parte 3: Preparazione dei dati e analisi dei dati esploratoria
Ragioni
"Garbage In, Garbage Out" (GIGO, "Spazzatura dentro, spazzatura fuori") è un assioma normalmente utilizzato nell'informatica e una minaccia al successo di un progetto, la qualità dell'output viene ampiamente determinata dalla qualità dell'input. Pertanto, la preparazione dei dati è un aspetto chiave di qualsiasi progetto di data mining, incluso lo sviluppo di una scorecard del credito. Questa è la fase più impegnativa e richiede molto tempo del ciclo CRISP-DM. Almeno il 70%, talvolta oltre il 90%, del tempo totale del progetto è dedicato a questa attività. Prevede la raccolta dei dati, combinando più origini dati, aggregazioni, trasformazioni, pulizia dei dati, "slicing e dicing", e osservando all'ampiezza e alla profondità dei dati per ottenere una chiara comprensione e per trasformare la quantità dei dati in qualità dei dati in modo che possiamo prepararli con fiducia per la fase successiva: costruzione del modello.
L'articolo precedente in questa serie, Metodologia di costruzione di modelli per credit scorecard ha descritto l'importanza di una progettazione dei modelli e ha individuato i suoi principali componenti, inclusa l'unità di analisi, delimitazione della popolazione, finestre per la costruzione di modelli, origini dati e metodi di raccolta dei dati. Una considerazione attenta di ognuno dei componenti è fondamentale per la corretta preparazione dei dati. Il prodotto finale di questa fase è una Vista del mining che comprende il giusto livello di analisi, la popolazione per la costruzione di modelli. le variabili indipendenti e dipendenti.
Componente della vista del mining | Esempio di casistica di scorecard delle richieste |
---|---|
Unità di analisi | Livello del cliente |
Delimitazione della popolazione | Richiedenti di prestiti con un antecedente di svalutazione crediti |
Dimensione del campione | Richiedenti "opportunisti" durante il 2015 e 2016 |
Origini dati | Dati della centrale dei rischi, dati dei richiedenti, storia dell'anzianità dello scaduto |
Variabili indipendenti | Combinazione di dati nominali, ordinali e di intervalli, quali i valori aggregati, i contrassegni, i rapporti, i valori di data e ora |
Variabile dipendente | Stato predefinito (1 o 0) |
Definizioni operative | Valore predefinito: 90 giorni insoluto |
Finestra di osservazione | Dati storici sul cliente della centrale dei rischi durante il periodo di tre anni |
Finestra alle prestazioni | Un anno |
Tabella 1. Componenti della progettazione di modelli
Origini dati
"Più siamo, più ci divertiamo" – Come parte della fase di comprensione dei dati, le origini dati esterne ed interne devono fornire sia la quantità che la qualità. I dati utilizzati devono essere pertinenti, precisi, tempestivi, coerenti e completi, essendo al contempo di volume sufficiente e diverso per fornire un risultato utile nell'analisi. Per le scorecard delle domande dove vi è una quantità limitata di dati interni, i dati esterni hanno la prevalenza. Per contro, le scorecard del comportamento utilizzano più dei dati interni e sono normalmente di grado superiore in termini di capacità di previsione. Vengono delineate di seguito le comuni origini dati che sono richieste per la verifica del cliente, il rilevamento delle frodi o la concessione di credito.
Origine | Categoria | In dotazione dall'autorità |
---|---|---|
Esterna | Indirizzo, codice postale | Centrale dei rischi |
Ricerche della centrale | ||
Dati delle liste elettorali | ||
Conti finanziari | ||
Tribunale e insolvenza | ||
Indici sintetici della rischiosità creditizia generici | ||
Interna | Dati demografici | Cliente |
Contatto | ||
Stabilità | ||
Gestione contabile | Istituti finanziatori | |
Informazioni dettagliate sul prodotto | ||
Dati sulle prestazioni | ||
Campagne di marketing | ||
Interazioni del cliente |
Tabella 2. Diversità delle origini dati
Il processo
Il processo di preparazione di dati comincia con la raccolta dei dati, comunemente denominata processo ETL (Extract-Transform-Load, ovvero Estrarre-Trasformare-Caricare). L'integrazione dei dati combina diverse origini tramite l'unione e la concatenazione dei dati. Normalmente, richiede la manipolazione di tabelle relazionali tramite numerose regole di integrità, quale l'integrità del dominio, referenziale e dell'entità. Utilizzando relazioni uno-a-uno, uno-a-molti o molti-a-molti, i dati vengono aggregati al livello desiderato di analisi in modo che venga prodotta una firma del cliente univoca.
Figura 1. Processo di preparazione dei dati
L'esplorazione dei dati e la pulizia dei dati sono fasi reciprocamente iterative. L'esplorazione dei dati include l'analisi univariata e bivariata, e varia da statistiche univariate e distribuzioni di frequenze, fino a correlazioni, analisi di tabulazione incrociata e di caratteristiche.
Figura 2. EDA (Univariate View)
Figura 3. EDA (Characteristic Analysis)
Dopo l'analisi dei dati esploratoria (EDA), i dati vengono trattati per migliorare la qualità. La pulizia dei dati richiede una buona comprensione dell'azienda e dei dati in modo che i dati si possano interpretare nel modo corretto. Questo è un processo iterativo concepito per rimuovere le irregolarità e sostituire, modificare o eliminare tali irregolarità ove opportuno. Due problemi gravi con dati incorretti sono i valori mancanti e i valori anomali; entrambi possono influire pesantemente sulla precisione del modello e l'intervento attento è dunque fondamentale.
Prima che si prenda una decisione su come trattare i valori mancanti, dobbiamo comprendere la ragione per i dati mancanti e comprendere la distribuzione dei dati mancanti in modo da poterli categorizzare come:
- Missing completely at random (MCAR, mancanza completamente a caso);
- Missing at random (MAR, mancanza a caso) oppure
- Not missing at random (MAR, mancanza non a caso).
Il trattamento dei dati mancanti spesso acquisisce MCAR e MAR, mentre è più difficile trattare NMAR. L'elenco di seguito descrive i trattamenti comuni ordinati per complessità.
Trattamento dei dati mancanti | Descrizione |
---|---|
Lasciare i dati mancanti |
|
Eliminare i dati mancanti |
|
Singola imputazione |
|
Imputazione basata sul modello |
|
Tabella 3. Trattamenti dei dati mancanti
I valori anomali sono un'altra "bestia" nei nostri dati poiché la loro presenza può violare i presupposti statistici con cui sviluppiamo un modello. Una volta individuati, è importante comprendere le ragioni per avere valori anomali prima di applicare qualsiasi trattamento. Per esempio, i valori anomali potrebbero essere una preziosa fonte di informazioni nel rilevamento delle frodi; per cui sarebbe una cattiva idea sostituirli con un valore di media o valore mediano.
È necessario analizzare i valori anomali utilizzando analisi univariate e multivariate. Per il rilevamento, possiamo utilizzare metodi visivi, quali gli istogrammi, diagrammi Box-and-Whisker o grafici a dispersione e metodi statistici, quali la media e la deviazione standard, clustering per esaminare cluster distanti, piccoli nodi foglia dell'albero delle decisioni, distanza di Mahalanobis, distanza di Cook o test di Grubbs. La valutazione di ciò che bisogna considerare valore anomalo non è così chiara come l'individuazione dei valori mancanti. È necessario basare la decisione su un criterio specifico, ad esempio: qualsiasi valore esterno a ±3 deviazioni standard, ±1,5 IQR (differenza interquartile) o un intervallo di 5°–95° centili, viene etichettato come valore anomalo.
È possibile trattare i valori anomali in modo simile ai valori mancanti. È possibile anche utilizzare altre trasformazioni, tra cui: binning, assegnazione di pesi, conversione a valori mancanti, trasformazioni di logaritmi per eliminare l'influenza di valori estremi o winsorizzazione.
Come descritto in precedenza, la pulizia dei dati può includere l'implementazione di tecniche statistiche diverse e di apprendimento automatico. Anche se tali trasformazioni potrebbero creare un modello con scorecard di grado superiore, è necessario considerare la praticità dell'implementazione, poiché manipolazioni complesse di dati possono essere difficili da implementare, possono essere costose e possono rallentare le prestazioni dell'elaborazione dei modelli.
Una volta puliti i dati, siamo pronti per la parte più creativa: le trasformazioni dei dati. La trasformazione dei dati o feature engineering è la creazione di ulteriori variabili del modello (ipotizzate) che vengono verificate per importanza. La maggior parte delle trasformazioni comprende binning e binning ottimale, standardizzazione, ridimensionamento, codifica one-hot, termini di interazione, trasformazioni matematiche (da relazioni non lineari in lineari e dai dati asimmetrici in dati normalmente distribuiti) e la riduzione di dati tramite clustering e analisi dei fattori.
A parte alcuni consigli generici su come affrontare questa attività, è responsabilità dello scienziato dei dati suggerire la migliore strategia per trasformare la firma dei dati del cliente in un potente artefatto di informazioni: la vista del mining. Questo è probabilmente l'aspetto più creativo e più impegnativo del ruolo dello scienziato dei dati, poiché richiede una buona padronanza della comprensione dell'azienda, oltre ad abilità statistiche e analitiche. Molto spesso, la chiave della creazione di un buon modello non è la potenza di una specifica tecnica di costruzione di modelli, ma l'ampiezza e la profondità di variabili derivate che rappresentano un livello superiore di conoscenza sui fenomeni sotto osservazione.
Il resto è l'arte della creazione di caratteristiche...