Assegnazione del punteggio di affidabilità creditizia: Parte 4 - Selezione delle variabili

Blog

Megaphone

Inserito

11 ott 2017

Categoria

Scienza dei dati

Condividi

Di: Natasha Mashanovich, Senior Data Scientist presso World Programming, Regno Unito

Main image

Parte 4: Selezione delle variabili

Ragioni

"Fare di più con meno" è la filosofia principale della credit intelligence e i modelli di rischio di credito sono i mezzi con cui raggiungere questo obiettivo. Utilizzando un processo automatizzato e concentrandosi sulle informazioni principali, le decisioni in merito al credito possono essere prese nel giro di secondi e alla fine possono ridurre i costi operativi velocizzando molto di più il processo decisionale. Con un numero inferiore di domande e rapide decisioni sul credito, si ottiene un aumento sostanziale della soddisfazione del cliente. Per gli istituti finanziatori, significa espandere la clientela, accettando clienti meno rischiosi e aumentando i profitti.

Come raggiungere la parsimonia e quali sono le informazioni principali da cercare? La risposta si trova durante la fase successiva del processo di costruzione di modelli del rischio di credito, il processo di selezione delle variabili.

La vista del mining creato come risultato della preparazione dei dati è una firma del cliente unico multidimensionale, utilizzata per scoprire le potenziali relazioni previsionali e testare la forza di tali relazioni. Un'analisi approfondita della firma del cliente è una fase importante durante la creazione di un set di ipotesi verificabili, basate sulle caratteristiche trovate nella firma del cliente. Spesso denominato business insight, quest'analisi offre un'interpretazione delle tendenze nel comportamento del cliente che mira a dirigere il processo di costruzione di modelli.

Lo scopo dell'analisi di business insight è di:

  1. Convalidare che i dati del cliente derivati siano allineati con la comprensione dell'azienda. Per esempio, l'analisi delle informazioni approfondite (insight) deve sostenere la politica aziendale che i clienti con un rapporto debito-reddito superiore sono più propensi all'insolvenza;
  2. Fornire benchmark per l'analisi dei risultati dei modelli;
  3. Formare la metodologia della costruzione di modelli

L'analisi di business insight utilizza simili tecniche per l'analisi dei dati esploratoria la combinazione di statistiche ad una variabile e multivariate, e diverse tecniche di visualizzazione dei dati. Le tecniche tradizionali sono: correlazione, tabulazione incrociata, distribuzione, analisi di serie storiche e analisi di segmentazione supervisionata e non supervisionata. La segmentazione assume un'importanza speciale, poiché determina quando sono necessarie più scorecard.

La selezione delle variabili, basata sui risultati dell'analisi dei business insight, inizia a ripartire la vista del mining in almeno due diverse sezioni: training e verifica. La sezione del training viene utilizzata per sviluppare il modello e la sezione della verifica viene utilizzata per valutare le prestazioni del modello e la convalida del modello.

Part4 1.it it
Figura 1. Processo semplificato di costruzione di modelli per scorecard

Selezione delle variabili

La Selezione delle variabili è una raccolta di variabili del modello candidato, verificate per importanza durante il training del modello. Le variabili del modello candidato sono anche note come variabili indipendenti, predittori, attributi, fattori del modello, covariate, regressori, funzionalità o caratteristiche.

La selezione delle variabili è un processo parsimonioso che mira ad individuare un minimo insieme di predittori per il massimo guadagno (precisione predittiva). Questa strategia è l'opposto della preparazione dei dati, laddove si aggiungono alla vista del mining quante più variabili significative possibili. Tali requisiti opposti si raggiungono mediante l'ottimizzazione; ovvero cercando la minima distorsione della selezione secondo i vincoli forniti.

L'obiettivo principale è quello di trovare un corretto insieme di variabili in modo che il modello di scorecard possa, non solo classificare i clienti in base alla loro probabilità di svalutazione crediti, ma anche per stimare la probabilità della loro svalutazione crediti. Di solito, significa selezionare variabili statisticamente significative nel modello predittivo e avere un insieme equilibrato di predittori (normalmente da 8 a 15 si considerano un buon equilibrio) in modo da convergere in una vista del cliente a 360 gradi. Oltre alle caratteristiche del rischio specifiche per il cliente, dovremmo anche considerare i fattori di rischio sistematici da tenere in conto per tendenze economiche e volatilità.

È più facile dirlo che farlo: quando si selezionano le variabili, vi sono tante limitazioni. In primo luogo, il modello contiene normalmente alcune variabili estremamente predittive il cui uso è vietato da regole legali, etiche o normative. In secondo luogo, alcune variabili potrebbero non essere disponibili o potrebbero essere di scarsa qualità durante la costruzione di modelli o la produzione di fasi. Inoltre, potrebbero esservi variabili importanti che non sono state riconosciute come tali, ad esempio, a causa di un campione di popolazione affetto da errore sistematico o perché l'effetto del modello è imprevisto in conseguenza della multicollinearità. E alla fine, l'azienda ha sempre l'ultima parola e potrebbe insistere che si includano solo le variabili accettabili dall'azienda oppure richiedere effetti monotonamente crescenti o decrescenti.

Tutte queste limitazioni sono possibili fonti di distorsioni che danno agli scienziati dei dati il difficile compito di ridurre le distorsioni delle selezioni. Tra le tipiche misure preventive durante la selezione delle variabili vi sono:

  • la collaborazione con esperti nel campo, per individuare le variabili importanti;
  • la consapevolezza di problemi in relazione all'origine, affidabilità o misurazione erronea dei dati;
  • la pulizia dei dati;
  • l'uso delle variabili di controllo per tener conto di variabili proibite o eventi specifici come la tendenza economica.

È importante riconoscere che la selezione delle variabili è un processo iterativo che si verifica per tutto il processo di costruzione di modelli.

  • Inizia prima dell'adattamento del modello riducendo il numero di variabili nella vista del mining ad un insieme gestibile di variabili candidate;
  • continua durante il processo di training del modello, laddove viene implementata un'ulteriore riduzione in conseguenza all'irrilevanza statistica, multicollinearità, i bassi contributi o la penalizzazione per evitare l'overfitting;
  • continua durante la valutazione e la convalida del modello; e
  • si completa durante l'approvazione da parte dell'azienda, laddove la leggibilità e l'interpretabilità del modello giocano un ruolo importante.

La selezione delle variabili termina dopo aver raggiunto il "punto giusto", ovvero non si può ottenere nessun altro miglioramento in termini di precisione del modello.

Part4 2.it it
Figura 2. Natura iterativa del processo di selezione delle variabili

È disponibile una pletora di metodi di selezione delle variabili. Con i progressi dell'apprendimento automatico, questo numero è in continuo aumento. Le tecniche di selezione delle variabili dipendono dalla possibilità o meno che utilizziamo la riduzione delle variabili o l'eliminazione delle variabili (filtraggio), che il processo di selezione si svolga all'interno o all'esterno dei modelli predittivi; che utilizziamo l'apprendimento supervisionato e non supervisionato; oppure se i metodi sottostanti si basano su specifiche tecniche incorporate, quale la convalida incrociata.

Metodo di selezione delle variabiliEsempi

Modelli predittivi
esterni di selezione
delle variabili supervisionate (Figura 3)

  • Valore informativo
  • Costanti campionarie chi-quadrato
  • Indice di concentrazione

Modelli predittivi esterni
dell'estrazione/selezione delle variabili
non supervisionate

  • Analisi della correlazione
  • Analisi del cluster
  • Analisi del componente principale
  • Reti neurali

Modelli predittivi
interni di selezione
delle variabili supervisionate

  • Selezione ricorsiva delle funzionalità:
    diretta, inversa e per passi
  • Tecniche di regolarizzazione
    (per esempio, AIC/BIC, lasso, ridge)
  • Tecniche di ensemble
    (per esempio, foresta casuale e gradient boosting)
  • Convalida incrociata

Tabella 1. Metodi di selezione delle variabili tipici nella costruzione di modelli del rischio di credito
Part4 3
Figura 3. Selezione delle variabili tramite l'analisi bivariata

Nella costruzione di modelli del rischio di credito, due dei metodi di selezione delle variabili più comunemente utilizzati hanno un valore informativo per filtrare prima del training del modello e della selezione per passi per la selezione delle variabili durante il training di un modello di regressione logistica. Sebbene entrambi ricevano alcune critiche dai professionisti, è importante riconoscere che nessuna metodologia ideale esiste come ciascuno dei metodi per la selezione delle variabili ha i suoi pro e contro. Quale usare e quale fosse il miglior modo di combinarli non è un compito così facile da risolvere e richiede un'ottima conoscenza del dominio, una buona comprensione dei dati e una vasta esperienza nella costruzione di modelli.