Assegnazione del punteggio di affidabilità creditizia: Parte 2 - Metodologia di costruzione di modelli per scorecard del credito

Blog

Megaphone

Inserito

21 set 2017

Categoria

Scienza dei dati

Condividi

Di: Natasha Mashanovich, Senior Data Scientist presso World Programming, Regno Unito

Main image

Ragioni

"Un grande progetto consiste nel presentare una grande complessità con la semplicità. (M. Cobanli)" – La mia responsabilità, come scienziata dei dati, è quella di progettare e sviluppare un modello di rischio di credito preciso, utile e stabile. Devo anche assicurarmi che altri scienziati dei dati e analisti finanziari possano valutare il mio modello o replicare la stessa procedura e produrre risultati identici o simili.

Durante il processo di sviluppo del modello, cerco le risposte a numerose domande poste all'azienda. Le risposte a volte richiedono un giudizio soggettivo. Non c'è niente di male in questo soggettivismo, purché possa documentare le mie domande e le risposte corrispondenti. Ovviamente, se provo ad aggiungere le domande e le risposte ad un elenco, c'è il pericolo di ritrovarmi con un elenco enorme che poi è difficile da seguire. Potrei anche ritrovarmi con alcune domande ripetute o persino risposte contraddittorie.

Come posso essere sicura che: (1) non mi mancheranno le risposte alle domande importanti; (2) il mio modello supererà correttamente una revisione paritaria o un processo di controllo; oppure (3) i miei colleghi saranno in grado di replicare i risultati del modello?

Per soddisfare i suddetti punti, ho bisogno di:

  • una procedura sistematica, metodologia, che seguirò per garantire la migliore prassi;
  • una struttura di supporto, framework teorico, che comincerò ad inserire le mie risposte;
  • una descrizione di un modello di rischio di credito che stabilisca le caratteristiche importanti, progetto del modello, che dimostri i vantaggi per l'azienda, come quello di generare maggiori utili.

Una volta individuato questi elementi importanti, posso cominciare ad inserire le mie domande nelle categorie giuste del framework teorico e procedere con la progettazione e la costruzione del modello. Il processo potrebbe assomigliare a quello seguente:

  • Domanda 1: Come distinguo un "cattivo" cliente da uno "buono"? Paga 60, 90 o 180 giorni dopo la data di scadenza?
  • Risposta 1: Questo fa parte del progetto del mio modello. Cercherò la risposta dall'azienda e la documenterò sotto "definizione operativa".

  • Domanda 2: Quando il modello prevede clienti "buoni"/"cattivi", che durata deve avere il periodo per il risultato? Devo fissare la data o la durata di un tale periodo?
  • Risposta 2: Anche questo fa parte del progetto del mio modello. Devo nuovamente verificare con l'azienda che previsione si aspettano dal modello. Registrerò questa risposta sotto la "finestra delle prestazioni". Una volta stabilita la definizione e il periodo per il risultato, posso derivare la variabile del risultato dai miei dati, che faranno parte del mio framework.

  • Domanda 3: Chi devo includere nell'analisi? Devo escludere i clienti fraudolenti o quelli che si trovano nello stato compreso tra "buono" e "cattivo"?
  • Risposta 3: Nel progetto del mio modello, devo aggiungere un elenco con tutti i presupposti che faccio in modo da poter chiedere all'azienda di confermarli.

  • Domanda 4: Come distinguo un "cattivo" cliente da uno "buono"?
  • Risposta 4: Questo fa parte del mio framework teorico, soprattutto l'identificazione di variabili indipendenti. Esplorerò i dati per stabilire le relazioni tra le caratteristiche dei clienti e la variabile del risultato. Per esempio, "i clienti che hanno un reddito regolare hanno una probabilità inferiore di diventare insolventi" oppure "i vecchi clienti hanno una probabilità inferiore di diventare insolventi". In terminologia scientifica, ogni caratteristica, quale reddito o età, rappresenta un'ipotesi verificata per importanza tramite un metodo statistico come ad esempio la regressione logistica. In base all'analisi statistica, posso decidere se tenere tali variabili nel modello.

  • e così via...

Le sezioni successive descrivono la metodologia di costruzione di modelli di scorecard in maggiore dettaglio.

Metodologie di sviluppo

Qualsiasi progetto dell'azienda, della ricerca o del software richiede una metodologia sensata, spesso sotto forma di un framework teorico o concettuale. Lo scopo del framework è quello di descrivere l'ordine dei passi nella procedura e le relative interazioni. Ciò garantisce che vengano svolte tutte le fasi importanti, offre una comprensione del progetto stesso, definisce le importanti attività cardine e stabilisce la collaborazione attiva tra le parti interessate del progetto.

Spesso, non vi è più di una metodologia stabilita che si potrebbe adottare. I progetti di data mining sono esempi tipici dove sono disponibili più framework concettuali. Il data mining di solito riguarda lo sviluppo di un modello previsionale utilizzato per scopi aziendali. Avendo una natura multidisciplinare, i progetti di data mining richiedono di considerare diverse prospettive, tra cui:

  • Azienda: per valutare potenziali vantaggi per l'azienda
  • Scienza dei dati: per crear un modello teorico
  • Sviluppo del software: per sviluppare una soluzione software attuabile

Ogni punto di vista potrebbe richiedere una metodologia separata, ma almeno due sarebbero necessarie per contenere le suddette prospettive. Esempi di due metodologie diffuse sono Agile-scrum e CRISP-DM (Cross Industry Standard Process for Data Mining); la prima adottata in modo da rivolgersi ai requisiti di sviluppo aziendale e software e l'ultima adottata per la costruzione di un modello aziendale.

La metodologia Agile-scrum è un approccio iterativo con un limite di tempo per lo sviluppo del software che compila il software in modo incrementale e ha l'obiettivo di offrire valore all'azienda. La metodologia promuove il coinvolgimento di utenti attivi, le efficaci interazioni tra le parti interessate e feedback frequenti. In questo senso, è molto adatta a progetti di data mining che di solito vengono svolti entro brevi intervalli di tempo e richiedono aggiornamenti frequenti in modo da fronteggiare a un clima economico sempre più variabile.

CRISP-DM è la metodologia leader nel settore per un modello dei processi di data mining. Comprende sei fasi principali interconnesse: (1) conoscenza dell'azienda, (2) conoscenza dei dati, (3) preparazione dei dati, (4) costruzione di modelli, (5) valutazione e (6) distribuzione.

Part2 1.it it
Figura 1. CRISP-DM – Framework di data mining

Lo scopo fondamentale di un modello previsionale è quello di soddisfare le esigenze aziendali per quanto riguarda il miglioramento delle prestazioni di un'azienda e dei processi aziendali. La conoscenza dell'azienda e dei dati sono entrambe fasi importanti della CRISP-DM. I risultati delle due fasi devono essere un framework teorico sensato e un progetto del modello.

Framework teorico e progetto del modello

Un Framework teorico è la parte fondamentale che contribuisce ad individuare i fattori importanti e le loro relazioni in un modello previsionale (ipotizzato), quale un modello del rischio di credito. L'obiettivo è quello di formulare una serie di ipotesi e decidere un metodo di costruzione di modelli (quale la regressione logistica) per la verifica di tali ipotesi. È più importante, tuttavia, stabilire metodi per replicare/convalidare i risultati e acquisire una maggiore fiducia nel rigore del modello.

Gli elementi chiave di questo framework sono: (1) la variabile dipendente (criterio), ad esempio, "Stato del credito", (2) le variabili indipendenti o predittori, quali età, stato residenziale e lavorativo, reddito, dati bancari, cronologia dei pagamenti o cronologia delle insolvenze, e (3) le ipotesi verificabili, ad esempio "i proprietari di casa hanno una probabilità inferiore di diventare insolventi".

Il Progetto del modello deve seguire i principi accettati della metodologia di progetto di ricerca che è il piano per la raccolta dei dati, la misurazione e l'analisi dei dati, quindi è possibile verificare il modello per affidabilità e validità. Il primo verifica il grado con cui il modello produce risultati stabili e coerenti, l'ultimo verifica se il modello rappresenta in realtà il fenomeno che stiamo cercando di prevedere, ovvero "Abbiamo fatto la cosa giusta?"

Un buon progetto del modello deve documentare i dati seguenti:

  • l'unità di analisi (come il cliente o livello del prodotto),
  • il quadro della popolazione (ad esempio, i richiedenti di prestiti occasionali) e le dimensioni del campione,
  • le definizioni operative (come la definizione di "cattivo") e i presupposti di costruzione di modelli (ad esempio, escludendo i clienti fraudolenti),
  • orizzonte temporale dell'osservazione (come la cronologia dei pagamenti del cliente negli ultimi due anni) e le periodo delle prestazioni, ovvero l'intervallo di tempo per cui si applica la definizione di "cattivo",
  • origini dati e metodi di raccolta dei dati.

Part2 2.it it
Figura 2. Utilizzo dei dati storici per prevedere i risultati futuri

La lunghezza dell'osservazione e i periodi di osservazione dipenderanno dal settore industriale per cui il modello viene progettato. Per esempio, nel settore bancario entrambi i periodi sono tipicamente più lunghi rispetto al settore delle telecomunicazioni dove i frequenti cambiamenti nei prodotti richiedono periodi di osservazione e prestazioni più brevi.

Le scorecard di applicazione vengono normalmente applicate ai nuovi clienti e non hanno nessun periodo di osservazione perché ai clienti viene attribuito un punteggio usando le informazioni note al momento della richiesta. I dati esterni, quali i dati di ufficio dominano sui dati interni per questo tipo di scorecard. Le scorecard comportamentali hanno un periodo di osservazione che utilizza i dati interni e tendono ad avere una migliore potenza previsionale rispetto alle scorecard applicative.

È possibile applicare le diverse scorecard in tutto l'intero viaggio del cliente dalle campagne di acquisizione per prevedere la probabilità che un cliente risponda ad una campagna di marketing. Durante la fase applicativa, ai clienti può essere attribuito un punteggio contro più modelli previsionali, come la probabilità che diventino insolventi relativamente ad un'obbligazione creditizia o prevedendo clienti fraudolenti. Un intervallo di modelli di scorecard comportamentali viene applicato a clienti preesistenti per prevedere la probabilità di insolvenza al fine di impostare i limiti di credito e i tassi di interesse, o per pianificare le campagne di up-selling e cross-selling; la probabilità di movimentare le campagne di ritenzione o prevedere la probabilità di recupero della somma del debito o la probabilità di autoestinguersi al fine del recupero crediti.

Procedura di sviluppo di modelli di credit scorecard

Una volta specificati il framework teorico e il progetto del modello, siamo pronti per le fasi successive in CRISP-DM. Con leggere modifiche da un caso all'altro, la normale procedura del processo di sviluppo della credit scorecard è delineata nella tabella riportata di seguito.

Fase CRISP-DMProcedura
Preparazione dei dati1. Integrazione dei dati
2. Analisi dei dati esploratoria
3. Pulizia dei dati
4. Trasformazione dei dati
Creazione del modello5. Dati di training (partizionamento)
6. Selezione dei predittori
7. Peso della trasformazione di evidenza
8. Costruzione del modello (per esempio, regressione logistica)
9. Rifiutare le conclusioni (facoltativo)
10. Ridimensionamento del modello di scorecard
Valutazione11. Valutazione e convalida del modello
12. Strategie di rischio di credito
13. Analisi del ROI
Distribuzione14. Codice di distribuzione
15. Assegnazione di punteggi, verifica e implementazione del modello
16. Monitoraggio del modello

Tabella 1. Normale procedura per la costruzione di un modello standard di scorecard del rischio di credito