Assegnazione del punteggio di affidabilità creditizia: Parte 7 - Ulteriori considerazioni nella costruzione di modelli per il rischio di credito

Blog

Inserito

01 nov 2017

Categoria

Scienza dei dati

Condividi

Di: Natasha Mashanovich, Senior Data Scientist presso World Programming, Regno Unito

Parte 7: Ulteriori considerazioni nella costruzione di modelli per il rischio di credito

Per soddisfare le principali caratteristiche dello sviluppo di modelli scientifici: rigore, testabilità, replicabilità e precisione, e confidenza, è importante considerare la convalida del modello e come gestire i dati sbilanciati. Questo articolo sintetizza il framework di convalida avanzato che è possibile utilizzare per soddisfare tali caratteristiche e fornisce una breve panoramica di metodologie applicate frequentemente quando si gestiscono dati sbilanciati.

Framework di convalida avanzata

"Troppo buono per essere vero" – Qualsiasi modello predittivo che si adatta ai dati troppo bene deve essere considerato sospetto. Costruendo modelli predittivi complessi ad alte prestazioni, gli scienziati dei dati spesso commettono errori durante la costruzione di modelli, denominati overfitting. L'overfitting (che si verifica quando un modello si adatta perfettamente al set di dati di training, ma non generalizza in un set di dati di training) è un problema fondamentale e la minaccia maggiore ai modelli predittivi. La conseguenza è una scarsa previsione nei nuovi set di dati (inosservati e trattenuti).


Figura 1. Overfitting del modello

Un numero di framework di convalida esistono allo scopo di rilevare e ridurre l'overfitting. Si distinguono in termini di complessità dell'algoritmo, di capacità computazionale e robustezza. Due tecniche semplici e comuni sono:

Convalida semplice – partizionamento casuale o stratificato in partizioni di training e verifica.

Convalida dei dati trattenuti nidificata – partizionamento casuale o stratificato in partizioni di training, convalida e verifica. Viene eseguito il training su diversi modelli nella partizione di training, confrontata reciprocamente nel campione di convalida e il modello di campione viene convalidato in dati inosservati che si trovano nella partizione di verifica.

Il principale svantaggio di queste due strategie è che il modello adattato ad un sottoinsieme di dati disponibili potrebbe essere ancora soggetto a overfitting. Ciò è particolarmente vero quando si tratta di set di dati contenenti un piccolo numero di osservazioni.

Un altro problema della convalida semplice si verifica quando si regolano i parametri del modello e si verificano costantemente le prestazioni del modello sullo stesso campione di verifica. Ciò porta alla perdita di dati dato che il modello "apprende" efficacemente dal campione di verifica, ovvero il campione di verifica non è più il vero campione dei dati trattenuti e l'overfitting potrebbe diventare un problema. La convalida dei dati trattenuti nidificata potrebbe risolvere il problema fino ad un certo punto, tuttavia questa strategia richiede una grande quantità di dati, il che potrebbe essere problematico.

Il bootstrap e la convalida incrociata sono due framework di convalida concepiti appositamente per superare i problemi con l'overfitting e acquisisce in modo più approfondito le fonti di variazione.

Il bootstrap è il campionamento con la sostituzione. Il processo di convalida del bootstrap standard crea casualmente M campioni diversi dai dati originali, delle stesse dimensioni. Il modello viene adattato su ognuno dei campioni di bootstrap e verificato successivamente sui dati interi per misurare le prestazioni.

La convalida incrociata (CV, Cross Validation) si adatta ai dati sull'intera popolazione scambiando sistematicamente i campioni per la verifica e il training. La convalida incrociata ha molte forme tra cui:

  • K-fold (K-esima) – partizionando la popolazione in campioni di dimensioni uguali K ed eseguendo l'iterazione di K volte sulle suddivisioni di training/verifica
  • Leave-one-out (Mettine da parte uno)
  • Stratificata
  • Convalida incrociata nidificata

La convalida incrociata nidificata è necessaria se si desidera convalidare il modello oltre alla regolazione dei parametri e/o alla selezione delle variabili. Comprende una CV interna e una esterna. La CV interna viene utilizzata per la regolazione dei parametri o la selezione variabili mentre la CV esterna viene utilizzata per la convalida del modello.

Con alcune modifiche, sia il bootstrap che la convalida incrociata possono simultaneamente raggiungere tre diversi obiettivi:

  1. convalida del modello
  2. selezione delle variabili e
  3. regolazione dei parametri (con ricerca a griglia)
Framework del progetto Complessità dell'esecuzione Tecnica Parametri di ottimizzazione Parti della CV Ripetizioni della CV
Convalida del modello 1 CV K N
Selezione delle variabili 1 CV con ricerca a griglia 1-D S* K N
Regolazione dei parametri 1 CV con ricerca a griglia 1-D P** K N
Selezione delle variabili
Regolazione dei parametri
2 CV con ricerca a griglia 2-D (S, P) K N
Selezione delle variabili
Convalida del modello
2 CV nidificata con ricerca a griglia 1-D S K1, K2 N1, N2
Regolazione dei parametri
Convalida del modello
2 CV nidificata con ricerca a griglia 1-D P K1, K2 K1, K2
Selezione delle variabili
Regolazione dei parametri
Convalida del modello
3 CV nidificata con ricerca a griglia 2-D (S, P) K1, K2 N1, N2

Tabella 2. Ricerca a griglia e CV per la convalida, selezione e regolazione

Costruzione di modelli di dati sbilanciati

"Quando buono non è sufficientemente buono" – La precisione del modello, definita come il rapporto previsioni corrette-numero totale di casi, è una tipica misura utilizzata per valutare le prestazioni del modello. Tuttavia, la valutazione delle prestazioni del modello esclusivamente in funzione della precisione potrebbe presentare problemi, dato che potremmo riscontrare il paradosso della precisione. Ad esempio, presupponiamo di avere un set di dati di training sbilanciato, con una piccolissima percentuale di popolazione di destinazione (1%), per la quale prevediamo frodi o altri eventi catastrofici. Anche senza un modello predittivo, solo tirando ad indovinare la percentuale di "nessuna frode" o "nessuna catastrofe", raggiungiamo una precisione del 99%. Notevole! Tuttavia, tale strategia ha un tasso del 100% di insuccesso, ovvero è necessario ancora un modello predittivo per ridurre il tasso di insuccesso (falso negativo, un "errore del tipo II") o per ridurre i falsi allarmi (falso positivo, un "errore del tipo I").

La corretta misurazione delle prestazioni dipende dagli obiettivi aziendali. Alcuni casi richiedono una riduzione del tasso di insuccesso, altri si concentrano maggiormente sulla riduzione dei falsi allarmi, soprattutto se l'obiettivo principale è la soddisfazione del cliente. In base all'obiettivo complessivo, gli scienziati dei dati devono individuare la migliore metodologia per costruire e valutare un modello utilizzando dati sbilanciati.

I dati sbilanciati potrebbero essere problematici quando si usano algoritmi di apprendimento automatico dato che questi set di dati potrebbero disporre di informazioni insufficienti sulla classe di minoranza. Ciò accade perché gli algoritmi basati sulla riduzione dell'errore sistematico sono affetti da errori sistematici verso la classe di maggioranza, trascurando il contributo dei casi in cui siamo più interessati.

Due tecniche generali utilizzate per affrontare i problemi di costruzione di modelli per dati sbilanciati sono il campionamento e la costruzione di modelli di ensemble.

Inoltre, i metodi di campionamento vengono classificati in tecniche di sottocampionamento e sovracampionamento. Il sottocampionamento prevede la rimozione di casi dalla classe di maggioranza e il mantenimento della completa popolazione di minoranza. Il sovracampionamento è il processo di replica della classe di minoranza per bilanciare i dati. Entrambi mirano a creare i dati di training bilanciati in modo che gli algoritmi di apprendimento possano produrre meno risultati affetti da errori sistematici. Entrambe le tecniche hanno possibili svantaggi: il sottocampionamento potrebbe causare la perdita di informazioni, mentre il sovracampionamento può causare l'overfitting.

Una comune modifica alla tecnica di sovracampionamento, sviluppata per ridurre l'overfitting, è la tecnica di sovracampionamento della minoranza sintetica (SMOTE, Synthetic Minority Oversampling TEchnique) che crea casi di minoranza basata su un'altra tecnica di apprendimento, di solito l'algoritmo KNN. Come regola generale, se è disponibile un gran numero di osservazioni, utilizzare il sottocampionamento, altrimenti il sovracampionamento è il metodo preferito.

La procedura riportata di seguito sintetizza un semplice esempio di procedura di sviluppo tramite la tecnica di sottocampionamento.

  1. Creare una vista di training bilanciata selezionando tutti i casi "cattivi" e un campione casuale di casi "buoni" in proporzione, per esempio rispettivamente il 35%/65%. Se vi è un numero sufficiente di casi "cattivi", sottocampionare da una partizione di training sbilanciata, altrimenti utilizzare l'intera popolazione da sottocampionare.
  2. Selezionare il miglior insieme di predittori tramite la normale procedura di costruzione di modelli:
    1. Selezione di variabili di candidati
    2. Fine classing (classificazione dettagliata)
    3. Coarse classing (classificazione compatta) con binning ottimale
    4. Peso dell'evidenza o trasformazioni fittizie
    5. Modello di regressione logistica per passi
  3. Se non è creato alla fase 1, partizionare il completo set di dati sbilanciato in partizioni di training e verifica, ad esempio il 70% nella partizione di training, il 30% nella partizione di verifica. Mantenere il rapporto della classe di minoranza uguale in entrambe le partizioni.
  4. Eseguire il training del modello con le variabili del modello selezionate mediante il metodo per passi nella fase 2e nella partizione di training
  5. Convalidare il modello nella partizione di verifica

La costruzione di modelli di ensemble è un'alternativa per la costruzione di modelli di dati sbilanciati. L'aggregazione bootstrap e l'amplificazione sono tipiche tecniche utilizzate per creare predittori più robusti e superare l'overfitting, senza utilizzare il sottocampionamento o il sovracampionamento. Il bagging è un'aggregazione bootstrap che crea diversi bootstrap con la sostituzione, esegue il training del modello in ciascun bootstrap e calcola la media dei risultati della previsione. L'amplificazione funziona costruendo gradualmente un predittore più robusto in ogni iterazione e apprendendo dagli errori commessi nell'iterazione precedente.

Come descritto in precedenza, la precisione non è la metrica preferita per i dati sbilanciati, dato che considera solo previsioni corrette. Tuttavia, considerando simultaneamente risultati corretti e incorretti, possiamo ottenere più informazioni approfondite sul modello di classificazione. In questi casi, le utili misurazioni delle prestazioni sono la sensibilità (sinonimi sono richiamo, tasso di completezza, probabilità di rilevamento o tasso di veri positivi), la specificità (tasso di veri negativi) o la precisione.

Oltre a queste tre metriche scalari, un'altra misurazione comune che domina il settore è la curva ROC. La curva ROC è indipendente dalla proporzione di casi "cattivi" rispetto a quelli "buoni", che è la caratteristica importante, soprattutto per i dati sbilanciati. Laddove vi sia un numero sufficiente di casi "cattivi", piuttosto che utilizzare i metodi di dati sbilanciati, è possibile applicare la metodologia di costruzione di modelli standard e verificare il modello risultante tramite la curva ROC.