Assegnazione del punteggio di affidabilità creditizia: Parte 6 - Segmentazione e reinserimento dei rifiutati

Blog

Inserito

25 ott 2017

Categoria

Scienza dei dati

Condividi

Di: Natasha Mashanovich, Senior Data Scientist presso World Programming, Regno Unito

Parte 6: Segmentazione e reinserimento dei rifiutati (Reject Inference)

"Segmentazione e reinserimento dei rifiutati, o semplificazione? Questa è la domanda!" Questo articolo esplora due ulteriori aspetti che spesso è necessario trattare durante il processo di sviluppo di scorecard: segmentazione e reinserimento dei rifiutati (RI).

Segmentazione

Quante scorecard? Quali sono i criteri? Qual è la procedura consigliata? Sono le domande comuni a cui proviamo a rispondere presto durante lo sviluppo di scorecard, cominciando dal processo di individuare e giustificare il numero di scorecard, noto come segmentazione.


Figura 1. Segmentazione di scorecard

La prevalutazione iniziale della segmentazione viene svolta durante l'analisi delle informazioni approfondite sull'azienda. In questa fase, l'azienda dovrebbe essere informata su eventuali segmenti di popolazione eterogenei individuati che potrebbero avere caratteristiche diverse, per cui è impossibile trattarli come un unico gruppo per consentire una decisione aziendale preliminare sull'accettazione di più scorecard.

I fattori chiave aziendali per la segmentazione sono: (1) il marketing, come le offerte del prodotto o i nuovi mercati, (2) i diversi trattamenti destinati a diversi gruppi di clienti, ad esempio, in base ai dati demografici, e (3) la disponibilità dei dati, cioè dati diversi potrebbero essere disponibili tramite diversi canali di marketing o alcuni gruppi di clienti potrebbero non avere a disposizione una storia creditizia.

I fattori chiave statistici per la segmentazione presuppongono che vi sia un numero sufficiente di osservazioni in ogni segmento, inclusi i clienti "buoni" e "cattivi", e ciascun segmento contiene effetti derivati dalle interazioni dove criteri predittivi variano da un segmento all'altro.

In genere, il processo di segmentazione include le fasi seguenti:

  1. Individuare un semplice schema di segmentazione utilizzando la segmentazione supervisionata o non supervisionata.
    1. Per la segmentazione supervisionata, spesso si utilizza un albero delle decisioni per individuare i possibili segmenti e acquisire gli effetti dell'interazione. In alternativa, è possibile utilizzare le parti restanti di un modello di ensemble per rilevare le interazioni nei dati.
    2. La segmentazione non supervisionata, come il clustering, si può utilizzare per creare i segmenti, ma questo metodo non acquisisce necessariamente gli effetti dell'interazione.
  2. Individuare un insieme di predittori candidati per ogni segmento.
  3. Costruire un modello separato per segmento.
  4. Prova:
    1. Se i modelli segmentati hanno diversi criteri predittivi. La mancata individuazione delle nuove caratteristiche predittive per i segmenti indica che lo scienziato dei dati deve ricercare una migliore suddivisione della segmentazione o costruire un modello unico.
    2. Se i modelli segmentati hanno simili criteri predittivi, ma con grandezze significativamente diverse oppure effetti contrari da un segmento all'altro.
    3. Se i modelli segmentati producono un aumento di grado superiore della capacità di previsione, in confronto ad un modello unico costruito sull'intera popolazione.

La segmentazione è un processo iterativo che richiede un costante giudizio per determinare se utilizzare segmenti singoli o multipli. Dall'esperienza dei professionisti, la segmentazione raramente causa un aumento significativo e occorre impegnarsi al massimo per produrre una singola scorecard. I comuni metodi utilizzati per evitare la segmentazione includono l'aggiunta di ulteriori variabili nella regressione logistica per acquisire gli effetti dell'interazione o individuare le variabili più predittive per segmento e combinarle in un unico modello.

Le scorecard separate sono di solito costruite indipendentemente. Tuttavia, se è un problema l'affidabilità dei fattori del modello, un modello padre/figlio potrebbe offrire una strategia alternativa. In questa strategia, sviluppiamo un modello padre sulle caratteristiche comuni e utilizziamo l'output del modello come predittore nei relativi modelli figli per integrare le caratteristiche uniche in tutti i segmenti figli.

Lo scopo principale delle scorecard multiple è quello di migliorare la qualità della valutazione dei rischi in confronto ad una scorecard singola. Occorre utilizzare le scorecard segmentate solo se offrono un valore significativo all'azienda che supera i maggiori costi per lo sviluppo e l'implementazione, la complessità del processo di gestione delle decisioni, l'ulteriore gestione delle scorecard e il maggior uso di risorse informatiche.

Reinserimento dei rifiutati

Le scorecard applicative hanno un errore sistematico della selezione che si verifica naturalmente se la costruzione di modelli si basa esclusivamente sulla popolazione accettata con prestazioni note. Tuttavia, vi è un gruppo significativo di clienti rifiutati esclusi dal processo di costruzione di modelli a causa delle loro prestazioni sconosciute. Per affrontare l'errore sistematico della selezione, i modelli delle scorecard dell'applicazione devono includere entrambe le popolazioni. Ciò significa che è necessario reinserire le prestazioni sconosciute dei rifiutati, il cui processo si completa tramite il metodo Reject inference (RI, Reinserimento dei rifiutati).


Figura 2. Popolazioni degli accettati e rifiutati

Con o senza il reinserimento dei rifiutati? Vi sono due scuole di pensiero: coloro che pensano che RI sia un circolo vizioso, in cui le prestazioni inserite dei rifiutati si basano sulla popolazione accettata, ma affetta da errore sistematico, che di conseguenza porta ad un reinserimento dei rifiutati meno affidabile; e coloro che sostengono che la metodologia RI ha una strategia preziosa che favorisce le prestazioni del modello.

Esistono alcune fasi aggiuntive necessarie durante lo sviluppo di scorecard se si usa RI:

  1. Costruire un modello di regressione logistica sugli accettati, questo è il base_logit_model
  2. Reinserire i rifiutati tramite una tecnica per il reinserimento dei rifiutati
  3. Combinare gli accettati e i rifiutati reinseriti in un singolo set di dati (complete_population)
  4. Costruire un nuovo modello di regressione logistica su complete_population, questo è il final_logit_model
  5. Convalidare il final_logit_model
  6. Creare un modello di scorecard basato sul final_logit_model


Figura 3. Sviluppo di scorecard tramite il reinserimento dei rifiutati

Il reinserimento dei rifiutati è una forma di trattamento dei valori mancanti dove i risultati sono "missing not at random" (MNAR, mancanti non casualmente), causando differenze significative tra le popolazioni accettate e rifiutate. Vi sono due strategie generali utilizzate per reinserire le prestazioni mancanti: assegnazione e incremento, ognuno avente un diverso insieme di tecniche. Le tecniche più diffuse all'interno delle due strategie sono l'assegnazione proporzionale, l'incremento semplice e parziale e il parcelling (suddivisione in pacchetti).

Tecniche di assegnazione Tecniche di incremento
Ignorare rifiutati, non usare RI Incremento semplice
Assegnare lo stato "cattivo" a tutti i rifiutati Incremento parziale
Strategia basata su regole Parcelling (suddivisione in pacchetti)
Assegnazione proporzionale Reinserimento caso per caso
Reinserimento bivariato

Tabella 1. Tecniche di reinserimento dei rifiutati

L'assegnazione proporzionale è un partizionamento casuale dei rifiutati in clienti "buoni" e "cattivi" con un tasso di "cattivi" da due a cinque volte maggiore di quello della popolazione accettata.

L'incremento semplice acquisisce l'assegnazione dei punteggi ai rifiutati tramite base_logit_model e la partiziona in clienti "buoni" e "cattivi" in base ad un valore soglia. Il valore soglia viene selezionato in modo che il tasso di "cattivi" nei rifiutati sia da due a cinque volte maggiore di quello negli accettati.

L'incremento parziale acquisisce l'assegnazione dei punteggi dei rifiutati tramite il base_logit_model. Ogni record viene efficacemente duplicato contenendo i componenti "cattivi" ponderati e "buoni" ponderati, entrambi derivati dai punteggi dei rifiutati. Tali pesi, insieme ai pesi pari a "1" per tutti gli accettati, vengono utilizzati nel final_logit_model. Un tasso di "cattivi" nei rifiutati da due a cinque volte maggiore di quello negli accettati è la strategia consigliata.

Il parcelling (suddivisione in pacchetti) è un metodo ibrido che comprende l'incremento semplice e l'assegnazione proporzionale. I pacchetti vengono creati mediante il binning dei punteggi dei rifiutati, generati tramite il base_logit_model, nelle bande dei punteggi. L'assegnazione proporzionale viene applicata a ciascun pacchetto con un tasso di "cattivi" da due a cinque volte maggiore del tasso di "cattivi" nella banda di punteggio equivalente della popolazione accettata.


Figura 4. Assegnazione proporzionale

Figura 5. Incremento semplice

Figura 6. Incremento parziale

Figura 7. Parcelling (suddivisione in pacchetti)