クレジットスコアリング:パート6 - セグメンテーションと却下の推定

ブログ

投稿日

2017年10月25日

カテゴリー

データサイエンス

共有

筆者:英国 World Programming シニアデータサイエンティスト Natasha Mashanovich

パート6:セグメンテーションと却下の推定

「セグメンテーションか却下の推定かもしくはシンプルに保つか? – それが問題だ!」この記事はスコアカードの開発工程中に取り組まなくてはならない2つの局面について考察します。それはセグメンテーションと却下の推定(RI)の2つです。

セグメンテーション

スコアカードの数は?基準は何か?最良の実施方法は何か? – これらはスコアカード開発で初期に解答を試みる一般的な疑問であり、多くのスコアカードを見分け判断することで始まるものでセグメンテーションとして知られています。


図1。スコアカードのセグメンテーション

初期セグメンテーションの事前評価は、ビジネスインサイトの分析中に実行されます。この段階で、複数のスコアカードを受け付けるという初期事業決定を下すことを可能にするために、発見した異なる特質のため一グループとしての処理が不可能である異質な集団セグメントについてビジネス上知る必要があります。

セグメンテーションのビジネス上の推進要因は以下のようになります。(1)製品提供や新製品などのマーケティング、(2)例えば購買層などに基づいて個別の顧客グループへ施される異なる処理、(3)データの有効性、つまり異なるデータは異なるマーケティングチャンネルに有効であるもしくはいくつかの顧客グループは有効なクレジット履歴を持っていない等。

セグメンテーションの統計的な推進要員は、各セグメントに十分な変数があり、「良い」と「悪い」口座を含み、セグメント全体を通して予測パターンが多様になる相互作用を各セグメントが含んでいることを前提とします。

典型的にはセグメンテーションの工程は以下のようなステップを含んでいます。

  1. 教師ありもしくは教師なしセグメンテーションを使用して単純なセグメンテーションの構造を見つける。
    1. 教師ありセグメンテーションでは潜在的なセグメントの発見と相互作用を捉えるためにしばしば決定木が使用されます。代わりにデータの相互作用を検知するのにアンサンブルモデルの残差を使用することもできます。
    2. クラスタリングなどの教師なしセグメンテーションはセグメントを作成するのに使用できますが、この手法で相互作用を捉える必要はありません。
  2. 各セグメントの予測変数の候補を決定する。
  3. 各セグメント毎に異なるモデルを構築する。
  4. テスト
    1. セグメントモデルが異なる予測パターンを持っているかどうか。セグメント全体を通して新たに予測的な特徴を発見するのに失敗した場合、データサイエンティストはセグメンテーションの区分を変えるか単独のモデルを構築する必要があります。
    2. 区分されたモデルは類似した予測パターンを持っているが、セグメント全体では著しく異なる規模や相反する効果を持っているかどうか。
    3. 集団全体に構築された単独のモデルと比べて、セグメントモデルが予測能力において高いリフト値を与えるかどうか。

単一か複数のモデルを使用するかの決定を判断するために、セグメンテーションは繰り返し行われる行程です。実務家の経験からいえば、セグメンテーションが著しくリフト値を得ることは珍しく、単独のスコアカードを作成するために全力を費やすべきです。セグメンテーションを避けるための一般的な手法は、相互作用を捉えるためのロジスティック回帰の余分な変数追加もしくは、セグメント毎に最も予測的な変数を発見しそれらを1つのモデルへ集約することを含みます。

異なるスコアカードは通常、独立して構築されます。ただし、モデル因子の信頼性が問題であれば、親/子モデルが代替え手段として使用されます。この手法では共通の特徴に親モデルを開発し、子セグメント全体へ一意の特徴を追加するために、そのモデルのアウトプットを予測変数として子モデルへ使用します。

複数のスコアカードの主要な目的は単一のスコアカードと比べたときのリスク評価を改善することです。セグメント化されたスコアカードは、さらに高度な開発と実装コストや複雑な意思決定管理、スコアカードの付加的な管理と IT リソースのさらなる消費にも勝る著しい価値を与える場合にだけ使用されるべきです。

却下の推定

モデリングが既知のふるまいの承認された集団のみに基づいていると、申請スコアカードは自然発生的な選択バイアスを持っています。しかし実際は、未知のふるまいにより却下された顧客というモデリングの工程からは除かれた重要なグループがあります。選択バイアスに対処するためには、申請スコアカードモデルは双方の集団を含んでいるべきです。これは却下の推定(RI)手法を使用して却下の未知のふるまいを推定する必要があることを意味しています。


図2。集団の承認や却下を行う

却下の推定を行うのか行わないのか?- このことについては次のような2つの学派があります。一方は承認されているばバイアスのかかった集団に基づいて却下のふるまいを推定する RI は悪循環であると考え、もう一方は RI 手法はモデルのパフォーマンスにとって有益な方法であると考えています。

RI を使用してスコアカードを開発している場合、次のようないくつか余分なステップが必要になります。

  1. 承認にロジスティック回帰モデルを構築する - これはベースのロジットモデルです
  2. 却下の推定手法を使用して却下を推測する
  3. 承認と推測された却下を1つのデータセット(完成した集合)に結合する
  4. 完成した集合に新しくロジスティック回帰モデルを構築する - これは最終のロジットモデルです
  5. 最終のロジットモデルを検証する
  6. 最終のロジットモデルを基にスコアカードモデルを作成する


図3。却下の推定を使用してのスコアカード開発

却下の推定は、結果が「ランダムではなく欠損する」(MNAR)の場合の欠損値の取扱い方の形式で、承認と却下の集団の間で著しく結果が異なります。欠損値のふるまいを推定するには割り当てと増加という一般的な2つの手法があり、双方ともに様々な手法の組み合わせがあります。この2つの手法の中で最も使用される手法は相対的割り当て、シンプルであいまいな増加、区分けです。

割り当て手法 増加手法
却下を無視して RI を使用しない シンプルな増加
全ての却下に「悪い」を割り当てる あいまいな増加
規定に基づく手法 区分け
相対的割り当て 事例に基づく推定
2変数推定

表1。却下の推定手法

相対的割り当ては却下を承認のものよりも2~5倍「悪い」率が大きなものを「良い」と「悪い」口座へランダムに区分します。

シンプルな増加は却下をスコアリングするために、ベースのロジットモデルを使用しカットオフ値に基づいて却下を「良い」と「悪い」口座に区分するものと前提します。カットオフ値が選択されているので却下の中の「悪い」率は承認の中のものよりも2~5倍大きくなります。

あいまいな増加はベースのロジットモデルを利用して却下のスコアリングを行うこととします。各レコードは、却下のスコアから抽出され「悪い」と「良い」に重みづけされた要素を含んで事実上重複されます。全ての承認の重みは「1」と等しくなる重みと共にこれらの重みは最終のロジットモデルで使用されます。承認のものよりも却下中の「悪い」が2~5倍であるという比率は戦略として推奨されています。

区分はシンプルな増加と相対的割り当てが含まれているハイブリッドな手法です。区分は却下のスコアをビニングして作成され、ベースのロジットモデルを使用して生成されスコアで纏められます。相対的割り当ては相当する承認された集団のスコアバンドの「悪い」より2~5倍の「悪い」率で各区分に適用されます。


図4。相対的割り当て

図5。シンプルな増加

図6。あいまいな増加

図7。区分け