クレジットスコアリング:パート2 - クレジットスコアカードモデリングの方法論

ブログ

投稿日

2017年09月21日

カテゴリー

データサイエンス

共有

筆者: 英国 World Programming シニアデータサイエンティスト Natasha Mashanovich

理由づけ

「卓越したデザインとは単純さによって表現される際立った複雑性である。」(M. Cobanli) – 私のデータサイエンティストとしての責務は、正確で利便性が高くそして安定した信用リスクモデルを設計し開発することです。また、他のデータサイエンティストやビジネスアナリストによって私のモデルが評価されたり、同じ段階を踏み同等もしくは類似する結果を出せることも確かにしなければなりません。

私はモデル開発の過程で、ビジネスからいくつかの解答を引き出そうと試みます。これらの回答は時に主観的な判断を必要とします。主観的であることは、自分の疑問とその解答を詳細に記録できる限り問題ではありません。ただこれらの疑問と解答をリストに追加しつづければ、追うのが困難な巨大なリストが出来上がってしまう危険性があるのは明らかです。また重複した疑問や矛盾した解答さえ出てくるでしょう。

以下のことを確実にするにはどうすればよいでしょうか。(1)重要な疑問への解答を見逃さない。(2)自分のモデルが査読や監査過程を通る。(3)同僚がモデルで同じ結果を得る。

上記点を満たすには次のような事柄が必要になります。

  • 体系的な手段すなわち、最良の手法に従うための方法論
  • 支援構造すなわち、自分の解答で埋める論理上の枠組み
  • 重要な特徴を設計する信用リスクモデルの記述すなわち、高い収益などのビジネスにおいての利益を証明するモデル設計

このような重要な要素を一度見極めると、自分の論理上の枠組みの正しい枠を疑問で埋めることを開始し、モデルの設計と構築を進めることができます。この行程は次のようになります。

  • 疑問 1:「良い」顧客から「悪い」顧客を知るにはどうすればよいだろうか?顧客が支払日を60日、90日、180日遅れている?
  • 解答 1:これは私のモデル設計の一部です。この解答を私はビジネスから探し出し、「操作的定義」の下に記録します。

  • 疑問 2:モデルが「悪い」もしくは「良い」顧客であると予測するとき、結果を出す期間の長さはどう設定すればよいか?この日付や期間の幅は固定すべきか?
  • 解答 2:同じくモデル設計の一部です。これもまたビジネスにおいて、モデルが何を予測することを期待しているか確認する必要があります。この解答を「実行枠」の下に記録します。この定義と結果を出す期間を一度構築すれば、枠組みの一部となるデータからの結果変数を導き出すことができます。

  • 疑問 3:分析には誰を含むのか?不正な顧客は除外するべきかもしくは「良い」と「悪い」の状態の間にいれるべきか?
  • 解答 3:モデル設計において自分が立てた全ての仮説のリストを追加する必要があり、そうすることでビジネスを検証し立証することができます。

  • 疑問 4:「良い」顧客から「悪い」顧客を知るための主だった特徴は何か?
  • 解答 4:これは理論上の枠組みの一部であり、特に独立変数を検証するものです。顧客の特徴と結果変数の関係を構築するためにデータの探索を行います。例えば、「定期的に収入がある顧客は債務不履行になりにくい」または「年齢が高い顧客は債務不履行になりにくい」などです。科学的な用語を使えば、収入や年齢などの各特徴は統計手法であるロジスティック回帰などを使用して有意性を検定した仮定を表していると言います。統計分析に基づいてこれらの変数をモデル内で維持するかどうかを決定することができます。

  • その他…

続くセクションではスコアカードモデリング方法論の詳細について説明します。

開発方法論

いかなるビジネスや研究、ソフトウェア開発計画でも論理的に正確な方法論が要求され、しばしばそれは論理上もしくは概念上の枠組みの形式として要求されます。この枠組みの目的は手法の順番やそれらの相互作用を説明するためです。これは重要な全ての行程が実行され、そのプロジェクト自体への理解を深め、行程の節目を設定し、プロジェクトの利害関係者の間で活発な協力関係を構築することを確実にします。

適用できる確立された方法論は、しばしば複数存在します。データマイニングプロジェクトは複数の概念上の枠組みが利用できる典型的な例です。通常データマイニングは、ビジネス目的で利用される予測モデルの開発に関連があります。学際的な特質を持っているため、データマイニングプロジェクトでは以下を含む異なる見地を考慮する必要があります。

  • ビジネス – 事業利益の可能性を評価するため
  • データサイエンス – 論理上のモデルを作成するため
  • ソフトウェア開発 – 採算がとれるソフトウェア開発のため

各観点では独立した方法論が必要になるかも知れませんが、上記見地に適応させるために少なくとも2つは必要になります。よくある方法論の例としてアジャイルスクラムとCRISP-DM (Cross Industry Standard Process for Data Mining)があり、前者はビジネスとソフトウェア開発の要求に対処するために適用され、後者はビジネスモデルの構築に適用されます。

アジャイルスクラム方法論は、ソフトウェア開発に対して時間区切りで反復アプローチを行ってソフトウェア構築を漸増し、ビジネスに価値をもたらすキーとなる目標を持っています。この方法論は活発なユーザーの関与、利害関係者と頻繁な引き渡しでの効果的な相互作用を促進します。ここからわかるように、通常短い時間枠で行われ、変わり続ける経済状況に対処するために頻繁に更新が必要であるデータマイニングプロジェクトに適しています。

CRISP-DM はデータマイニング処理モデルのための主要な産業方法論です。これは次のような相互に関連のある主に6つの段階から成っています。(1)ビジネスへの理解、(2)データへの理解、(3)データ準備、(4) モデリング、(5)評価、(6)展開


図1。CRISP-DM – データマイニングの枠組み

予測モデルの最終的な目的は、ビジネスとビジネス手順のパフォーマンス改善に関しての特定のビジネスニーズを満たすことにあります。CRISP-DM にとってビジネスとデータへの理解は非常に重大な段階です。これら2つの段階の結果は堅固な論理上の枠組みとモデル設計でなければなりません。

論理上の枠組みとモデル設計

論理上の枠組みは構築の基礎であり、信用リスクモデルのような(仮定)予測モデルでの重要な要因とそれらの関係を明らかにする助けとなります。この目標は一連の仮定を体系化し、これらの仮定を検定するためのモデルアプローチ(ロジスティック回帰のような)を決定することです。しかしさらに重要なのは、発見を再現もしくは検証する手法を構築しモデルの厳密さにさらに強い信頼性を得ることです。

この枠組みの、キーとなる要素は以下のようになります。(1)独立変数(基準)、例えば「クレジットの状態」、(2)従属変数もしくは予測変数、例えば住居や雇用の状態、収入、銀行口座の詳細、支払い履歴、不良債権履歴、そして(3)検証可能な仮定、例えば「持ち家である場合は不良債権になりにくい」など。

モデル設計はデータ収集、計測、データ分析の青写真である受理された研究設計方法論に従わなければならず、そうすることによりそのモデルは信頼性と有効性を試すことができます。前者はどのモデルが安定して一貫性のある結果を導くかの度合を検証し、後者はそのモデルが予測しようとしている現象を本当に表しているか、つまり「正しい構築を行ったか?」ということを検証します。

良いモデル設計は次のようなものを詳細に記録しているべきです。

  • 分析の単位(顧客や製品水準など)
  • 母集団枠(例えば一見のローン申込者など)と標本のサイズ
  • 操作的定義(「悪い」の定義など)とモデリングの仮定(例えば、不正な顧客を除外するなど)
  • 観察(例えば、過去2年間の顧客の支払い履歴など)の計画対象時間と「悪い」が適用される時間の実行枠。
  • データソースとデータ収集手法。


図2。未来の結果を予測するために過去のデータを利用する

観察と実行枠の長さは、どのモデルを設計するかで実務分野によって異なります。例えば、製品が頻繁に入れ替わるため短い観察と実行枠を必要とする通信業界に比べると、銀行業界では通常双方の枠が長くなります。

通常、申請スコアカードは新規顧客に適用され、また申請時に知りえる情報を使って採点されるため観察枠がありません。このタイプのスコアカードでは内部データを抑えて、ビューローデータのような外部データが多くを占めています。行動スコアカードは内部データを利用する観察枠があり、申請スコアカードよりも予測する能力が優れる傾向にあります。

取得キャンペーンに始まり顧客がマーケティングキャンペーンに答える可能性まで、カスタマージャーニー全体を通して異なるスコアカードが適用される可能性があります。顧客へは債権への債務不履行になる可能性や不正な顧客である可能性について、申請期間中に複数の予測モデルに対して採点が行われます。行動スコアカードモデルの範囲は、債務不履行になる可能性を予測して与信限度や利息率を設定したり、もしくはアップセリングやクロスセリングキャンペーンを企画するため、つまりリテンションキャンペーン促進のための見込みや、負債の返済額の予測もしくは回収のための「自己治癒」の見込みを立てるためにに既存顧客に適用されます。

クレジットスコアカードモデルの開発ステップ

理論上の枠組みとモデル設計を設定すると CRISP-DM で次の段階への準備ができます。場合によって多少変更がありますがクレジットスコアカード開発の典型的なステップは以下の表で説明されています。

CRISP-DM フェーズステップ
データ準備1.データ統合
2.データ分析の探究
3.データクレンジング
4.データ変換
モデリング5.データの調整(分割)
6.予測変数の選択
7.証拠の重み付け変換
8.モデルの構築(例えばロジスティック回帰)
9.推定の結果を却下(任意)
10.スコアカードモデルの尺度化
評価11.モデルの評価と検証
12.信用リスク戦略
13.ROI 分析
デプロイメント14.デプロイメントコード
15.モデルの採点、テスト、実装
16.モデルのモニタリング

表1。スタンダードな信用リスクスコアカードモデルの一般的な構築方法