投稿日
2017年10月11日カテゴリー
データサイエンス共有
筆者: 英国 World Programming シニアデータサイエンティスト Natasha Mashanovich
パート4:変数選択
理由づけ
「少ない労力で多くを行う」とは与信インテリジェンスの主な哲学であり、信用リスクモデルはこの目的を達成する手法です。自動的な行程を使用して鍵となる情報に焦点を当て、即時に与信判断を下す。そしてこれは結果的には決定工程のスピードを上げることで運用コストを減らすことになります。より少ない質問と素早い与信判断は最終的に顧客の満足度を上げます。貸し手にとっては顧客基盤を広げ、より低いリスクの顧客を受け入れ、利益を増加させることを意味します。
労力を最小限に抑える方法と鍵となる探すべき情報は何でしょうか?この答えは次のステップの信用リスクモデリング、つまり変数選択の工程で見つかります。
データ準備の結果として得られるマイニング枠は、多次元な一意の顧客の特徴であり、潜在的な予測関係を発見するために使用され、これらの関係の強さを測るために使用されます。顧客の徹底的な特徴分析は、顧客の特徴の中で発見できる特性に基づいて検証可能な仮説を作成している際に重要なステップです。この分析はしばしばビジネスインサイトと呼ばれ、モデリングの行程を方向付けするための顧客行動の傾向を解釈することができます。
ビジネスインサイトの分析の目的は以下のようになります。
- 導き出された顧客データがビジネスへの理解に沿っているかどうかを検証する。例えば、インサイト分析は収入に対しての負債の割合がより高い顧客の方が債務不履行に陥りやすいというビジネス上の概念に対応していなければなりません。
- モデル分析の結果にベンチマークを与える
- モデリング手法を具体化する
ビジネスインサイトの分析は単変量と多変量統計の組み合わせや、異なるデータの視覚化の手法を使うことで 探索的データ解析 に似た手法を活用します。一般的な手法としては相関関係やクロス集計、分布、時系列分析、教師あり・教師なしセグメンテーション分析などです。セグメンテーションは、複数のスコアカードがいつ必要になるかを決定するため特に重要です。
ビジネスインサイトの分析結果に基づいた変数選択は、マイニング枠をトレーニングとテストという少なくとも2つの異なる区分へ分割することで始まります。トレーニング区分はモデル開発に使用され、テスト区分はモデルの性能を評価したりモデルを検証するために使用されます。
図1。簡略化されたスコアカードモデルの構築行程
変数選択
変数選択はモデルトレーニング中に有意性を検定されたモデル変数候補の収集です。またモデル変数候補は独立変数や予測変数、属性、モデル因子、共変量、回帰子、特徴、特性などとしても知られています。
変数選択は最小限の予測変数で最大限の利得(予測の精度)を得ることを目的とした倹約的な工程です。この手法はできるだけ多く意義のある変数をマイニング枠に追加するデータ準備とは真逆です。この相反する要件は、与えられた制約下で最小の選択バイアスを発見するという最適化手法を使用することで満たすことができます。
主要な目的は、スコアカードモデルが不良債権の可能性に基づいて顧客をランク付けするだけでなく不良債権の可能性を予測できるように、正しい変数の組み合わせを発見することです。これは通常、360度の顧客視点に向かうために、予測モデル内で統計的に有意性のある変数を選択し、偏りのない予測変数の組み合わせ(通常8~15が良いバランスと考えられています)を持つことを意味しています。顧客に特化したリスクの特徴に加えて、経済的な動向と変動率を分析するために系統的なリスク因子を含めることもまた考慮しなければなりません。
言うは行うより易し - 変数を選択するときには多くの制限があります。第1に一般的にモデルは法律や倫理上もしくは規定規則で使用が禁じられている予測性の高い変数を含んでいる。第2にいくつかの変数はモデリングや運用段階の間に無効であったり低品質である可能性があります。さらに、例えばバイアスのかかった集団の標本や、もしくはモデルの効果が多重共線性の結果としては直感に反しているなどで重要な変数が認識されていないことがあります。そして最後に、ビジネスが常に決定権を持っており、ビジネス上で有利な変数だけを含むよう強く要求されたり、もしくは効果を単調に増加もしくは減少させるよう依頼されるかも知れないということです。
これらすべての制限がバイアスの原因となりえ、データサイエンティストにとって選択バイアスを最小限にとどめることは難しい課題となります。変数選択の期間に取れる一般的な予防策は以下のようになります。
- 重要な変数を決定するためにその分野の専門家と共同作業をする。
- データソースや信頼性、誤計測に関するいかなる問題にも配慮する。
- データをクリーンにする。
- 禁じられている変数、もしくは経済動向など特定のイベントを考慮するために制御変数を使用する。
変数選択はモデル構築行程の間中、繰り返し起こる処理であることを認識していることが重要です。
- モデル適合よりも先に、候補変数の組み合わせを扱いやすくするためにマイニング枠の変数の数を減らすことによって始まります。
- モデルトレーニング行程中つまり、統計的に有意では無い、多重共線性、低い寄与度、過剰適合を避けるための罰則などの結果さらに削減が実施される間中繰り返します。
- モデルの評価と検証中も繰り返し起こります。
- そして、モデルの可読性と解釈可能性が重要な役割を担うビジネス承認の期間に仕上げられます。
変数選択は「スイートスポット」に到達すると終了します。これはモデルの精度をこれ以上改善できないということを意味しています。
図2。変数選択行程の反復的な性質
変数選択手法はふんだんにあります。機械学習が進歩するにつれ、この数は絶えず増加していきます。変数選択手法は変数削減または変数除去(フィルタリング)を使用するか、選択行程が予測モデル内もしくは外で行われるか、教師ありもしくは教師なし学習を使用するか、基盤になっている手法が交差検証など特定の埋め込み技術に基づいているかなどによって異なってきます。
| 変数選択手法 | 例 |
|---|---|
教師あり |
|
教師なし |
|
教師あり |
|
表1。信用リスクモデルの一般的な変数選択手法

図3。2変量解析を使用した変数選択
信用リスクモデルではモデルトレーニング前のフィルタリングのためのIV(Information value)と、ロジスティック回帰モデルのトレーニング中の変数選択のためのステップワイズ選択という2つの変数選択法が最も一般的です。双方とも実務者からは多少の批判を受けていますが、変数選択の手法にはどれも賛否があるように、理想的な手法は存在しないということを認識していることが重要です。どれを使用してどのようにそれらを組み合わせるかを決定することは容易ではなく、ドメインへの強力な知識やデータへの深い理解、幅広いモデリングの経験なども必要とします。