投稿日
2017年11月01日カテゴリー
データサイエンス共有
筆者:英国 World Programming シニアデータサイエンティスト Natasha Mashanovich
パート7:信用リスクモデルのさらなる考察
科学的モデルの開発で、主に品質の優良性を証明する精密さ・テスト容易性・再現性・予測性を満足いくものにするには、モデル検証についてと不均衡データをどのように取り扱うかを考慮することが重要です。この記事は、それらの品質の優良性の証明を果たすために使用できる高度な検証フレームワークの概要を示し、不均衡データを取り扱うとき頻繁に適用される手法についての要約を掲載しています。
高度な検証フレームワーク
「真実とするには出来過ぎている」 - どんな予測モデルでも、データに過度に適合している場合は疑問を抱くべきです。複雑で高パフォーマンスな予測モデルを構築すると、データサイエンティストは過剰適合と呼ばれるモデリングの過ちを起こすことがあります。過剰適合 - モデルがトレーニングデータセットに完璧に適合するが、トレーニングデータセットでの汎化には失敗しているときに起こり、これは根本的な問題で予測モデルにとっては最も驚異的な問題です。この結果、新しい(未知の、ホールドアウト)データセットに対して低い予測能力しか得られないことになります。

図1。モデルの過剰適合
多くの検証フレームワークは、過剰適合を検知して最小化するためにあります。それらはアルゴリズムの複雑さや計算能力、堅牢さの面で異なります。簡単で一般的な手法は次の2つです。
単純な検証 - トレーニング区分とテスト区分へのランダムなもしくは階層化した分割。
入れ子式ホールドアウト検証 - トレーニング、検証、テストの区分へのランダムなもしくは階層化した分割。異なるモデルがトレーニング区分でトレーニングされ、検証サンプルで交互に比べてチャンピオンモデルがテスト区分の未知のデータで検証されます。
これら2つの手法の主な欠点は、有効なデータのサブセットに適合したモデルはまだ過剰適合の問題になりえるところです。これは特に数が少ない変数を含んだデータセットについていえます。
モデルのパラメーターを調整しており、同じテスト標本で継続してモデルのパフォーマンスを検証しているときにその他の単純な検証の問題が起こります。この問題はテスト標本からモデルが十分に「学習している」というデータ漏れを引き起こします。つまりテスト標本が本当の検証サンプルではなくなり過剰適合が問題になりえるということです。入れ子のホールドアウト検証は特定の範囲ではこの問題を解決しますが、この手法では問題となる多量のデータを必要としいます。
ブートストラッピングと交差検証の2つは、特に過剰適合の問題の克服のためと、変動源をもう少し全体的に捉えるために設計されている検証フレームワークです。
ブートストラッピングは置き換えのサンプル手法です。標準的なブートストラップ検証処理は M 個の同じサイズの異なるサンプルをオリジナルデータよりランダムに作成します。モデルは各ブートストラップのサンプルに適合され、続けてパフォーマンスを計測するためにデータ全体で検証されます。
交差検証(CV)は体系的にテストとトレーニングのサンプルを入れ替え、集合全体でデータに適合します。交差検証は次を含む多様な形式があります。
- K-分割 - 集団を K 等分のサンプルに分割し、トレーニングとテストに対して K 回検証を行います。
- 一個抜き(Leave-one-out)
- 層化
- 入れ子の交差検証
入れ子の交差検証は、パラメーターの調整や変数選択に追加してモデルを検証したい場合に必要になります。これは内側と外側の交差検証から構成されています。外側の交差検証がモデル検証で使用される一方、内側の交差検証はパラメーターの調整もしくは変数選択に使用されます。
ブートストラッピングと交差検証はいくつか修正を加えると、次の3つの異なるオブジェクトを得ることができます。
- モデル検証
- 変数選択
- パラメーターの調整(グリッドサーチ)
| フレームワークの設計 | 実行の複雑さ | 技術 | パラメーターの最適化 | 交差検証の層 | 交差検証の繰り返し |
|---|---|---|---|---|---|
| モデル検証 | 1 | 交差検証 | K | N | |
| 変数選択 | 1 | 1次元グリッドサーチ交差検証 | S* | K | N |
| パラメーターの調整 | 1 | 1次元グリッドサーチ交差検証 | P** | K | N |
|
変数選択 パラメーターの調整 | 2 | 2次元グリッドサーチ交差検証 | (S, P) | K | N |
|
変数選択 モデル検証 | 2 | 1次元グリッドサーチ入れ子式交差検証 | S | K1, K2 | N1, N2 |
|
パラメーターの調整 モデル検証 | 2 | 1次元グリッドサーチ入れ子式交差検証 | P | K1, K2 | K1, K2 |
|
変数選択 パラメーターの調整 モデル検証 | 3 | 2次元グリッドサーチ入れ子式交差検証 | (S, P) | K1, K2 | N1, N2 |
表2。検証や選択、調整のためのグリッドサーチと交差検証
不均衡データのモデリング
「良いが充分良くないとき」- 全事例に対しての正しい予測の比率として定義されているモデル精度は、モデルのパフォーマンスを評価するための典型的な計測法として使用されます。しかし、モデルのパフォーマンスを精度だけで評価することはそれ自体が精度のパラドクスに遭遇する問題となりえます。例として、不正もしくはその他の惨事と予測する非常に小さな比率のターゲットの集合(1%)と共に不均衡なトレーニングデータセットがあると仮定します。予測モデルなどなくても、「不正が無い」もしくは「参事が起こらない」を同じように推測すれば精度は99%に到達します。非常に印象的です!しかし、このような手法では完全に間違った比率が出てしまう可能性があり、これはつまり間違った比率(誤陰性、第二種過誤)を減らすためもしくは誤警報(誤陽性、第一種過誤)を減らすための予測モデルが必要になるということを意味しています。
正しいパフォーマンスの計測法は事業目標によって異なります。いくつかの場合では間違った比率を最小にすることを必要とし、他の場合では特に顧客満足が第一の目的である場合は誤警報を最小化することに焦点が当てられます。全体的な目標に基づいてデータサイエンティストは、不均衡データを使用したモデルの構築と評価のための最良の手法を発見しなければなりません。
不均衡データは、少数派分類についてデータセットが不十分な情報を持っているため、機械学習のアルゴリズムを使用していると問題になることがあります。なぜなら、アルゴリズムがエラー全体を最小化することに基づいていることが多数派分類に向かってバイアスがかかり、さらに関心を持っている事例の寄与を無視するためです。
不均衡データモデリングの問題に取り組むための一般的な技術はサンプリングとアンサンブルモデリングです。
サンプリング手法はアンダーサンプリングとオーバーサンプリングにさらに分類されます。アンダーサンプリングは多数派分類から事例を取り除き完成された少数集団を保ちます。オーバーサンプリングは少数派分類を複製して均衡データにする処理です。両方とも目的は均衡なトレーニングデータを作ることにあるため、学習アルゴリズムはバイアスの少ない結果を出すことができます。どちらの手法も潜在的に次のような不利益な点があります。アンダーサンプリングは情報の欠落を導き一方でオーバーサンプリングは過剰適合を招く可能性があります。
過剰適合を最小限にするために開発された一般的なオーバーサンプリング手法の修正方法は、synthetic minority oversampling technique(SMOTE)であり、他の学習手法、通常は KNN アルゴリズムなどに基づいて少数派事例を作成します。経験則では、多数の変数が有効な場合はアンダーサンプリングを使用します。そうでなければ、オーバーサンプリングが好ましい手法です。
以下はアンダーサンプリング手法を使用した簡単な開発ステップの概要です。
- 全ての「悪い」事例とランダムに「良い」事例のサンプルを例えばそれぞれ、35%/65% の割合で選択して均衡トレーニング枠を作成します。十分な「悪い」事例がある場合、不均衡なトレーニング区分から少なくサンプリングを行います。そうでなければ集合全体をアンダーサンプリングに使用します。
- 最良の予測変数 を通常の モデリング工程を使用して選択します。
- 変数候補の選択
- 細かい分類
- 最適ビニングでの粗い分類
- WOE もしくはダミー変換
- ステップワイズロジスティック回帰モデル
- 工程1で作成しない場合、不均衡データセット全体をトレーニングとテスト区分に分割します。例えば、トレーニング区分に 70%、テスト区分に30%です。少数派分類の比率を双方の区分で同じに保ちます。
- 行程2のeのトレーニング区分でのステップワイズ手法によって選択されたモデル変数でモデルをトレーニングします。
- テスト区分でモデルを検証します。
アンサンブルモデリングは不均衡データモデリングの代替え手段です。バギングとブースティングは、アンダーサンプリングもしくはオーバーサンプリングを使用せずに、強力な予測変数を作成し過剰適合を解決するための典型的な手法です。バギングはブートストラップの集合で、置き換えで異なるブートストラップを作成し、各ブートストラップでモデルをトレーニングして予測変数の結果を平均します。ブースティングは反復している間に徐々に強い予測変数を構築していき、前の反復時に出たエラーから学習します。
上記考察の通り、不均衡データセットは正しい予測変数のみを考慮に入れているため精度は好ましい計測法ではありません。しかし、正確な結果と不正確な結果を同時に考慮すると、分類モデルについてさらに深い洞察を得ることができます。そのような場合、パフォーマンスの計測に役立つのは感度(類義語では再現率、ヒット率、検知率、真陽性率)や特異度(真陰性率)または精度です。
これらの数量測定基準に加えて、他にも ROC 曲線という計測法が業界では非常によく使用されています。ROC 曲線は「悪い」対「良い」の事例の比率からは独立しており、このことは特に不均衡データにとっては重要な性質となります。「悪い」事例の数が十分である場合、不均衡データの手法を使用するよりも、ROC 曲線を使用して標準的なモデリング手法を適用し、その結果のモデルをテストすることができます。