投稿日
2017年10月04日カテゴリー
データサイエンス共有
筆者: 英国 World Programming シニアデータサイエンティスト Natasha Mashanovich
理由づけ
「ガーベッジイン、ガーベッジアウト」とはコンピューターサイエンスの原理でよく使われ、プロジェクトの成功にとっては脅威となるものです。インプットの質はアウトプットの質に大きな影響を与えます。このため、クレジットスコアカードの開発を含むいかなるデータマイニング計画にとってもデータ準備は鍵となる局面です。これは CRISP-DM サイクルにとって最も難しく時間のかかるフェーズです。全計画の少なくとも70%、時には90%の時間がこの作業に費やされます。これには次のフェーズ、つまりモデルの構築のために自信をもって準備できるように、データの収集・複数データソースの結合・集成・変換・データクレンジング・「薄切りに角切り」・データを明確に理解して量から質へと変換するためのデータの奥行や幅広さの観察などが含まれています。
今シリーズの前回の記事、 クレジットスコアカードモデリングの方法論 では、モデル設計と解析の単位や母集団枠、標本サイズ、基準の変数、モデリング枠、データソースとデータ収集手法を含むモデルの主となる構成要素を確定することの重要さについて考察しました。各構成要素について注意深く考慮することは、データ準備の成功に欠くことができません。今段階での最終成果物は適切なレベルの分析、モデリングのための母集団、従属と独立変数を含むマイニング枠です。
| マイニング枠構成要素 | 申請スコアカードのケーススタディ例 |
|---|---|
| 解析の単位 | 顧客レベル |
| 母集団枠 | 過去に不良債権履歴のあるローン申請者 |
| 標本サイズ | 2015年から2016年の間の一見の申請者 |
| データソース | クレジットビューローデータ、申請者データ、年齢別負債履歴 |
| 独立変数 | 集合値やフラグ、比率、日時データなどを含む名義尺度や順序尺度、間隔尺度データが混ざったもの |
| 従属変数 | 債務不履行のステータス(1もしくは0) |
| 操作的定義 | 債務不履行:90日遅延 |
| 観察枠 | 過去3年間に渡るクレジットビューローの顧客情報 |
| 実行枠 | 1年 |
表1。モデル設計の構成要素
データソース
「多いほど楽しい」 - データ理解の段階において、外部や内部のデータソースは質、量共に必要になります。使用するデータは、有用な解析結果を出すために充実して多様なボリュームである一方、妥当で正確かつ適時であり、整合し、完成している必要があります。内部データの量に限界がある申請スコアカードでは、外部データが優勢です。対照的に行動スコアカードはより内部データを活用し、予測能力に関してはさらに優れています。顧客の検証や不正検出、クレジットを承諾するために必要な共通のデータソースの概要は以下のようになります。
| ソース | カテゴリー | 提供者 |
|---|---|---|
| 外部 | 住所、郵便番号 | クレジットビューロー |
| ビューローの調査 | ||
| 選挙人名簿データ | ||
| 金融口座 | ||
| 裁判や債務超過 | ||
| 一般的なビューローのソース | ||
| 内部 | 購買層 | 顧客 |
| お問い合わせ | ||
| 安定性 | ||
| 口座管理 | 貸主 | |
| 製品詳細 | ||
| 実演データ | ||
| マーケティングキャンペーン | ||
| 顧客との対話 |
表2。データソースの多様性
行程
データ準備の行程は一般的にETL 行程(Extract-Transform-Load)と呼ばれているデータ収集から始まります。データ統合はデータの合体と連結を行い、異なるソースのデータを結びつけます。通常は実体完全性や参照整合性、ドメインの整合性などの規約を使用してリレーショナルテーブルを操作する必要があります。一対一、一体多数、多数対多数の関係を使用し、解析に必要なレベルまでデータが統合されるため、一意の顧客の特徴を得ることができます。
図1。データ準備行程
データ探索とデータクレンジングは互いに行程を繰り返します。データ探索には単変量解析と2変量解析が含まれ、単変量統計や度数分布、相関関係、クロス集計、特徴分析の範囲に渡ります。

図2。EDA(単変量枠)

図3。EDA(特徴解析)
続く探索的データ解析(EDA)では、質を向上させるためにデータが処理されます。データクレンジングはビジネスとデータへの深い理解を必要とするため、データが正しく解釈されることになります。これは必要に応じて異常を削除し置き換えるもしくは異常を取り除くために設計された反復型の行程です。クリーンではないデータには欠損値と外れ値という2つの主要な問題があり、双方ともモデルの正確さに強く影響する可能性があるために慎重に介入することが重要です。
欠損値をどのように処理するかを決定する前に、欠損データの理由と欠損データの分布を理解して以下のように分類できるようにする必要があります。
- 完全にランダムに欠損する(MCAR)
- ランダムに欠損する(MAR)
- ランダムではなく欠損する(NMAR)
欠損データの処理は MCAR と MAR が想定されることが多く、対して NMAR の処理はより難しいです。以下は一般的な欠損データの処理を複雑な順に並べたリストです。
| 欠損データの処理 | 記述 |
|---|---|
| 欠損データを放置 |
|
| 欠損データを削除 |
|
| 単一代入法 |
|
| モデルベースの代入 |
|
表1。欠損データの処理
データ内の外れ値はもう一つの「脅威」であり、これが存在するとモデルを開発する上で統計的推測を妨害します。外れ値を検出すると、いかなる処理を行う前に外れ値がある理由を理解することが重要です。例えば、外れ値は不正検出にとって価値のある情報源になり得ます。このため、平均や中央値で置き換えるというのは良くない案です。
外れ値は単変量や多変量解析を使用して解析されるべきです。外れ値を検知するにはヒストグラムや箱ひげ図、分散図などの視覚的手法や平均や正規分布、標準偏差、クラスタ間の距離を計算するクラスタリング、小さな決定木の葉のノード、マハラノビス距離、クックの距離、グラブス検定などの統計的手法を用いることができます。どれを外れ値と考えるかの判断は、欠損値を検知するようには容易ではありません。この判断は指定している基準に従って行われる必要があります。例えば、 ±3 標準偏差、±1.5IQR(四分位範囲)もしくは5番-95番のパーセンタイル範囲の外側の値が外れ値として記されるなどです。
外れ値は欠損値と同じように処理することができます。その他の変換方法も利用することができ、ビニング、重みの割り当て、欠損値への変換、対数変換などがあり極値の影響を除去したりウィンザー化したりします。
上記考察のようにデータクレンジングには異なる統計的技術や機械学習の技術の実装が含まれます。ただしこれら変換がさらに優れたスコアカードモデルを作成できるとしても、実際の実装では複雑なデータ操作は困難であり、モデルの処理能力を遅くさせ大きな犠牲を払う可能性があるということを考慮しなければなりません。
データをクリーンにするとさらに創造的な段階、データ変換への準備が整ったことになります。データ変換もしくは特徴エンジニアリングは有意性が検定された追加の(仮定)モデル変数の産物です。最も一般的な変換はビニングや最適ビニング、標準化、スケーリング、ワンホットエンコーディング、交互作用項、数学的変換(非線形から線形関係へ、歪んだデータから正規分布データへ)またクラスタリングや因子分析を利用したデータ削減などがあります。
この作業に取り掛かるためにいくつか一般的に推奨されている方法はありますがこれらを除き、顧客データの特徴を優れた情報の芸術品に仕上げるための最良のアプローチを提示することは、データサイエンティストの責任にかかっています。つまりこれがマイニング枠です。統計と分析技術に加えて、ビジネスへの理解を強固にすることを必要とするため、データサイエンティストの役割では、おそらく最も創造的で困難な局面となります。多くの場合、良いモデルの作成の鍵となるものは特定のモデル設計技術能力ではありませんが、導き出した変数への広く深い理解は試験下での現象についてのより高い知識を表しています。
残りは特徴が創り出す芸術作品です...