2019年ラグビーワールドカップの勝者を予測

ブログ

投稿日

2019年09月17日

カテゴリー

データサイエンス

共有

2019年ラグビーワールドカップの勝者を予測

筆者:Oli Plaistowe と World Programming のソリューションチーム

2019年ラグビーワールドカップでどの国がウェブ・エリス・カップをホームへ持って帰るのかが決定します。大きなスポーツイベントでは、様々な背景の人々が一緒になって、自分の地元のチームの結果を議論、応援しまたもちろん予測します。どのチームが勝つのかを正確に予測するモデルを構築することは、当社データサイエンスチームにとって知的能力の興味深い腕試しと考えました。全体の勝利者を予測するだけではなく、各試合結果も予測することにしました。このタスクは全くラグビーの知識がない当社のデータサイエンティスト達をよりひるませませることになりました!

私たちは次のように自問しました。「データはラグビー界の専門家よりも良い予測を提供してくれるだろうか?」データと考える頭はそろっていたので、あとは専門家に協力を仰ぐことだけとなりました。まず最初に、頭上にウェブ・エリス・カップを掲げるとはどいう事かを知っている人間を訪ねました。元イングランド代表で2003年のイングランドワールドカップの優勝チームではロックだった Simon Shaw MBE です。私たちはこの分野の専門家を見つけたと確信しました。

Simon Shaw MBE

  • イングランドで71キャップ獲得
  • ブリティッシュ&アイリッシュ・ライオンズツアーに3度参戦
  • ワールドカップで17試合出場
  • テストマッチに2回出場
  • プレミアシップ出場200回に初到達した選手
  • ドロップゴールに初成功したロック

あなたが Simon のように長年ラグビーの経験がある元プロであるか、もしくはただ職場で賭け事に参加するだけなのかに関係なく、予測の旅を始めるのを助ける簡単なワークフロー例を作成したいと私たちは考えました。これは少し楽しくもあったのですが、スポーツイベント内の問題を分析することは商業分野で日常的に直面するプロジェクトにとても似ているということをシュミレーションしたいと考えました。「機械学習」と分析の導入は急速に増えていますが、人間が問題を定義し洞察を解釈して意思決定へのコンテクストを得ない限り、データ自身が活用されることはありません。予測モデルの構築に従来のアプローチを使用して、専門分野の知識は無しでモデルを作成してから、作成したモデルの最適化と改善を行うために専門家の Simon に相談しました。

問題の定義

1試合勝つとごとにワールドカップ優勝に近づくか?最高の傾向スコアを次のラウンドへ移し最終戦の勝者を決定することで、参加チームがワールドカップで競った各試合に勝つかどうかの公算を確立することによって問題を定義しました。この挑戦をもっと難しいものにするために、4日以内でモデルを完成させるものとしました。

データサイエンティストには次のタスクが与えられました。

  • DV(従属変数)を定義する。このケースでは「勝ち = 1」と「負け=0」となります。
  • データ収集
  • マイニングビューのためのデータ準備
  • 洞察
  • モデル構築
  • モデル評価と検証
  • モデル改良

ターゲットアウトプット

分析実行においては私たちは常に次の2つの目標を置いていました。

  1. パワフルな予測モデルを作成する。
  2. モデルの推進力を説明できるようにする。

スコアカードの使用は、各ゲームにおいて予測の推進力を説明するのに最も直観的であると考えましたが、結果には勝利パーセンテージを出すために標準化が必要となりました。

データ

経験がほとんどない案件でのデータの要点を探索している場合、ソースの正確さや信頼性を検証することが重要になります。スポーツのような分野では、2次的なデータがジャーナルやファンサイトなど幅広い範囲のソース上で公開されていますが、最終的に一般公開されている統計に焦点を絞りまた、関連する気象資料履歴を収集しました。

ただし、時間に限りがあるため、個々の試合に天候を結びつけることはできませんでした。その代わりにコンディションが自国側に等しくインパクトを与えるかを見るために平均気温を参考にしました。時間がもっとあれば、さらに細かく目的のデータの要点に適合する詳しい統計を得るために「スポーツデータ」会社と作業していたと思います。

生データの要点

一般的な統計選手の統計ワールドカップの統計
(前4試合)
チーム毎
試合数
勝った試合
負けた試合
引き分けた試合
勝利のパーセンテージ
得点
失点
得失点差
トライ
コンバージョン
ペナルティ
ドロップ
試合年度
ランキングポイント
ロケーション
対決の統計
天候の統計
選手毎
試合数
先発出場
サブ
ポイント
トライ
コンバージョン
ペナルティ
ドロップ
勝った試合
負けた試合
引き分けた試合
勝利のパーセンテージ
試合年度
ランク
イエローカードの数
試合年度
ラン
ペナルティ
試合数
レッドカードの数
コンバージョン
ドロップ
ゴール
トライ
タックル
ポイント
チーム

マイニングビュー

マイニングビューを決定することは、すべてのデータサイエンスプロジェクトにとっての鍵となる部分です。データがいくつかのデータソースから来ているため、データ準備をワークフローで示すことが役立ちました。データソースは様々な形式で利用できたため、データを年と国で抽出することに決めました。計画での他の要素は何を予測し、テストと検証のためにデータをどのように区分するかどうかということでした。

私たちは各試合の結果を予測することを選択しました。ワールドカップに特化したモデルはさらに有益ではあるのですが、ワールドカップは4年毎しか開催されず、最適な予測モデルをトレーニングするために十分なデータの要点がありませんでした。洞察を抽出するために SAS 言語を活用してマイニングビューを作成しました。

マイニングビューの構成RWC スコアカード
分析の単位試合のレベル
サンプルサイズ1,750 試合、50%-50% の勝ち負けの比率のため、試合毎に2 オブザベーション。モデリングビューに3,500オブザベーション
実行枠2004年から2019年のワールドカップより以前の試合すべて
観察枠14年間に渡る歴史に残る試合の情報
独立変数集計された値やフラグ、比率や日時の値のような名義、順序、間隔尺度の混合データ。
従属変数勝敗の状況(1もしくは0)
引き分けは2値モデルを維持するために削除
データソース試合データ、選手データ、チームデータ、環境データ

変数選択

最初は、データ準備の結果として引き出された700変数以上がマイニングビューに含まれていました。クラスタリングや有意性検定、相関分析などの様々な技法を使用して、関係が強くよく似た傾向を表している変数を削除しました。最も影響が強く最適な組み合わせを見つけられるよう微調整された40の予測子が残りました。

洞察

おそらく最も明白な洞察もしくはデータの妥当性は、前年に勝利した試合の平均数がより多いと次の試合で勝利する確率がより高いということでした。

さらに興味深いことにトーナメントより前の最終の5試合に勝利すると、ワールドカップで優勝する可能性を高めるというこを発見しました。「連勝」の科学的証明です。

最終5試合の勝率

通常とは異なる予測子か?

最後から2番目の試合結果

最後から2番目の試合は、トーナメントの直前よりも良い予測子となりました。

最初の思惑に反して、ワールドカップトーナメントでイエローカードをより多くもらったチームの方が勝つ可能性が高くなりました。しかしこれは、トーナメントをより勝ち進んだチームの方がイエローカードをもらう機会が多いということを示しているに過ぎないかもしくは、イエローカードをもらうような攻撃的なプレースタイルと勝利の相関を示しているのかもしれません。

ワールドカップシリーズで受けたイエローカード

2004年以来開催された試合の数を見てみると Australia(226)、 New Zealand(218)、South Africa(211)が最も試合を行っています。これは8回のうち7回のワールドカップの勝者であるというこれらの国の勝利に相関します。これはより経験のある方がより高い勝利の可能性を持っていることを示しています。より経験の少ない国によってこのことはさらに裏打ちされ、例えば Namibia は2004年以来、最も試合数が少なく、これはこの国の勝利のパーセンテージに相関しています(以下を確認)。

モデリング

WPS Analytics のワークフローを使用することで、異なるモデリングアプローチを適用しながら、同じワークフローのテンプレートを共用することによってデータサイエンティストが共同で作業できるようになります。

モデルの性能の改善

モデルのチューニングは、寄与率が僅差な変数を削除しパラメーターの設定を微調整することによってモデルの予測能力を強くします。最適モデルは、モデル分析ツールの ROC 曲線と c 統計量を比較することで見分けました。これはモデルの評価プロセスのスピードアップを助けます。

MLP、デシジョンフォレスト、ロジスティック回帰技法はすべて似たような予測モデルを作成しました。

選択した技法であるロジスティック回帰は、各予測変数へスコアを割り当てるスコアカードモデルへ変換できます。この使用例では、モデルを明白に表す能力の方が MLP のようなブラックボックス的な技法の正確さよりも価値が勝っていました。

各モデルではデシジョンツリーエディターで最適化したグループを使用して予測子群を検証しました。スコアは勝利の確率を改善するグループと同じ方向で増加しなければなりません。これに従わない変数は、モデルの予測能力を減少させるため削除することが重要です。

最終のモデルでは4つの予測子に注目しました。

  1. 前年の敗北した数
  2. 前年の勝利した数
  3. 前年のランキング
  4. 現在の対戦相手との過去5試合のチームの勝率

スコアを見ると対戦相手とランキングがモデルに大変寄与していることが分かります。

データに基づいたモデル対ラグビーの専門家

データ

専門家
データサイエンス
専門家
決勝戦出場国South AfricaNew Zealand
決勝戦出場国New ZealandSouth Africa
優勝国New ZealandSouth Africa

分析と「機械学習」の活用は急速に増加しています。しかし、人間が問題を定義し洞察を解釈して意思決定へのコンテクストを得ない限り、データ自身が活用されることはありません。

私たちはコンテクスト無しでデータを使用、データの要点無しでこの分野の知識を使用、また以下の Simon のフィードバックであるハイブリッドなアプローチと異なった取り組みを実演するためにワールドカップを使用しました。

Simon に初期のデータサイエンスのスコアカードを渡し、コメントを依頼しました。私たちは同じ決勝戦出場国を予測したのですが、スコアカードは Romania、Georgia、Italy という珍しいグループ分けを示しました。

この原因は、対戦相手をビンへ割り当てるために使用した最適ビニングアルゴリズムを一貫性のない方法で使用したことによるものです。以下に示されるように、各国は勝利の数によってビンに割り当てされており、対戦した相手のティアを無視しています。弱いチームとだけ対戦したのであればこれで勝率が上がりますが、彼らの強さを正確には反映していません。

データの推進力に矛盾がありました
  • Simon と議論した箇所
    対決についての考慮
    対戦相手のロケーション
  • データについて推奨
    再分類(ティアと半球)
    対決無しを取り扱うためのセグメントに基づいた補完
    天候と審判の認識
  • 考慮すべき追加の変数
    チームと対戦相手のティア
    チームと対戦相手が所在する半球
    直近の対決での勝利
    天候と審判のデータ
    チームの平均年齢
    パックの重さ
    ラックからボールを奪って脱出する時間
    距離によるゲインラインの計測
    審判の国籍
対戦相手Argentina, England, Fiji, Japan, Romania, Samoa, Wales2
Australia, France, Georgia, Ireland, South Africa-44
Canada, Scotland, Tonga44
Italy, Russia, USA77
Nambia, Portugal, Uruguay126
New Zealand-189

モデルの強化

Simon への相談後、さらに2つの変数をモデルへ含めるよう変更しました。1つはチームのティアを含むことと、もう1つはチームの所在する半球を印すことです。Simon によるとチームのティアはその質を確認するのに重要だということです。前回の洞察で見たように、高い勝率を持っている国でも上位の国とは見なされない場合があります。これは試合をするチームによります。

Simon は試合文化の違いさらには、対戦相手側の半球で戦っている時はそれに適応することが必要であり多くのチームが適応することに苦労していると考えるため、チームの所在する半球が変数として追加されました。

グラフが示すように勝率が49%の Georgia は試合において強豪チームであると考えられます。これは専門家によって指摘されたように、ほとんどティア2のチームとの試合からきています。ティア1で勝率の高い国は試合の中で当然、強豪と考えられます。

これとは対照的に Italy はほとんどの試合でティア1のチームと戦っているため勝率が低いですが、Georgia よりも強いチームと考えられます。チームを公正に判定するために、ティア内のチームを区別する必要がありました。これはデータ分析において、専門知識が重要であるということを実演しています。

次の Simon のアドバイスに従って、ティアと半球のための変数を追加しまた、この新しい情報を使用してデータを再度補完することに決めました。

前回のデータ補完は、全てのチームに対する勝率の中央値に基づいてチームの結果を推定するために使用されました。新しい変数は、モデルを調整し、自身が所属するティアと所在する半球のチームに対しての勝率を考慮に入れられるようにしました。これで16の異なるセグメントを追加して欠損値を置き換えることで、チームが対戦相手に対してどのように能力を発揮するかをより正確に表すようになりました。

優れた変数と重みをモデリングする
  • 専門家によって推奨された変数であるチームのティア半球は、モデルに著しく寄与しました。
予測変数が示したものは...。
  • チーム間の世界ランキングがより大きく違うと、より高いランクのチームが勝つ可能性が高くなる
  • 対戦相手より敗率が低いチームは勝つ可能性が高くなる
  • 対戦相手より勝率が高いチームは勝つ可能性が高くなる

結論

考えてみるとこのプロジェクトに費やせるのはたったの4日です。もっと時間があれば、非常に価値の高い Simon のフィードバックをさらに活かすことができたでしょう。年齢や身長、体重などの選手の身体的な統計量を含む特定のデータを追加することも考えたと思います。Simon Shaw はいかにデータサイエンスが急速にスポーツの一部になりつつあるかを論じており、これは New Zealand が優れているラックからボールを奪う平均時間などのような、選手やチームのゲーム動向についてのデータがもっとあるということを意味しています。

データサイエンスにとってその分野の専門家が重要な助けになっているように、モデリングはスポーツイベントでよく見られる、頭で考えるよりも心情に従って感情的に投資させてしまう確証バイアスを小さくすることを助けます。

データサイエンスのみで様々なことを達成できますが、データサイエンスを目的に沿わせるための本当の魔法は、その分野の専門家とのコラボレーションが成功した時に起こります。Simon からのインプットは AUC を検定結果の AUC 0.84から検定結果の AUC 0.89まで上昇させました。

以上のことから最初に設定した問題「誰が2019年のラグビーワールドカップに勝利するのか?」の答えが出ました。私たちのモデルによるとその答えはイングランド!

予測の要約

ご自身のモデルを構築するためのデータセットと当社ソフトウェアの試用バージョンをご要望の場合は、 sales@worldprogramming.com まで「Rugby World Cup」という件名でE メールをお送りください。