Prédire le gagnant de la Coupe du monde de rugby 2019

Blog

Publié

17 sept. 2019

Catégorie

Science des données

Partager

Prédire le gagnant de la Coupe du monde de rugby 2019

Par : Oli Plaistowe et l'équipe Solutions de World Programming, GB

La Coupe du monde de rugby 2019 va déterminer quelle nation remportera le Trophée Webb Ellis. Des supporters de tous horizons se rassemblent pour discuter des matchs, encourager les joueurs, et bien sûr prédire les résultats de leur équipe dans les principales compétitions. Nous nous sommes dit qu'il serait intéressant de mettre à l'épreuve les prouesses cognitives de notre équipe de spécialistes en science des données pour construire un modèle permettant de prédire correctement l'équipe gagnante. Notre but n'était pas seulement de prédire l'équipe couronnée, mais aussi l'issue de chacun des matchs. Avouons-le, cette tâche était d'autant plus difficile que nos data scientists ne connaissaient strictement rien au rugby.

Nous nous sommes demandé : « L'analyse des données peut-elle offrir de meilleures prédictions qu'un spécialiste du rugby ? » Nous avions les données et les cerveaux pour l'analyse, mais il nous restait à trouver l'expert auquel les confronter. Nous nous sommes donc adressés à quelqu'un qui a lui-même soulevé le Trophée Webb Ellis, l'ex international Simon Shaw, 2e ligne de l'équipe anglaise championne du monde en 2003. On peut difficilement faire plus expert !

Simon Shaw

  • 71 capes avec l'Angleterre
  • 3 tournées avec les Lions britanniques et irlandais
  • 17 apparitions
  • 2 tests
  • Premier joueur à atteindre 200 apparitions en Premiership
  • Premier 2e ligne à marquer un drop !

Que vous soyez un ancien pro qui a joué au rugby plus de 20 ans comme Simon, ou que participiez juste au sweepstake du bureau, nous avons créé un exemple de workflow simple pour vous aider dans vos prédictions. Sans nous prendre au sérieux, nous voulions simuler la manière dont les problèmes d'analyse des données se ressemblent, qu'ils concernent les événements sportifs exceptionnels ou le quotidien du secteur commercial. L'adoption de l'apprentissage automatique dans l'analyse des données s'accélère, mais une intervention humaine reste nécessaire pour définir le problème et interpréter les informations afin d'établir le contexte de la prise de décision. En utilisant une approche traditionnelle de la modélisation prédictive, nous avons créé un modèle malgré notre ignorance du domaine concerné, puis nous avons contacté Simon, notre expert, afin d'optimiser et d'améliorer notre modèle.

Définir le problème

Remporter un match, d'accord, mais remporter la Coupe du monde ? Nous avons défini le problème en établissant la probabilité pour une équipe participante de gagner chacun des matchs qu'elle dispute dans la Coupe du monde, les scores de probabilité les plus élevés passent au tour suivant, jusqu'à identifier le vainqueur final. Comme si le défi n'était pas déjà assez compliqué, nous ne nous sommes donné que quatre jours pour achever le modèle.

Nos experts en science des données ont dû accomplir les tâches suivantes :

  • définir la variable dépendante (dans le cas présent : victoire = 1 et défaite = 0)
  • capture des données
  • préparation des données pour la vue d'exploration
  • perspectives
  • création du modèle
  • évaluation et validation du modèle
  • perfectionnement du modèle

Objectifs recherchés

Tous nos projets d'analyse des données ont deux objectifs :

  1. créer un modèle prédictif puissant ;
  2. permettre d'expliquer les principaux éléments du modèle.

Nous avons conclu que l'utilisation de fiches d'évaluation (scorecards) était le moyen le plus intuitif d'expliquer les éléments prédictifs de chaque match. Toutefois, il était nécessaire de normaliser les résultats pour produire un pourcentage de victoire.

Données

Lorsque vous recherchez des points de données pour un sujet sur lequel vous ne savez pas grand-chose, il est important de valider l'exactitude et la fiabilité de la source. Dans un domaine tel que les sports, une quantité quasiment infinie de données secondaires sont publiées par toutes sortes de sources, des journaux spécialisés aux sites de fans. Finalement, nous avons choisi de nous concentrer sur les statistiques en accès public, ainsi que les relevés météo historiques pertinents.

Toutefois, en raison du manque de temps, il n'a pas été possible de lier les conditions météo aux différents matchs. Nous avons plus simplement vérifié les températures moyennes pour voir si les conditions avaient eu un impact sur les équipes nationales. Si nous avions eu plus de temps, nous aurions aussi aimé collaborer avec des sociétés de « données sportives » pour obtenir des données supplémentaires offrant des points de données plus granulaires et pertinents.

Points de données bruts

Statistiques généralesStatistiques des joueursStatistiques de Coupe du monde
(4 précédentes)
Par équipe
Nombre de matchs
Matchs gagnés
Matchs perdus
Matchs ex-aequo
Pourcentage de victoires
Points pour
Points contre
Différence de points
Essais
Transformations
Pénalités
Drops
Année du match
Points au classement
Lieu
Statistiques de face à face
Statistiques météo
Par joueur
Nombre de matchs
Titulaire
Remplaçant
Points marqués
Essais
Transformations
Pénalités
Drops
Matchs gagnés
Matchs perdus
Pourcentage de victoires
Année du match
Classement
Nombre de cartons jaunes
Année du match
Avancées
Pénalités
Nombre de matchs
Nombre de cartons rouges
Transformations
Drops
Essais
Plaquages
Points
Equipe

Vue d'exploration

Déterminer la vue d'exploration est une étape clé de tout projet de science des données. Comme nos données provenaient de plusieurs sources de données, il était utile de présenter la préparation des données sous forme de workflow. La sources de données était disponible sous diverses formes. Nous avons donc choisi d'ignorer les données par année et par pays. Un autre élément à planifier était ce que nous allions à prédire, et comment partitionner les données pour tester et valider.

Nous avons choisi de prédire le résultat de chaque match. Bien qu'il puisse y avoir des avantages supplémentaires à avoir un modèle spécifique pour la Coupe du monde, cette dernière n'a lieu que tous les quatre ans, et il n'y a pas assez de points de données pour former un modèle prédictif correct. En tirant parti du langage SAS, une vue d'exploration a été créée afin de pouvoir en dégager des perspectives.

Composant de vue d'explorationFiche d’évaluation WPS
Unité d'analyseNiveau du match
Taille de l'échantillon1 750 matchs, 2 observations par match pour un ratio de 50 % victoires, 50 % défaites. 3 500 observation dans la vue de modélisation
Fenêtre de performanceTous les matchs, de 2004 à la Coupe du monde 2019 (non incluse)
Fenêtre d'observationInformations historiques sur les matchs sur cette période de 14 ans
Variables indépendantesMélange de données nominales, ordinales et d'intervalle, telles que des valeurs agrégées, des marqueurs, des taux, des heures et des dates
Variable dépendanteStatut de victoire (1 ou 0)
Matchs nuls retirés pour maintenir un modèle binaire
Sources de donnéesDonnées de match, données de joueur, données environnementales

Sélection des variables

Dans un premier temps, la vue d'exploration comportait plus de 700 variables dérivées résultant de la préparation des données. En utilisant des techniques diverses telles que le clustering, le test d'importance et l'analyse de corrélation, nous avons retiré les variable qui étaient apparentées et représentaient des tendances similaires. Ne nous restaient plus que les 40 principaux prédicteurs, que nous avons ensuite affinés pour révéler une combinaison optimale.

Perspectives

La tendance la plus évidente, en tant que perspective ou à la validation des données, était que plus la moyenne des matchs gagnés au cours de l'année précédente était élevée, plus la probabilité de gagner le match suivant était forte.

Plus intéressant, nous avons constaté que le fait d'emporter les cinq matchs précédant le tournoi augmentait la probabilité de remporter la Coupe du monde, confirmation scientifique de la loi des séries.

Ratio des victoires sur les cinq matchs précédents

Prédicteur inhabituel

Résultat de l'antépénultième match

L'antépénultième match est un meilleur prédicteur que celui qui précède immédiatement le tournoi.

Contrairement à ce que nous pensions, nous avons constaté que les équipes qui reçoivent le plus de cartons jaunes lors de la Coupe du monde ont plus de chances de l'emporter. Cela pourrait cependant indiquer, tout simplement, que les équipes qui gagnent jouent plus de matchs et ont plus d'occasions de recevoir des cartons jaunes, ou signaler un style de jeu plus agressif où les actions méritant un carton jaune et la victoire finale sont corrélées.

Cartons jaunes reçus en Coupe du monde

Si l'on regarde le nombre de matchs joués depuis 2004, on constate que ce sont l'Australie (226), la Nouvelle-Zélande (218) et l'Afrique du Sud (211) qui ont joué le plus de matchs. Cela correspond à la réussite de ces nations, qui ont remporté sept sur huit des Coupes du monde à ce jour. Ceci suggère que plus les équipes sont expérimentées, plus elles ont de chances de gagner. Ceci vaut également en bas de l'échelle. Par exemple, la Namibie est le pays qui a joué le moins de matchs depuis 2004, et son pourcentage de victoires est corrélé (voir ci-dessous).

Modélisation

L'utilisation d'un workflow WPS Analytics a permis à nos data scientists de collaborer en partageant un même modèle de workflow tout en mettant en œuvre des approches de modélisation différentes.

Amélioration des performances du modèle

L'affinage du modèle a permis d'augmenter sa puissance prédictive en retirant les variables dont la contribution était marginale et en peaufinant les paramètres de configuration. Le modèle optimal a été identifié en comparant les courbes ROC et la statistique C dans l'Analyseur de modèle. Cela a permis d'accélérer le processus d'évaluation du modèle.

Les techniques de perceptron multicouche, de forêt d'arbres décisionnels et de régression logistique ont toutes produit des modèles prédictifs de qualité similaire.

Parmi les techniques sélectionnées, la régression logistique est celle qu'il est possible de convertir en modèle de fiche d'évaluation attribuant des scores pour chaque variable prédictive. Il était beaucoup plus facile de présenter notre modèle dans ce cas d'utilisation qu'avec des techniques plus précises, mais non déchiffrables, telles que le perceptron multicouche.

Pour chaque modèle, un pool de prédicteurs a été vérifié à l'aide du regroupement optimisé dans l'Editeur d’arbre décisionnel. Le score devrait augmenter dans la même direction que le regroupement qui améliore la probabilité de victoire. Il est important de retirer les variables qui ne suivent pas cette tendance, car elles réduisent la puissance prédictive du modèle.

Notre modèle final a mis en évidence quatre prédicteurs :

  1. Nombre de défaites au cours de l'année précédente
  2. Nombre de victoires au cours de l'année précédente
  3. Classement au cours de l'année précédente
  4. Ratio de victoires de l'équipe sur les cinq derniers matchs face à l'adversaire actuel

Lorsque vous étudiez le scoring, il apparaît clairement que l'adversaire et le classement sont importants dans le modèle.

Modèle basé sur les données contre rugbyman expert

Données
contre
Expert
Science des données
Expert
FinalisteAfrique du SudNouvelle-Zélande
FinalisteNouvelle-ZélandeAfrique du Sud
ChampionNouvelle-ZélandeAfrique du Sud

L'analyse des données et l'apprentissage automatique sont de plus en plus utilisés. Toutefois, une intervention humaine reste nécessaire pour définir le problème et interpréter les informations afin d'établir le contexte de la prise de décision.

Nous avons utilisé la Coupe du monde pour présenter diverses approches : utilisation des données sans contexte, connaissance du domaine sans points de données, et l'approche hybride que constitue la réponse de Simon Shaw.

Nous avons fourni à Simon la version initiale de la fiche d'évaluation, et nous lui avons demandé de la commenter. Bien que nous ayons trouvé les mêmes finalistes que lui, la fiche d'évaluation indiquait des regroupements inhabituels, avec la Roumanie, la Géorgie et l'Italie.

Ceci était dû au fait que l'algorithme de regroupement par classe utilisé regroupait les adversaires de manière incohérente. Comme indiqué ci-dessous, les pays sont regroupés par nombre de victoires, sans tenir compte du niveau de l'adversaire. S'ils ne rencontraient que des équipes faibles, leur ratio de victoires augmenterait, mais ne reflèterait pas réellement leur force.

Incohérences dans les données
  • Domaines étudiés avec Simon Shaw
    Face-à-face
    Situation géographique de l'adversaire
  • Recommandations concernant les données
    Re-classification (niveau et hémisphère)
    Imputation basée sur les segments s'il n'y a pas de face-à-face antérieurs
    Identifier la météo et l'arbitre
  • Variables supplémentaires à prendre en compte
    Niveau de l'équipe et de l'adversaire
    Hémisphère de l'équipe et de l'adversaire
    Victoires lors des derniers face-à-face
    Données météo et arbitrage
    Age moyen de l'équipe
    Poids du pack
    Temps de sortie du ballon en mêlée ouverte
    Mesure des distances de progression du ballon
    Nationalité des arbitres
AdversaireArgentine, Angleterre, Fidji, Japon, Roumanie, Samoa, Pays de Galles2
Australie, France, Géorgie, Irlande, Afrique du Sud-44
Canada, Ecosse, Tonga44
Italie, Russie, USA77
Namibie, Portugal, Uruguay126
Nouvelle-Zélande-189

Enrichissement du modèle

Après avoir consulté Simon Shaw, nous avons suivi ses conseils et modifié le modèle afin d'inclure deux variables supplémentaires : le niveau de l'équipe et son hémisphère. D'après lui, le niveau de l'équipe est essentiel pour déterminer sa qualité. Comme nous l'avons vu plus haut, certaines nations peuvent avoir un taux de victoire élevé sans être considérées comme étant de haut niveau, en raison des équipes qu'elles ont affrontées.

L'hémisphère dont vient une équipe a été ajouté comme variable, car Simon Shaw pensait qu'il y avait des cultures de jeu différentes entre nord et sud. De plus, lorsqu'une équipe doit jouer aux antipodes, un temps d'adaptation est nécessaire, et de nombreuses équipes peinent à s'acclimater.

Si l'on en croit ce graphique, la Géorgie, avec un taux de victoire de 49 %, devrait être considérée comme un adversaire coriace. Mais cette réussite, comme l'a souligné notre expert, a été surtout aux dépens d'équipes de niveau inférieur. Les équipes de premier rang avec un taux de victoire élevé sont naturellement considérées comme des équipes fortes de cette compétition.

En revanche, l'Italie a un taux de victoire faible, mais comme elle joue la plupart de ses matchs contre des équipes du haut du tableau, elle pourrait être considérée comme plus forte que la Géorgie. Afin d'évaluer les équipes de manière équitable, nous avons donc dû classer les équipes par niveau. Ceci démontre l'importance de la connaissance du domaine dans l'analyse des données.

En suivant les conseils de Simon Shaw, nous avons ajouté des variables pour le niveau et l'hémisphère, et décidé de réimputer les données avec ces nouvelles informations.

La précédente imputation des données avait été utilisée pour évaluer les résultats des équipes sur la base de leur taux de victoire médian face à toutes les équipes. Les nouvelles variables nous ont permis d'affiner le modèle, en prenant en compte le taux de victoire d'une équipe face aux autres équipes de même niveau et hémisphère. Nous avons ainsi obtenu une représentation plus précise des performances d'une équipe face à ses adversaires, en ajoutant au passage 16 segments pour remplacer les variables manquantes.

Variables et pondérations du modèle
  • Les variables recommandées par l'expert – niveau de l'équipe et hémisphère – ont apporté une contribution notable au modèle
Les variables de prédiction suggèrent que...
  • Plus l'écart au classement mondial entre les équipes est important, plus l'équipe la plus haut classée a de chances de gagner
  • L'équipe dont le taux de défaite est inférieur à celui de l'adversaire a plus de chances de gagner
  • L'équipe dont le taux de victoire est supérieur à celui de l'adversaire a plus de chances de gagner

Conclusion

Nous n'avions malheureusement que quatre jours pour travailler sur ce projet. Avec plus de temps, nous aurions pu capturer et prendre en compte d'autres conseils de Simon Shaw, car son avis nous a été précieux. Nous aurions aimé ajouter certains points de données tels que les statistiques physiques des joueurs (âge, taille, poids). Simon Shaw nous a expliqué le rôle croissant de la science des données dans le sport. Il existe désormais plus de données sur le comportement de jeu des joueurs et des équipes, tels que la vitesse de sortie de la balle en mêlée ouverte, action de jeu à laquelle les Néo-Zélandais excellent.

Tout comme un expert dans le domaine étudié est indispensable pour un projet de science des données, la modélisation peut aider à éviter les biais de confirmation, qui sont fréquents dans les événements sportifs, car les supporters d'une équipe laissent l'émotion l'emporter sur la raison.

La science des données seule peut être très utile, mais elle ne devient réellement efficace qu'avec une collaboration réussie avec des spécialistes du domaine. Les apports fournis par Simon Shaw ont fait passer l'aire sous la courbe (test) de notre modèle de 0,84 à 0,89.

Pour en revenir à notre question initiale, donc, qui va remporter la Coupe du monde de rugby 2019 ? D'après notre modèle, la réponse est l'Angleterre !

Résumé des prédictions

Pour accéder à l'ensemble de données afin de créer votre propre modèle, et obtenir une version d'essai de notre logiciel, envoyez un mail à sales@worldprogramming.com avec le sujet "Rugby World Cup ».