Pronostico del vincitore della Coppa del Mondo di rugby 2019

Blog

Inserito

17 set 2019

Categoria

Scienza dei dati

Condividi

Pronostico del vincitore della Coppa del Mondo di rugby 2019

Di: Oli Plaistowe e il team di Solutions di World Programming, Regno Unito

La Coppa del Mondo di rugby 2019 stabilirà quale nazione porterà a casa la Coppa Webb Ellis. Persone di tutte le estrazioni si riuniscono per discutere, sostenere e ovviamente prevedere l'esito della loro squadra nazionale durante i principali eventi sportivi. Abbiamo pensato che sarebbe stato divertente sfidare l'abilità cognitiva del nostro team di scienza dei dati per creare un modello che prevede con precisione chi vincerà. Non solo volevamo pronosticare il vincitore generale, ma siamo anche arrivati a prevedere l'esito di ogni partita. Questa attività è stata ancora più demoralizzante in quanto i nostri scienziati dei dati non avevano alcuna conoscenza di base del rugby!

Ci siamo posti la domanda: 'I dati possono fornire previsioni migliori di un esperto nel campo del rugby?' Avevamo i dati e il cervello, tutto ciò che dovevamo fare era chiedere l'aiuto dell'esperto. Ci siamo rivolti a qualcuno che conosce in prima persona cosa significa sollevare la Coppa Webb Ellis sopra la sua testa; l'ex-giocatore della nazionale inglese, Simon Shaw MBE [Eccellentissimo Ordine dell'Impero Britannico], la Seconda linea nella squadra vincitrice della Coppa del Mondo 2003 in Inghilterra. Eravamo sicuri di aver trovato il nostro esperto del settore!

Simon Shaw MBE

  • 71 presenze nella nazionale inglese
  • 3 tornei British and Irish Lions
  • 17 partecipazioni
  • 2 test match (partite di prova internazionali)
  • Primo giocatore a raggiungere le 200 partecipazioni in Premiership (Prima divisione)
  • Prima Seconda linea a calciare con successo un drop!

Che tu sia un ex-professionista con anni di esperienza nel rugby come Simon o partecipi soltanto alla tua lotteria in ufficio, volevamo creare un semplice esempio di flusso di lavoro che ti aiutasse a iniziare il tuo viaggio nel mondo delle previsioni. Anche se questo è stato un po' divertente, volevamo simulare in che modo i problemi di analisi negli eventi sportivi sono molto simili ai progetti che si riscontrano quotidianamente nel settore commerciale. L'adozione dell'analisi con l'apprendimento automatico sta rapidamente aumentando, tuttavia, non è possibile usare a proprio vantaggio i dati, a meno che un uomo non possa definire il problema e interpretare le informazioni approfondite per fornire un contesto al processo decisionale. Utilizzando un approccio tradizionale alla modellazione predittiva, abbiamo creato un modello senza una conoscenza del settore, quindi abbiamo coinvolto Simon, il nostro esperto, per ottimizzare e migliorare il nostro modello.

Definizione del problema

Vincere una partita, vincere la Coppa del Mondo? Il problema è stato definito stabilendo la probabilità che una squadra partecipante vinca ogni partita disputata alla Coppa del Mondo, con i punteggi con le tendenze più alte che passano al turno successivo e identificano un vincitore per la finale. Se la sfida non è stata abbastanza difficile, ci siamo limitati a soli quattro giorni per completare il modello.

I nostri scienziati dei dati avevano il compito di:

  • definire la VD (variabile dipendente) che in questo caso è Vincita = 1 e Perdita = 0
  • acquisire i dati
  • preparare i dati nella vista di data mining
  • interpretare le informazioni approfondite
  • creazione del modello
  • valutare e convalidare il modello
  • raffinare il modello

Output di destinazione

Come con qualsiasi altro progetto analitico, avevamo due obiettivi:

  1. creare un potente modello predittivo e
  2. essere in grado di spiegare i driver nel modello.

Abbiamo scoperto che usare una scorecard è il modo più intuitivo per spiegare i driver predittivi di ogni partita, tuttavia i risultati hanno richiesto la normalizzazione per produrre una percentuale di vincite.

Dati

Durante la ricerca dei punti dati su un oggetto di cui si ha poca o nessuna esperienza, è importante convalidare la fonte per accuratezza e affidabilità. In un settore come lo sport, vengono pubblicate infinite opzioni di dati secondari su una vasta gamma di fonti: dalle riviste ai siti dei fan, ma alla fine ci siamo concentrati sulle statistiche disponibili al pubblico e sulla raccolta di tutte le letture delle previsioni del tempo storiche pertinenti.

Tuttavia, per colpa del tempo limitato, non era possibile collegare le condizioni meteorologiche alle singole partite. Invece, è stata considerata una temperatura media per vedere se le condizioni hanno avuto un impatto uniforme sulle squadre nazionali. Se avessimo avuto più tempo, ci sarebbe piaciuto lavorare con aziende che forniscono "dati sportivi" per ricevere ulteriori statistiche, che avrebbero potuto produrre punti dati più granulari e adatti a scopi specifici.

Punti dati non elaborati

Statistiche generaliStatistiche dei giocatoriStatistiche sulla Coppa del Mondo
(precedente 4)
Per squadra
Numero di partite
Partite vinte
Partite perse
Partite pareggiate
Percentuale vinte
Punti marcati
Punti subiti
Differenza di punti
Mete
Trasformazioni
Punizioni
Drop
Anno di partita
Posizione nella classifica
a punti
Statistiche per scontri diretti
Statistiche meteorologiche
Per giocatore
Numero di partite
Inizi partite
Sostituzioni
Punti
Mete
Conversioni
Punizioni
Drop
Partite vinte
Partite perse
Partite pareggiate
Percentuale vinte
Anno di partita
Posizione
Numero di cartellini gialli
Anno di partita
Azioni di corsa
Punizioni
Numero di partite
Numero di cartellini rossi
Trasformazioni
Drop
Mete
Placcaggi
Punti
Squadra

Vista del mining

La dterminazione della vista del mining è una parte fondamentale di ogni progetto di scienza dei dati. Siccome i nostri dati provengono da diverse fonti di dati, è stato utile visualizzare la preparazione dei dati in un flusso di lavoro. L'origine dati era disponibile in varie forme, quindi abbiamo deciso di raccogliere i dati per anno e paese. Un altro elemento di pianificazione era costituito da cosa dovevamo prevedere e come avremmo partizionato i dati per il test e la convalida.

Abbiamo scelto di prevedere il risultato di ogni partita; anche se potrebbero esservi ulteriori vantaggi per un modello specifico per la Coppa del Mondo, quest'ultima si svolge ogni quattro anni e non ci sono abbastanza punti dati per eseguire il training di un modello adeguatamente predittivo. Utilizzando al meglio il linguaggio SAS, è stata creata una vista di mining per poter estrarre informazioni approfondite.

Componente della vista del miningScorecard RWC
Unità di analisiLivello di corrispondenza
Dimensione del campione1.750 partite, 2 osservazioni per partita con un rapporto vittorie/perdite di 50%-50%. 3.500 osservazioni in vista di modellazione
Finestra alle prestazioniTutte le partite precedenti alla Coppa del Mondo 2019 dal 2004
Finestra di osservazioneInformazioni storiche sulle partite nel periodo di quattordici anni
Variabili indipendentiCombinazione di dati nominali, ordinali e di intervalli, quali i valori aggregati, i contrassegni, i rapporti, i valori di data e ora
Variabile dipendenteStato della vittoria (1 o 0)
Partite pareggiate rimosse per mantenere un modello binario
Origini datiDati della partita, dati del giocatore, dati della squadra, dati dell'ambiente

Selezione di variabili

Inizialmente, la visualizzazione del mining consisteva in oltre 700 variabili derivate come risultato della preparazione dei dati. Usando varie tecniche come il clustering, il test di significatività e l'analisi di correlazione, abbiamo rimosso variabili strettamente correlate che rappresentano tendenze simili. Sono rimasti i 40 predittori più influenti, che sono stati poi messi a punto per rivelare la combinazione ottimale.

Informazioni approfondite

Forse le informazioni approfondite o convalide dei dati più ovvie sono state: "maggiore è il numero medio di partite vinte nell'anno precedente, maggiore è la probabilità di vincere la partita successiva".

Ancora più interessante, abbiamo scoperto che vincere le ultime cinque partite prima del torneo, aumenta la probabilità di vincere la Coppa del Mondo: prova scientifica della "serie di vittorie".

Rapporto delle vittorie delle 5 partite precedenti

Predittore insolito?

Risultato della penultima partita

La penultima partita è un predittore migliore di uno immediatamente precedente all'inizio del torneo.

Contrariamente alle nostre considerazioni iniziali, le squadre con più cartellini gialli in un torneo di Coppa del Mondo hanno maggiori probabilità di vincere. Tuttavia, ciò potrebbe solo indicare squadre che sono andate più avanti nel torneo e che hanno avuto maggiori opportunità di ricevere cartellini gialli, oppure potrebbe indicare uno stile di gioco più aggressivo in cui ricevere un cartellino giallo e vincere sono correlati.

Cartellini gialli ricevuti nelle serie di Coppa del Mondo

Esaminando il numero di partite giocate dal 2004, Australia (226), Nuova Zelanda (218) e Sudafrica (211) hanno avuto il maggior numero di partite, che è correlato al successo delle nazioni in quanto rappresentano 7 vittorie su 8 Coppe del Mondo. Ciò suggerisce che più esperienza ha una squadra, maggiore è la probabilità che vincerà. Questo fatto è ulteriormente supportato dalle nazioni con meno esperienza, ad esempio la Namibia ha il minor numero di giochi dal 2004 ed è correlato alla loro percentuale di vittorie (vedere in basso).

Creazione del modello

L'utilizzo del flusso di lavoro di WPS Analytics ha consentito agli scienziati dei dati di collaborare condividendo lo stesso modello di flusso di lavoro, applicando al contempo approcci di modellazione diversi.

Miglioramento delle prestazioni del modello

L'ottimizzazione del modello ha aumentato la sua capacità di previsione, rimuovendo le variabili con contributo marginale e perfezionando i parametri di configurazione. Confrontando le curve ROC e la statistica c nell'Analizzatore di modelli, abbiamo individuato il modello ottimale, che ha contribuito ad accelerare il processo di valutazione del modello.

Tutte le tecniche MLP, Foresta decisioni e Regressione logistica hanno prodotto dei modelli predittivi simili.

Dalle tecniche selezionate, la Regressione logistica può essere convertita in un Modello di scorecard che assegna i punteggi a ciascuna variabile predittiva. La capacità di presentare chiaramente il nostro modello in questo caso di utilizzo supera la precisione aggiuntiva delle tecniche black box, come la MLP.

Per ciascun modello, è stato verificato un pool di predittori mediante il raggruppamento ottimizzato nell'editor dell'albero delle decisioni. Il punteggio dovrebbe aumentare nella stessa direzione del raggruppamento che migliora la probabilità di vittoria. È importante rimuovere le variabili che non sono conformi a questo modello, poiché riduce il potere predittivo del modello.

Il nostro modello finale ha evidenziato quattro predittori:

  1. Numero di perdite dell'anno precedente
  2. Numero di vittorie dell'anno precedente
  3. Classifica dell'anno precedente
  4. Rapporto delle vittorie delle ultime cinque partite delle squadre con l'avversario attuale

Quando si guarda il punteggio, è chiaro che l'avversario e la classifica danno un grande contributo al modello.

Confronto tra il modello basato sui dati e l'esperto di rugby

Confronto tra i dati
e
l'esperto
Scienza dei dati
Esperto
FinalistaSouth AfricaNew Zealand
FinalistaNew ZealandSouth Africa
VincitoreNew ZealandSouth Africa

L'adozione dell'utilizzo di Analytics e dell'apprendimento automatico è in rapido aumento, tuttavia, non è possibile usare a proprio vantaggio i dati, a meno che un uomo non possa definire il problema e interpretare le informazioni approfondite per fornire un contesto al processo decisionale.

Abbiamo usato la Coppa del Mondo per dimostrare i diversi approcci con l'uso di dati senza contesto, la conoscenza del dominio senza punti dati, e quindi un approccio ibrido consiste nei commenti di Simon riportati di seguito.

Abbiamo dato a Simon la visione iniziale della scorecard della scienza dei dati e gli abbiamo chiesto di commentare. Sebbene avessimo gli stessi finalisti, la scorecard ha dimostrato raggruppamenti insoliti con Romania, Georgia e Italia.

La causa di ciò era dovuta all'algoritmo di discretizzazione ottimale che abbiamo usato per la discretizzazione degli avversari in modo incoerente. Come è illustrato di seguito, i paesi sono discretizzati dal numero di vittorie, pur ignorando il livello dell'avversario affrontato. Se giocassero solo squadre più deboli, aumenterebbe il rapporto delle vittorie, ma non sarebbe un'indicazione precisa della loro forza.

I driver dei dati presentavano incongruenze
  • Aree discusse con Simon
    Considerazioni sugli scontri diretti
    Posizione dell'avversario
  • Raccomandazioni sui dati
    Riclassificazione (livello ed emisferi)
    Imputazione basata su segmenti da gestire senza alcuna storia di scontri diretti
    Identificare le condizioni del tempo e l'arbitro
  • Altre variabili da considerare
    Livello della squadra e dell'avversario
    Emisfero della squadra e dell'avversario
    Vittorie in scontri diretti più recenti
    Dati su meteo e arbitri
    Età media della squadra
    Peso del pacchetto
    Tempo di uscita per la palla fuori dalla mischia
    Misurazione delle linee del vantaggio per distanza
    Nazionalità degli arbitri
AvversarioArgentina, England, Fiji, Japan, Romania, Samoa, Wales2
Australia, France, Georgia, Ireland, South Africa-44
Canada, Scotland, Tonga44
Italy, Russia, USA77
Namibia, Portugal, Uruguay126
New Zealand-189

Arricchimento del modello

Dopo aver consultato Simon, abbiamo seguito il suo consiglio e modificato il modello in modo che includesse altre due variabili: una contenente il livello della squadra e una che indicava l'emisfero della squadra. Secondo Simon il livello della squadra è cruciale per identificare la qualità della squadra. Come riscontrato in informazioni approfondite precedenti, anche se le nazioni possono avere un alto rapporto delle vittorie, potrebbero non essere considerate una delle principali squadre; questo dipende dalle squadre che affrontano.

L'emisfero di una squadra è stato aggiunto come variabile poiché Simon riteneva che ci fossero differenze nella cultura del gioco, inoltre, quando una nazione gioca in un emisfero avversario, è necessario un adattamento e molte squadre fanno fatica ad adeguarsi.

Come è illustrato nel grafico, la Georgia, con un rapporto di vittorie del 49%, si considererebbe una squadra forte per la competizione. Un tale successo, in base all'opinione dell'esperto del settore, proviene principalmente da partite contro squadre di secondo livello. Le nazioni di primo livello con un alto rapporto di vittorie verrebbero naturalmente considerate squadre forti nella competizione.

Al contrario, l'Italia ha un basso rapporto di vittorie in quanto nella maggior parte delle sue partite affronta squadre di primo livello, ma si potrebbe considerare una squadra più forte della Georgia. Per giudicare equamente le squadre, dobbiamo quindi distinguere le squadre nei livelli. Ciò dimostra l'importanza della conoscenza del settore nell'analisi dei dati.

Seguendo il consiglio di Simon, abbiamo aggiunto variabili per livello ed emisfero, e abbiamo deciso di reimputare i dati utilizzando queste nuove informazioni.

L'imputazione dei dati precedenti è stata utilizzata per stimare i risultati per i team in base alla mediana aggregata del loro rapporto delle vittorie rispetto a tutti i team. Le nuove variabili ci hanno permesso di mettere a punto il modello, tenendo conto del rapporto delle vittorie di una squadra rispetto alle squadre nel proprio livello ed emisfero. Questo ci ha fornito una rappresentazione più precisa delle prestazioni di una squadra contro l'avversario, aggiungendo 16 segmenti diversi per sostituire le variabili mancanti.

Variabili e pesi del campione del modello
  • Le variabili consigliate dall'esperto, livello della squadra ed emisfero, hanno contribuito in modo significativo al modello
Le variabili di previsione suggeriscono...
  • Maggiore è la differenza nella classifica mondiale tra le squadre, maggiore è la probabilità che vinca la squadra di livello superiore
  • La squadra con un tasso di perdita inferiore rispetto all'avversario ha maggiori probabilità di vincere
  • La squadra con un tasso di vincita superiore rispetto all'avversario ha maggiori probabilità di vincere

Conclusione

Riflettendoci, abbiamo avuto solo quattro giorni per lavorare al progetto. Se avessimo avuto più tempo, avremmo acquisito e incorporato più commenti di Simon, dato che erano innegabilmente preziosi. Alcuni dati che vorremmo aver aggiunto includevano statistiche fisiche dei giocatori, come età, altezza e peso. Simon Shaw ha discusso di come la scienza dei dati stia diventando sempre più parte dello sport, il che significa che ci sono più dati sul comportamento dei giocatori e delle squadre durante il gioco, come il tempo medio per far uscire la palla dalla mischia, qualcosa in cui la Nuova Zelanda eccelle.

Proprio come l'esperto del settore diventa un consulente essenziale per la scienza dei dati, la modellazione può contribuire a ridurre al minimo i pregiudizi delle conferme che si vedono spesso negli eventi sportivi, in cui i tifosi diventano così emotivamente investiti da lasciarsi dominare il cuore.

La scienza dei dati può raggiungere molto da sola, ma la vera magia per adattarla a uno scopo specifico avviene con una proficua collaborazione con esperti del settore. I contributi ricevuti da Simon hanno aumentato la nostra area sotto la curva (AUC [Area Under the Curve]) dall'AUC nel test = 0,84 all'AUC nel test = 0,89.

Quindi, dopo tutto ciò, la domanda a cui inizialmente desideravamo rispondere era "Chi vincerà la Coppa del mondo di rugby 2019?" Secondo il nostro modello, la risposta è Inghilterra!

Riepilogo delle previsioni

Se desideri accedere al set di dati per creare il tuo modello e ricevere una versione di prova del nostro software, invia un'email sales@worldprogramming.com con l'oggetto "Coppa del mondo di rugby"