Pronóstico del ganador de la Copa del Mundo de rugby de 2019

Blog

Publicado

17 sep. 2019

Categoría

Ciencia de datos

Compartir

Pronóstico del ganador de la Copa del Mundo de rugby de 2019

De: Oli Plaistowe y el equipo Solutions en World Programming, Reino Unido

La Copa del Mundo de rugby de 2019 determinará qué nación se llevará a casa la Copa Webb Ellis. Personas de todos los orígenes se reúnen para discutir, apoyar y, por supuesto, predecir el resultado de su equipo local durante los principales eventos deportivos. Pensamos que sería divertido desafiar la destreza cognitiva de nuestro equipo de ciencia de datos para crear un modelo que predeciría con precisión quién ganará. No solo queríamos predecir el ganador general, sino que también llegamos a predecir el resultado de cada juego. ¡Esta tarea fue aún más desalentadora ya que nuestros científicos de datos no tenían absolutamente ningún conocimiento previo de rugby!

Nos hicimos la pregunta: ‘¿Pueden los datos proporcionar mejores pronósticos que un experto en el campo del rugby?' Teníamos los datos y el cerebro, todo lo que teníamos que hacer era conseguir la ayuda del experto. Nos dirigimos a alguien que sabe de primera mano cómo es levantar la Copa Webb Ellis por encima de su cabeza; el ex-jugador internacional de Inglaterra Simon Shaw MBE [Miembro de la Orden del Imperio Británico], la Segunda línea en el equipo ganador de la Copa del Mundo de Inglaterra de 2003. ¡Estábamos seguros de haber encontrado a nuestro experto en la materia!

Simon Shaw MBE

  • 71 presencias en el equipo nacional inglés
  • 3 giras de los Leones británico-irlandeses
  • 17 participaciones
  • 2 partidos de prueba internacionales
  • Primer jugador en alcanzar 200 participaciones en la Premiership (Liga Premier)
  • ¡La primera Segunda línea en patear un puntapié de botepronto exitoso!

Si eres un ex-profesional con años de experiencia en rugby como Simon, o simplemente participa en la lotería de su oficina, queríamos crear un ejemplo de flujo de trabajo fácil para ayudarlo a comenzar su viaje al mundo de las predicciones. Aunque esto fue un poco divertido, queríamos simular cómo los problemas analíticos dentro de los eventos deportivos son muy similares a los proyectos que se encuentran a diario en el sector comercial. La adopción de análisis con el 'aprendizaje automático' está aumentando rápidamente, sin embargo, no se puede sacar provecho de los datos en sí, a menos que un hombre pueda definir el problema e interpretar las informaciones para proporcionar contexto a la toma de decisiones. Utilizando un enfoque tradicional para el modelado predictivo, creamos un modelo sin conocimiento del campo, luego involucramos a Simon, nuestro experto, para optimizar y mejorar nuestro modelo.

Definición del problema

¿Ganar un partido, ganar la Copa del Mundo? El problema se definió estableciendo la probabilidad de que un equipo participante gane cada partido que disputó en la Copa del Mundo, con los resultados de mayor propensión, pasando a la siguiente vuelta e identificando un ganador para la final. Si el desafío no fue lo suficientemente difícil, nos limitamos a solo cuatro días para completar el modelo.

Nuestros científicos de datos tuvieron la tarea de:

  • definir la VD (variable dependiente) en este caso siendo Victoria = 1 y Derrota = 0
  • captura de datos
  • preparación de datos en la vista de minería
  • informaciones
  • creación del modelo
  • evaluación y validación del modelo
  • refinamiento del modelo

Salidas de destino

Con cualquier entrega analítica, teníamos dos objetivos:

  1. crear un poderoso modelo predictivo y
  2. ser capaces de explicar los motores en el modelo.

Descubrimos que usar un cuadro de mandos es la forma más intuitiva de explicar los motores predictivos de cada juego, sin embargo, los resultados requirieron la normalización para producir un porcentaje de victorias.

Datos

Al buscar puntos de datos sobre un tema en el que tiene poca o ninguna experiencia, es importante validar la fuente de precisión y confiabilidad. En un campo como el deporte, se publican un sinfín de opciones de datos secundarios en una amplia gama de fuentes, desde revistas hasta sitios de fanáticos, pero finalmente nos centramos en las estadísticas disponibles públicamente, así como en la recopilación de todos los reportes meteorológicos históricos relevantes.

Sin embargo, debido al tiempo limitado, no era posible vincular las condiciones meteorológicas a los partidos individuales. En cambio, se reconsideró una temperatura promedia para ver si las condiciones tenían un impacto uniforme en los equipos nacionales. Con más tiempo, nos hubiera gustado trabajar con las empresas de 'datos deportivos' para obtener estadísticas adicionales, que podrían proporcionar puntos de datos más granulares y adecuados para el propósito.

Puntos de datos sin procesar

Estadísticas generalesEstadísticas de jugadorEstadísticas de la Copa del Mundo
(4 anteriores)
Por equipo
Número de partidos
Partidos ganados
Partidos perdidos
Partidos empatados
Porcentaje de victorias
Puntos a favor
Puntos en contra
Diferencia de puntos
Ensayos
Transformaciones
Puntapiés de castigo
Puntapié de botepronto
Año del partido
Ubicación de los puntos de
clasificación
Estadísticas de enfrentamientos directos
Estadísticas meteorológicas
Por jugador
Número de partidos
Inicios de partidos
Sustituciones
Puntos
Ensayos
Transformaciones
Puntapiés de castigo
Puntapié de botepronto
Partidos ganados
Partidos perdidos
Partidos empatados
Porcentaje de victorias
Año del partido
Rango
Número de tarjetas amarillas
Año del partido
Carreras
Puntapiés de castigo
Número de partidos
Número de tarjetas rojas
Transformaciones
Puntapiés de botepronto
Ensayos
Placajes
Puntos
Equipo

Vista de minería

Determinar la vista de minería es una parte clave de cada proyecto de ciencia de datos. Como nuestros datos provienen de varias orígenes de datos, fue útil mostrar la preparación de datos en un flujo de trabajo. La origen de datos estaba disponible en diferentes formas, por lo que decidimos recopilar datos por año y país. Otro elemento de planificación fue lo que íbamos a predecir y cómo dividiríamos los datos para pruebas y validación.

Elegimos predecir el resultado de cada partido; aunque puede haber beneficios adicionales para un modelo específico de la Copa del Mundo, la Copa del Mundo ocurre cada cuatro años y no hay suficientes puntos de datos para entrenar un modelo predictivo adecuado. Sacando provecho del lenguaje SAS, se creó una vista de minería para poder extraer información.

Componente de la vista de mineríaCuadro de mando RWC
Unidad de análisisNivel de partido
Tamaño de muestra1.750 partidos, 2 observaciones por partido para un índice de victorias/derrotas del 50%-50%. 3.500 observaciones en vista de modelado
Ventana de rendimientoTodos los juegos anteriores a la Copa del Mundo de 2019 desde 2004
Ventana de observaciónInformación histórica del partido durante el período de catorce años.
Variables independientesMezcla de datos nominales, ordinales y de intervalos, tales como valores agregados, marcas, relaciones, valores de hora y fecha
Variable dependienteEstado de victoria (1 o 0)
Partidos empatados quitados para mantener un modelo binario
Orígenes de datosDatos del partido, datos del jugador, datos del equipo, datos del entorno

Selección de variables

Inicialmente, la vista de minería consistía en más de 700 variables derivadas como el resultado de la preparación de datos. Usando varias técnicas como agrupación en clústeres, pruebas de significación y análisis de correlación, eliminamos variables que estaban estrechamente relacionadas y representan tendencias similares. Nos quedamos con los 40 predictores más influyentes, que luego se ajustaron para revelar la combinación óptima.

Informaciones

Quizás la información más obvia o la validación de datos fue que cuanto mayor es el número promedio de juegos ganados en el año anterior, mayor es la probabilidad de ganar el próximo partido.

Más interesante aún, descubrimos que ganar los últimos cinco partidos antes del torneo, aumenta la probabilidad de ganar la Copa del Mundo, prueba científica de la "racha ganadora".

Relación de victorias de los 5 partidos anteriores

Predictor inusual?

Resultado del penúltimo partido

El penúltimo partido es un mejor predictor que uno inmediatamente antes de que comience el torneo.

Al contrario de lo que pensamos inicialmente, los equipos con más tarjetas amarillas en un torneo de la Copa Mundial tienen más probabilidades de ganar. Sin embargo, esto podría indicar que los equipos avanzaron más en el torneo y tuvieron más oportunidades de obtener tarjetas amarillas, o podría apuntar a un estilo de juego más agresivo donde recibir una tarjeta amarilla y ganar tienen una correlación.

Tarjetas amarillas recibidas en la serie de la Copa del Mundo

Analizando el número de partidos jugados desde 2004, Australia (226), Nueva Zelanda (218) y Sudáfrica (211) han tenido la mayor cantidad de partidos. Esto se relaciona con el éxito de las naciones, ya que representan siete de las ocho victorias de la Copa del Mundo. Esto sugiere que mientras más experiencia tenga un equipo, mayor será la probabilidad de que gane. Esto es respaldado por las naciones con menos experiencia, por ejemplo, Namibia tiene la menor cantidad de juegos desde 2004 y se relaciona con su porcentaje de victorias (ver más abajo).

Modelado

El uso del flujo de trabajo de WPS Analytics permitió a los científicos de datos colaborar compartiendo la misma plantilla de flujo de trabajo, mientras aplicaban diferentes enfoques de modelado.

Mejora del rendimiento del modelo

El ajuste del modelo aumentó la capacidad predictiva del mismo al quitar las variables con contribución marginal y al modificar los parámetros de configuración. El modelo óptimo se identificó comparando las curvas ROC y la estadística c en el Analizador de modelos, que ayudó a acelerar el proceso de evaluación del modelo.

Todas las técnicas de MLP, Bosque de decisión y Regresión logística produjeron modelos predictivos similares.

A partir de las técnicas seleccionadas, la Regresión logística se puede convertir en un modelo de cuadro de mandos que asigna puntuaciones a cada variable predictiva. La capacidad de presentar claramente nuestro modelo en este caso de uso supera la precisión adicional de las técnicas de caja negra como MLP.

Para cada modelo, se verificó un grupo de predictores mediante la agrupación optimizada en el editor del árbol de decisiones. La puntuación debería aumentar en la misma dirección que la agrupación que mejora la probabilidad de victoria. Es importante quitar las variables que no se conforman a este modelo, ya que reduce la capacidad predictiva del modelo.

Nuestro modelo final destacó cuatro predictores:

  1. Número de derrotas en el año anterior
  2. Número de victorias en el año anterior
  3. Clasificación en el año anterior
  4. Índice de victorias de los últimos cinco partidos de los equipos con el oponente actual

Al mirar la puntuación, es claro ver que el oponente y la clasificación hacen una gran contribución al modelo.

Comparación entre el modelo basado en datos y el experto en rugby

Comparación entre los datos
y
el experto
Ciencia de los datos
Experto
FinalistaSouth AfricaNew Zealand
FinalistaNew ZealandSouth Africa
GanadorNew ZealandSouth Africa

La adopción del uso de Analytics y el 'aprendizaje automático' está aumentando rápidamente. Sin embargo, no se puede sacar provecho de los datos en sí, a menos que un hombre pueda definir el problema e interpretar las informaciones para proporcionar contexto a la toma de decisiones.

Usamos la Copa del Mundo para demostrar los diferentes enfoques con el uso de datos sin contexto, el conocimiento del campo sin puntos de datos, y luego un enfoque híbrido consiste en los comentarios de Simon a continuación.

Le dimos a Simon la visión inicial del cuadro de mandos de la ciencia de datos y le pedimos que comentara. Aunque tuvimos los mismos finalistas, el cuadro de mandos mostró agrupaciones inusuales con Rumania, Georgia e Italia.

La causa de esto se debió al algoritmo de discretización óptima que utilizamos para la discretización de oponentes de manera incoherente. Como se muestra a continuación, los países están agrupados por número de victorias sin tener en cuenta el nivel del oponente afrontado. Si sólo juegan equipos más débiles, esto aumentaría el índice de victorias, pero no sería un reflejo preciso de su fuerza.

Los motores de datos tenían incongruencias
  • Áreas discutidas con Simon
    Consideraciones acerca de los enfrentamientos directos
    Ubicación del oponente
  • Recomendaciones de datos
    Re-clasificación (nivel y hemisferios)
    Imputación basada en segmentos para manejar sin historial de enfrentamientos directos
    Identificar las condiciones del tiempo y el árbitro
  • Variables adicionales a tener en cuenta
    Nivel de equipo y oponente
    Hemisferio de equipo y oponente
    Victorias de enfrentamientos directos más recientes
    Datos meteorológicos y relativos a los árbitros
    Edad media del equipo
    Peso de los delanteros
    Tiempo de salida de la pelota fuera del melé
    Medición de las líneas de ganancia por distancia
    Nacionalidad de los árbitros
AdversarioArgentina, England, Fiji, Japan, Romania, Samoa, Wales2
Australia, France, Georgia, Ireland, South Africa-44
Canada, Scotland, Tonga44
Italy, Russia, USA77
Namibia, Portugal, Uruguay126
New Zealand-189

Enriquecimiento de modelo

Después de consultar a Simon, tomamos su consejo y modificamos el modelo para incluir dos variables más: una que contenía el nivel del equipo y otra que señalaba el hemisferio del equipo. Según Simon, el nivel del equipo es crucial para identificar la calidad del equipo. Como se vio en una información anterior, las naciones pueden tener un alto índice de victorias, pero no pueden considerarse un equipo superior; esto se debe a los equipos con los que se enfrentan.

Se agregó un hemisferio de equipos como una variable, ya que Simon creía que había diferencias en la cultura del juego. Además, cuando una nación juega en un hemisferio de un oponente, se necesita una adaptación y muchos equipos luchan por lograrlo.

Como lo ilustra el gráfico, Georgia, con un índice de victorias del 49%, se consideraría un equipo fuerte para la competencia. Este éxito, tal como lo identificó el experto en la materia, proviene principalmente de jugar contra equipos de segundo nivel. Las naciones en el primer nivel, con un alto índice de victorias, naturalmente se considerarían equipos fuertes en la competencia.

En contraste, Italia tiene un bajo índice de victorias ya que la mayoría de sus partidos se juegan contra equipos de primer nivel, pero podrían considerarse un equipo más fuerte que Georgia. Para juzgar equitativamente a los equipos, por lo tanto, necesitamos distinguir entre los equipos en los niveles. Esto demuestra la importancia del conocimiento del campo en el análisis de datos.

Siguiendo el consejo de Simon, agregamos variables para el nivel y el hemisferio, y decidimos volver a imputar datos utilizando esta nueva información.

La imputación de datos anterior se utilizó para estimar los resultados de los equipos en función de la mediana agregada de su índice de victorias contra a todos los equipos. Las nuevas variables nos permitieron ajustar el modelo, teniendo en cuenta el índice de victorias de un equipo contra equipos en su propio nivel y hemisferio. Esto nos dio una representación más precisa de cómo se desempeñaría un equipo contra la oposición, agregando 16 segmentos diferentes para reemplazar las variables faltantes.

Variables y pesos de campeón del modelo
  • Las variables recomendadas por el experto, nivel del equipo y hemisferio, contribuyeron significativamente al modelo
Las variables de predicción sugieren...
  • Cuanto mayor sea la diferencia en la clasificación mundial entre equipos, más probabilidades hay de que gane el equipo de rango superior
  • El equipo con un índice de derrotas más bajo en comparación con el oponente, tiene más probabilidades de victoria
  • El equipo con un índice de victorias más alto en comparación con el oponente, tiene más probabilidades de victoria

Conclusión

Reflexionando, solo teníamos cuatro días para trabajar en el proyecto. Si hubiéramos tenido más tiempo, habríamos capturado e incorporado más comentarios de Simon, ya que eran innegablemente valiosos. Ciertos datos que nos gustaría agregar incluyeron estadísticas físicas del jugador, tales como edad, altura y peso. Simon Shaw discutió cómo la ciencia de datos se está convirtiendo cada vez más en una parte de los deportes, lo que significa que hay más datos sobre el comportamiento del jugador y el juego en equipo, como el tiempo promedio para sacar la pelota del melé, algo en lo que Nueva Zelanda se destaca.

Del mismo modo que el experto en la materia se convierte en una ayuda esencial para la ciencia de datos, el modelado puede ayudar a minimizar el sesgo de confirmación que se ve con frecuencia en los eventos deportivos, donde los fanáticos se emocionan tanto que dejan que su corazón gobierne sobre su cabeza.

La ciencia de datos puede lograr mucho por sí sola, pero la verdadera magia para que sea adecuado para su propósito, sucede con la colaboración exitosa con expertos en la materia. Los aportes recibidos de Simon aumentaron nuestras Áreas bajo la curva (AUC [Area Under the Curve]) de AUC en la prueba = 0,84 a AUC en la prueba = 0,89.

Entonces, después de todo eso, la pregunta que originalmente nos propusimos responder fue: "¿Quién ganará la Copa del Mundo de rugby de 2019?" Según nuestro modelo, la respuesta es Inglaterra!

Resumen de pronósticos

Si deseas acceder al conjunto de datos para crear tu modelo, y obtener una versión de prueba de nuestro software, envíe un correo electrónico sales@worldprogramming.com con el tema "Copa del Mundo de rugby"