Serie: Explicando el rendimiento de los futbolistas
Artículo 1: Introducción
Hola soy Benja, estoy estudiando Ingeniería Civil Industrial a la par del Magíster en Economía Aplicada en la Universidad de Chile, y tengo la suerte de estar haciendo una tesis soñada en fútbol con Futbolytics, gracias a la confianza depositada en ellos por el Instituto de Sistemas Complejos de Ingeniería (ISCI). Al igual que la Coni, publicaré en varios artículos el avance de mi trabajo de tesis, que se centra en encontrar las variables que explican el rendimiento de los futbolistas por posición.
Actualmente, los clubes de fútbol están incorporando cada vez más las decisiones data driven¹ a sus procesos de selección de jugadores, con la intención de quitar cualquier sesgo que exista al momento de decirse por un fichaje nuevo. Es más, a principios de junio el Sevilla FC organizó una hackatón con el desafío de mejorar el algoritmo de scouting que responda a qué es un buen jugador posición por posición.
¿Qué hace que un jugador sea bueno o sea malo? ¿en qué nos fijamos para decir que un delantero es bueno?. Los equipos de fútbol se hacen estas preguntas cada vez que se abren los mercados de pases, e incluso nosotros desde la vereda del hincha, nos las hemos hecho jugando FIFA. ¿Qué variables son las importantes al momento de elegir jugadores en cada posición? ¿Qué es más importante para un lateral, ser rápido y sacar buenos centros o ser defensivamente extraordinario? La respuesta a esa pregunta depende bastante del estilo de juego del equipo y la función que cumple el jugador en el esquema: si ataca mucho por las bandas o si tiene un juego más defensivo y espera al contraataque.
De todas maneras tenemos que definir que es un buen y mal rendimiento. No es extraño que el equipo que jugó mejor pierda el partido o que un equipo llegue una sola vez al arco, meta el gol y gane el partido. Por lo tanto, no es directo decir que quien ganó el partido jugó mejor o viceversa. En Futbolytics nos interesa estudiar los “fenómenos” del fútbol, tratar de entender cómo poder explicar a través de las matemáticas este hermoso deporte que nos hace vibrar hasta más no poder.
Estamos viviendo una época en la cual el Sports Analytics ha crecido enormemente, pero aún es un campo en desarrollo. Hasta el momento se ha planteado que el rendimiento de los equipos es la consecuencia del rendimiento individual de los jugadores. Lo cual suena intuitivo, si los jugadores juegan mal, en consecuencia el equipo no jugó bien. Es por esto que nos volveremos a fijar en una métrica muy utilizada por Futbolytics: xG (goles esperados o expectativa de gol), que entrega información sobre la calidad de las llegadas del equipo. Entonces, se podría decir que si un equipo tuvo una gran expectativa de gol, los jugadores del equipo lograron generar buenas oportunidades de gol. Los defensas salieron jugando bien, los mediocampistas dieron buenos pases de progresión y el delantero pudo rematar desde una buena posición. Claro está que hay ocasiones donde el equipo rival se equivocó y gracias a esto se logró una buena oportunidad de gol, pero en general es debido a buenas actuaciones de los jugadores del equipo.
En particular, durante este primer capítulo nos enfocaremos en la expectativa de gol neta entre los equipos en un partido, es decir, la diferencia entre la expectativa de gol a favor y en contra. Con esta métrica podemos evaluar qué equipo llegó consistentemente de mejor manera al arco del equipo rival. Si un equipo tuvo un xG neto positivo significa que tuvo mejores oportunidades de gol que su rival. Si el equipo tuvo un xG de 4 y su rival tuvo un xG de 2, teóricamente el equipo debió haber ganado por una diferencia de 2 goles. Como en Futbolytics no sólo nos quedamos con las ideas, quisimos evaluar cómo se comportaba la expectativa de gol neta con los resultados reales del Torneo de Primera División de Chile 2021.
¿Qué es un boxplot?
Primero que todo, es necesario explicar qué es un boxplot y cómo interpretarlo. Es un tipo de gráfico que consta de dos partes: la caja y los bigotes (o la T). La caja inicia en el 25% de los datos, su mitad está en el 50% (mediana) y termina en el 75%. Luego los bigotes (o T) se calculan con una formula que permite establecer la variación “normal”. Todo lo que lo exceda son puntos anomalos o outliers. Estos datos que se escapan de la norma, por ejemplo los 9 goles que marcó Haaland a Honduras en el mundial sub 20 en 2019. Por otro lado, es importante mencionar que la línea que divide la caja es la mediana, la cual divide los datos en el 50% más alto y el 50% más bajo.
Estos gráficos también permiten estimar la varianza de los datos. En palabras simples, si un boxplot es alargado indica que los equipos a lo largo del campeonato no fueron muy consistentes, obteniendo cifras de extremo a extremo, mientras que si el boxplot es más comprimido indica una mayor regularidad, los resultados no variaron tanto partido a partido. A modo de ejemplo, si queremos graficar los goles en 3 partidos de un equipo, si el equipo metió 0, 1 y 2 goles en los partidos, el boxplot será chico en comparación con uno que hubiese metido 0, 0 y 3 goles.
Análisis del xG neto en el Campeonato Chileno 2021
En la siguiente gráfica analizamos la relación entre el xG neto y el resultado de cada partido. La línea horizontal continua representa un xG neto de 0 y las dos líneas segmentadas representan xG neto de 0,5 y -0,5. Cómo la esperanza de gol se calcula por una probabilidad y no representa un gol absoluto, no es directo decir que un xG neto de 0 es igual a empate, debemos entregarle un rango de libertad, que por lo general es de 0,5. Por lo tanto, si la diferencia de expectativa de gol se encuentra entre -0,5 a 0,5 se considera un empate teórico, que es la zona del gráfico que se encuentra entre ambas líneas segmentadas.
Podemos apreciar como el 50% de los equipos que lograron un xG neto mayor que 0,5 en un partido, terminaron ganando y llevándose los 3 puntos, mientras que el 50% de quienes tuvieron un xG neto menor que -0,5 perdieron el partido. Para el caso de los empates, el 50% de los equipos que estuvieron en el rango del empate teórico (entre -0,5 y 0,5), efectivamente empataron el partido. Además, es sabido que en el fútbol la localía pesa y podemos apreciar en el siguiente gráfico, como más del 50% de los equipos que jugaron de local tuvieron xG neto positivo. De los dos gráficos presentados podemos concluir que el xG neto se comporta de forma coherente con los resultados del campeonato y validando que representa una buena medida de cuantificar el rendimiento de los equipos, concondando con la intuición.
Ahora nos gustaría ver cómo se comporta el xG neto con el resultado del torneo nacional 2021. Para esto presentamos un gráfico de el xG neto que obtuvo cada uno de los equipos en el campeonato, ordenados por su posición final en la tabla. Se aprecia como el campeón Universidad Católica y el subcampeón Colo Colo, en general estuvieron mejor que el resto de los equipos del campeonato. Ambos equipos lograron dominar los partidos con un xG neto positivo, es más, Colo Colo en el 75% de los partidos logró mejores oportunidades de gol que el rival, lo cual demuestra que fue merecido por ambos equipos el puesto de campeón y subcampeón del torneo. Al otro extremo se aprecia como Deportes Melipilla y Santiago Wanderers en más de la mitad de los partidos del campeonato tuvieron peores oportunidades de gol que su rival, lo cual fue consistente con los puestos obtenidos.
Es interesante hablar también de equipos como Deportes Antofagasta, que en la mayoría de sus partidos no logró tener mejores llegadas que su rival, pero a pesar de esto quedó 6to en la tabla de posiciones, por sobre Ñublense o Palestino que lograron tener un xG neto positivo en más ocasiones. Huachipato también es un caso donde no ocurrió el supuesto teórico, lograron en más del 50% de los partidos estar por sobre su rival en ocasiones de gol, pero terminaron antepenúltimos en el campeonato y jugaron la promoción. Esto abre un espacio para preguntarnos qué pasó en estos casos, ¿fueron los delanteros que no lograron concretar los goles o los arqueros rivales que tuvieron buenas actuaciones?. Este análisis es el que nos motiva a “encontrar” qué características por posición podrían explicar qué sucedió en la cancha. En este mismo espíritu, con la intención de encontrar estas variables, en el próximo capítulo estudiaremos el rendimiento de los arqueros del Torneo de Primera División de Chile 2021, utilizando una métrica presentada en nuestro post de evaluación del rendimiento de arqueros.
Comparte este blog a todos los futboleros que alguna vez trataron de dárselas de scouts jugando FIFA y recuerda suscribirte para recibir nuestro contenido.
(1) Cuando una empresa emplea un enfoque “ data-driven” (impulsado por datos) significa que toma decisiones estratégicas basadas en análisis de datos e interpretación.