Serie: Detección de estilos de juego de un equipo

Artículo 1: Introducción y análisis exploratorio de los datos

Hola, soy Coni de Futbolytics, y estoy haciendo mi tesis para optar al grado de Magíster en Gestión de Operaciones en la Universidad de Chile. Iré relatando a través de varios artículos el avance de la siguiente investigación, realizada gracias al apoyo del Instituto de Sistemas de Ingeniería Complejos (ISCI) y Futbolytics.

Para mejorar año a año, los clubes de fútbol buscan traer nuevos jugadores que puedan aportar a su juego, pero el añadirlos trae la difícil tarea de integrarlos a la dinámica del equipo y que se adapten al estilo de juego que el entrenador de turno plantea. Actualmente los clubes traen jugadores que fueron exitosos en otros clubes, sin tomar en cuenta necesariamente la diferencia en los estilos de juego.

Es por esto, que el objetivo de esta investigación radica en mejorar la eficiencia de adaptación de un jugador en un club nuevo a través de la detección de estilos de juegos y niveles de similitud que tengan 2 equipos. Todo esto, mediante técnicas estadísticas y datos pero, ¿a partir de qué datos?

El torneo nacional de Chile 2021 fue muy particular, no sólo se jugó en medio de una pandemia mundial, sino que también fue uno de los que tuvo más equipos. Además, contó con icónicos momentos como el tetracampeonato de la Católica o la salvación del descenso de la U. de Chile. Para nosotros que somos locos por los datos, nos dejó información muy interesante. Con 115 variables, para 17 equipos y 32 fechas, totalizando 125.120 datos para trabajar.

Con tal cantidad de datos, es indispensable eliminar la basura o como le decimos en el mundo estadístico: “reducir la dimensionalidad”. Realizar un buen análisis exploratorio de los datos con los que se cuenta es clave, porque nos permite entender de mejor forma cómo están construidas las variables que nos servirán para detectar los estilos de juego. Para empezar, se realiza un tratamiento de los datos, es decir, eliminar las filas con datos faltantes, mal ingresados o erróneos (no podemos tener un jugador que juegue 150 min en un partido por ejemplo). Además, seleccionamos solo las variables que nos servirán a futuro, por ejemplo los penales anotados no nos dirán cuál es el estilo de juego del equipo, ya que nos hablan de la ejecución de un individuo y no del plan de juego colectivo.

Luego, se procede a estudiar los datos existentes, sus promedios y varianzas. Para esto, debido a que varían mucho en rango (por ejemplo: 7.000 seg de posesión del balón en seg vs 2 goles esperados) fue necesario normalizar. El objetivo principal de esta técnica es asociar formas similares a los datos para que sean comparables.

El siguiente paso, es estudiar si algunas variables tienen mucha relación entre ellas, o como se dice en el mundo estadístico, que estén correlacionadas. Esto, con el fin de identificar y eliminar datos relacionados linealmente y que nuestro modelo futuro sea más eficiente.

El resultado es que existen bastantes variables altamente correlacionadas tales como: “Pases” vs “Pase efectivos” en un 98%, “Porcentaje de posesión del balón” vs “Posesión del balón en seg” en un 97%, etc. Lo que nos hace tomar la decisión de elegir qué variables sacamos de la base. La discusión generada a partir de esto fue: ¿qué define realmente el estilo de juego de un equipo? lo que se intenta hacer o lo que efectivamente se logra, por lo que podemos notar en los datos es que no debería haber mucha diferencia (altamente correlacionados), sin embargo, la intuición nos llama a decir que lo que efectivamente se logra definirá cómo juega el equipo.

Vale la pena ver, que dentro de la base se contaban con varias variables ligadas al mismo tema pero miradas desde enfoques distintos, por ejemplo: “disputas defensivas”, “disputas defensivas ganadas” y “porcentaje de disputas defensivas ganadas”. ¿Cómo resolvemos qué variables dejar? Miramos los datos:

Mirando las disputas defensivas vs las disputas defensivas ganadas se ve una relación lineal positiva, lo que indica que se comportan de la misma forma y estarían correlacionadas. A mayor cantidad de disputas defensivas, mayor también fueron las que efectivamente fueron ganadas.

Pero en cambio, la relación entre las disputas defensivas y el porcentaje de disputas defensivas ganadas muestra un bloque sin ninguna forma. Ya mirando datos más duros, se genera una matriz de correlación entre estas tres variables:

Al considerar qué variables se deberían mantener, se concluyó que mantener disputas defensivas y porcentaje de disputas defensivas ganadas, permite eliminar la correlación, además de considerar lo que ya se habló anteriormente, lo que intentó hacer el equipo y lo que efectivamente logró en el campo de juego. Este será el criterio usado para todas las variables en las que ocurría la misma situación.

Para finalizar la exploración de los datos, se realiza una observación un poco más profunda. Y lo más interesante es que desde ya se pueden notar que ciertos equipos son más ofensivos, y otros son más defensivos:

Si analizamos la presión ofensiva de todos los equipos del torneo nacional 2021 en orden de cómo terminaron en la tabla de posiciones final (El campeón a la izquierda y los que descienden a la derecha) podemos notar que, si bien la presión que se intentó, varía mucho según la posición en la que terminaron, la presión ofensiva efectiva sí muestra una tendencia similar a lo que terminó en relación a las posesiones. Equipos como Colo Colo y Unión Española muestran alta presión ofensiva pero además, alta precisión en esta.

En cambio, si miramos la presión defensiva de todos los equipos del torneo nacional 2021, notamos que equipos como O’Higgins, La Serena y Huachipato muestran una alta presión defensiva y alta precisión en esta.

Ya que se está estudiando “estilos de juego” este entendimiento es muy importante al momento de definir qué estilos de juego se considerarán y qué características tiene cada uno.

Para concluir, se logra un buen entendimiento de los datos con los que se trabajará próximamente y disminuimos significativamente la dimensionalidad. A partir de los criterios usados anteriormente la base disminuye de 115 variables a un total de 86. Un buen inicio y clave para el siguiente paso: identificar clusters.

En el siguiente artículo abordaremos “clusters”, o en palabras simples, agrupaciones de distintos equipos según características del desempeño en el campo de juego. De esta forma, acercarnos a definir potenciales estilos de juego y definir grados de similitud entre 2 equipos.

Recuerda suscribirte para seguir el avance y nuevos contenidos.

--

--

La plataforma de análisis de jugadores que tu club necesita!

Get the Medium app

A button that says 'Download on the App Store', and if clicked it will lead you to the iOS App store
A button that says 'Get it on, Google Play', and if clicked it will lead you to the Google Play store