Clasificacion de Jugadores de Futbol Soccer Basada en Sus Habilidades Deportivas - Fisicas y Mentales
Clasificacion de Jugadores de Futbol Soccer Basada en Sus Habilidades Deportivas - Fisicas y Mentales
Clasificacion de Jugadores de Futbol Soccer Basada en Sus Habilidades Deportivas - Fisicas y Mentales
pp. 343–355; rec. 2018-04-20; acc. 2018-05-25 343 Research in Computing Science 147(5), 2018
Enrique Antonio Pedroza Santiago, Maricela Quintana López, Héctor Rafael Orozco Aguirre, et al.
Similarly, it is possible to conclude that there are very well defined skills in some
positions, as in the case of the goalkeeper, while others such as the midfielder are
not at all.
Keywords: Skill, classification, data mining, player, soccer.
1. Introducción
El futbol soccer es un deporte táctico donde participan diversos actores tales como
los jugadores, el director técnico y el árbitro, este último es quien se encarga de dirigir
los encuentros. Las habilidades personales de los jugadores se consideran
fundamentales para un buen rendimiento deportivo y junto con las estrategias del
equipo, influyen o determinan el resultado del encuentro a favor o en contra.
Cuando se realizan entrenamientos a nivel profesional o semiprofesional, los
jugadores no sólo adquieren y desarrollan como factores sus habilidades físicas y
deportivas, sino que también fortalecen sus habilidades mentales, todos estos factores
influyen para lograr un buen desempeño y resultado a favor en un encuentro.
Es necesario encontrar un equilibrio en las habilidades de los jugadores, esto con el
objetivo de tener un mejor rendimiento tanto en el juego como en el aspecto personal.
De acuerdo con Jover [1], cuando un jugador fortalece sus habilidades mentales,
puede mejorar sus capacidades de convivencia, disfruta del deporte que practica y
encuentra un nivel adecuado como deportista.
El futbol es un deporte de conjunto donde cada equipo se conforma de un total de
once jugadores en la cancha, cada jugador tiene una posición y función definida, la cual
le es asignada por el director técnico, dependiendo de las habilidades mostradas como
fortalezas en los entrenamientos. Estas posiciones se dividen principalmente en cuatro:
portero, defensa, medio y delantero, con las cuales se trabajaron; aunque dependiendo
de qué tan alejado este un jugador de la portería o la dirección donde se encuentre
ubicado, estas pueden sub dividirse en otras que no son consideradas en este trabajo.
Cada posición cuenta con un objetivo el cual se describe a continuación:
− Portero: su función es evitar que el equipo contrario anote. Es el único que
puede tomar el balón con las manos. Sólo se permite un portero por equipo.
− Defensa: se encargan de evitar que los jugadores del equipo contrario lleguen
a la portería. Una alineación clásica, incluye 4 defensas, aunque pueden variar
dependiendo de la formación establecida por el director técnico.
− Medio: se encuentran en la mitad de la cancha. Apoyan tanto en la defensa
como en el ataque. Su función principal es el de distribuir los balones.
− Delantero: debido a su posición, son quienes anotan principalmente los goles.
Regularmente, en los entrenamientos a los jugadores se le asignan posiciones a modo
de probar cómo se desenvuelven en cada una de ellas, de manera que aquella donde
cada jugador se sienta más cómodo y dé mejores resultados sea en la que juegue de
forma constante o permanente en los encuentros. Las habilidades de un jugador
determinan la posición en la que obtendrá un mejor desempeño.
Una manera de apoyar en la toma de decisiones respecto a cuál es la posición más
adecuada para un jugador, basada en sus habilidades, es el tener un mecanismo
2. Metodología
Preparación de los datos. Esta fase incluye las etapas de selección, procesamiento y
transformación. Se determina qué datos se necesitan y se selecciona la información que
sea relevante y útil, descartando la mayor cantidad de datos erróneos o que no tengan
una aportación, este proceso es conocido como selección y limpieza. Posteriormente se
Por otro lado, existen un total de 18 equipos en liga mexicana torneo clausura 2018
(ver tabla 2), cada uno tiene de 20 a 40 jugadores registrados ante la Federación
Mexicana de Futbol (FMF) [6], la mayoría de ellos no tienen actividad de forma
profesional ya que están en preparación constante para poder debutar. De aquellos que
tienen actividad se buscaron sus habilidades en la página oficial de la FIFA.
Se trabajó con un total de 513 jugadores de primera división en México. Con estos
datos se formaron dos conjuntos: el de entrenamiento, y el de prueba. Para el primer
conjunto se tomaron los datos de los titulares y suplentes de los equipos del torneo
clausura 2018 con un total de 440 jugadores, teniendo 52 porteros, 101 delanteros, 130
defensas y 157 medios, mientras que para la prueba se tomó una muestra de 73
jugadores que militaban en la liga mexicana en el torneo apertura 2017 con la
restricción de que no se encuentren en los datos del conjunto de entrenamiento. Para
ello se trabajo con 8 porteros, 18 delanteros, 26 defensas y 21 medios; cada uno de ellos
con 34 habilidades, las cuales fueron mencionadas en la tabla 1.
Los algoritmos usados admiten datos tanto numéricos como nominales, por ello se
hicieron dos análisis, uno utilizando datos con escala de 0-100, mientras que en el
segundo se utilizó una escala Likert de 3 rangos: bajo, medio y alto. Esta transformación
de datos se realizó con el objetivo de tener una mejor comprensión de los mismos,
donde es más fácil asimilar que un jugador es bueno por tener habilidades medias o
altas, que en el caso donde se tiene una evaluación numérica.
4. Minería de datos
una mejora del algoritmo ID3, el cual solo admite valores numéricos. C4.5 genera
árboles al encontrar un atributo que tenga la mayor ganancia y es utilizado como nodo
raíz, posteriormente la división de datos se basa en la recursividad de estos. Una de las
características principales de los arboles generados por C4.5 es el radio de ganancia, el
cual considera el número de nodos que tiene el árbol y de esta manera el atributo raíz
puede dividir los demás conjuntos sin importar la información de la clase. Otro de los
aspectos es la poda de árbol que permite que no se expanda cuando los datos se repiten
o no son relevantes.
4.2. PART
Es un algoritmo de clasificación basado en reglas, creado por Witten y Frank en el
año de 1998 [13]. Este algoritmo podría considerarse como una mezcla de árboles de
decisión y reglas de clasificación. PART adopta una estrategia similar a la de J48 al
usar la técnica “divide y vencerás”, con lo cual crea las reglas al tomar las ramas que
tengan una mayor cobertura y elimina aquellas que no cumplan con las condiciones
dadas. Estas se siguen creando de manera recursiva hasta que no queden atributos a
considerar. Una de las ventajas que tiene PART sobre otros algoritmos como PRISM
[14] es que sus reglas son muy cortas y toma sólo los atributos más relevantes.
5. Experimentos y resultados
Tabla 3. Resultados del algoritmo C4.5 con el conjunto de entrenamiento de datos numéricos.
CLASIFICACIÓN DELANTERO PORTERO DEFENSA MEDIO TOTAL ACIERTO % ERROR %
DELANTERO 64 1 13 23 101 63.4 36.6
PORTERO 4 41 4 3 52 79 21
DEFENSA 8 6 92 24 130 70.8 29.2
MEDIO 11 12 16 118 157 75.2 24.8
Matriz de confusión 315 en la diágnonal 440 71.59 28.41
Tabla 4. Resultados del algoritmo C4.5 con el conjunto de prueba con datos numéricos.
CLASIFICACIÓN DELANTERO PORTERO DEFENSA MEDIO TOTAL ACIERTO % ERROR %
DELANTERO 16 0 0 2 18 88.9 11.1
PORTERO 0 8 0 0 8 100 0
DEFENSA 2 0 20 4 26 76.9 23.1
MEDIO 4 1 2 14 21 66.7 33.3
Matriz de confusión 58 en la diágnonal 73 79.45 20.55
ambos algoritmos se puede determinar que coinciden en las características que debe
tener un jugador, teniendo como regla principal la de la colocación, donde el 79% de
estos caen en el apartado portero (ver en tabla 5). Del total de las reglas obtenidas, la
tabla 6 muestra aquellas con una mayor cobertura y precisión.
Para el proceso de prueba se hizo uso de los mismos 73 jugadores que se usaron con
C4.5. Del 100%, el 73.97% de los jugadores tuvieron una clasificación correcta,
mientras que en el 26.03% hubo algún error. Los resultados se muestran en la tabla 7.
En la sección 2, se mencionó que los valores numéricos fueron transformados en
nominales, para ello se encontraron los valores máximos y mínimos por cada habilidad.
Una vez hecho esto, se calcularon los rangos de estos límites.
Posteriormente, se dividió el rango entre 3 valores, y cada resultado recae sobre una
clasificación, los cuales son bajo, medio y alto, esto con la finalidad de agrupar valores
cercanos y conocer que tan bueno es un jugador, diferente a los valores numéricos
donde son específicos para cada uno de estos.
Si colocación > 16 y centros > 10 y regates > 17 y remates <= 13. Entonces = DEFENSA (12.0/4.0)
Si reten del balón <= 16 y visión <= 43 y balance > 43 y regates > 27. Entonces= DEFENSA (46.0/6.0)
Si reten del balón > 16. Entonces= PORTERO (46.0/14.0)
Pos. Ataque > 74 y pase largo <= 66. Entonces: DELANTERO (21.0/3.0)
Si reacciones <= 45 y pase largo <= 52. Entonces= MEDIO (6.0)
Si intercepción > 30 y visión > 65 y reacciones > 69. Entonces= MEDIO (35.0/14.0)
Si intercepción > 30 y barrida > 68 y reflejos <= 14 y pase largo <= 72 y estirada <= 10. Entonces= MEDIO (31.0/14.0)
Si intercepción > 30 y barrida <= 69 y reten > 6 y tiro libre > 59 y retén del balón > 7 y boleas > 45 y visión <= 72. Entonces= MEDIO (27.0/2.0)
Si entrada > 51 y barrida > 69. Entonces= DEFENSA (15.0/2.0)
Si aceleración > 81 y despeje > 10. Entonces= DELANTERO (10.0/1.0)
Si reacciones <= 46 y control > 63. Entonces= PORTERO (3.0/1.0)
Si colocación > 7 y entrada <= 51 y reten > 7 y centros <= 66 y control > 56 y estirada <= 15. Entonces= MEDIO (20.0/7.0)
Si colocación > 6 y retén del balón > 6 y estirada <= 9 y compostura <= 63. Entonces= MEDIO (13.0/2.0)
Si reten del balón > 6 y colocación > 6 y estirada > 9 y entrada > 66 y reflejos <= 13 y Aceleración > 53. Entonces= DELANTERO (14.0/5.0)
Si colocación > 7 y reten del balón > 6 y aceleración <= 75 y visión > 45 y penales <= 64. Entonces= MEDIO (21.0/10.0)
Tabla 7. Resultados del algoritmo PART con el conjunto de prueba de datos numéricos.
Tabla 8. Resultados del algoritmo C4.5 con el conjunto de entrenamiento de datos nominales.
Se creó una base de datos con los valores nominales y se utilizó el algoritmo C4.5,
sobre el conjunto de entrenamiento, dando como resultado un 72.95%. Hay un
porcentaje parecido de instancias clasificadas correctamente que las obtenidas por los
valores numéricos. La matriz de confusión del entrenamiento de datos nominales con
el algoritmo C4.5 se puede observar en la tabla 8.
El árbol cambia un poco con relación al creado con los valores numéricos, es mucho
más amplio y se evalúan diversos atributos para la clasificación. En este caso toma
como nodo raíz la habilidad Estirada.
Al realizar el proceso de prueba con los datos de los jugadores del torneo pasado se
encontraron los siguientes resultados: 50 jugadores que pertenecen al 68.49%, fueron
clasificados de forma correcta, los cuales pueden observarse en la matriz de confusión
en la tabla 9.
En la cual si su valor es bajo se compara los remates, si es medio, compara la colo-
cación, y si esta es alta se determina automáticamente que es un portero.
Tabla 9. Resultados del algoritmo C4.5 con el conjunto de prueba utilizando datos nominales.
CLASIFICACIÓN DELANTERO PORTERO DEFENSA MEDIO TOTAL ACIERTO % ERROR %
DELANTERO 13 0 2 3 18 72.2 27.8
PORTERO 1 6 1 0 8 75 25
DEFENSA 0 5 19 2 26 73.1 26.9
MEDIO 2 1 6 12 21 57.1 42.9
Matriz de confusión 50 en la diágnonal 73 68.49 31.51
Tabla 10. Resultados del algoritmo PART con el conjunto de entrenamiento datos nominales.
CLASIFICACIÓN DELANTERO PORTERO DEFENSA MEDIO TOTAL ACIERTO % ERROR %
DELANTERO 63 1 13 24 101 62.4 37.6
PORTERO 4 41 5 2 52 79 21
DEFENSA 6 6 105 13 130 80.8 19.2
MEDIO 10 11 21 115 157 73.2 26.8
Matriz de confusión 324 en la diágnonal 440 73.64 26.36
Tabla 11. Conjunto de reglas con valores nominales utilizando el algoritmo PART.
Si retén del balón = alto y pase corto = bajo y estirada = alto y fuerza = alto. Entonces= PORTERO (14.0/5.0)
Si colocación = alto y pase corto = bajo y fuerza = medio y salto = medio y reacciones = alto. Entonces= PORTERO (8.0/2.0)
Si regates = medio y entrada = alto y visión = bajo y vel. sprint = medio y agresividad = alto. Entonces= DEFENSA (13.0)
Si barrida = alto y pase corto = medio. Entonces= DEFENSA (27.0/10.0)
Si intercepción = medio y barrida = alto. Entonces= MEDIO (15.0/4.0)
Si control = medio y visión = medio y compostura = medio. Entonces= DELANTERO (22.0/10.0)
Si barrida = alto y pase largo = medio. Entonces= DEFENSA (18.0/6.0)
Si barrida = alto y marcaje = alto y compostura = medio y aceleración = medio. Entonces= MEDIO (5.0)
Si barrida = alto y compostura = alto y barrida = alto y compostura = alto y balance = alto y penales = medio. Entonces= MEDIO (14.0/5.0)
Si barrida = alto y compostura = alto y centros = alto. Entonces= DEFENSA (14.0/5.0)
Si agresividad = medio y barrida = bajo y compostura = alto y marcaje = bajo. Entonces= DELANTERO (12.0/2.0)
Si agresividad = medio y agilidad = alto y barrida = medio. Entonces= MEDIO (21.0/8.0)
Tabla 12. Resultados del algoritmo PART con el conjunto de prueba de datos nominales.
CLASIFICACIÓN DELANTERO PORTERO DEFENSA MEDIO TOTAL ACIERTO % ERROR %
DELANTERO 13 0 2 3 18 72.2 27.8
PORTERO 1 6 0 1 8 75 25
DEFENSA 1 3 21 1 26 80.8 19.2
MEDIO 2 0 7 12 21 57.1 42.9
Matriz de confusión 52 en la diágnonal 73 71.23 28.77
Al realizar la fase de pruebas con los datos de los jugadores del torneo pasado se
obtuvo un 71.23% de instancias clasificadas correctamente. Este resultado junto con la
matriz de confusión pueden observarse en la tabla 12.
Referencias
2. Huang, K., Chang, W.: A neural network method for prediction of 2006 world cup football
game. In: 2010 International Joint Conference on Neural Networks (IJCNN), IEEE World
Congress on Computational Intelligence, 1, pp. 1–8 (2010)
3. WEKA: http://www.cs.waikato.ac.nz/ml/weka/ (2018)
4. Fayyad, U., Piatetsky-Shapiro, G., Smith, P.: From data mining to Knowledge Discovery
and Data Mining. A.I Magazine, 17(1), pp. 37–54 (1996)
5. FIFA: http://es.fifa.com/ (2018)
6. FMF: http://www.femexfut.org.mx (2018)
7. Ruiz, R.: Minería de datos como soporte a la toma de decisiones empresariales en una
arquitectura SOA, Barranquilla. Ed. Coruniamericana, 1(1), pp. 25–34 (2013)
8. Medina, J., Sandi-Pinheiro, M., Andux, C.: Evaluación del rendimiento de los voleibolistas
mediante minería de datos. Revista Ingeniería industrial, CUJAE, 26(2), pp. 47–52 (2005)
9. Sanhueza, R.: Utilización de Naive Bayes para predicción de victorias en jugadores de la
Asociación de Tenistas Profesionales. Memorias de pregrado Ingeniería civil en
computación, Universidad de Talca, Chile (2014)
10. Pérez, F.: Sistema de predicción de apuestas deportivas: una aproximación a la Quiniela.
Tesis de grado, Universidad Carlos III, De Madrid, España (2014)
11. Quinlan, J., Kumar, V., Wu, X.: The Top 10 algorithms in data mining. 14(1), pp. 1–
37 (2008)
12. Berry, M., Gordon, L.: Data mining Techniques. Canada: Wiley Computer
Publishing (2004)
13. Ramos, M.: Estudios en finanzas y contabilidad: España y América Latina. Estado del arte
y las nuevas metodologías aplicadas, 15, pp. 328–351, Madrid, España (2014)
14. Robles, Y., Sotolongo, A.: Integración de los algoritmos de minería de datos 1R, PRISM e
ID3 a PostgreSQL. Journal of Information Systems and Technology Management,
10(1) (2013)