Master Theses

Below is a list of Master theses on sports completed in our group.

Filter by publication year:
2014 (10)2015 (9)2016 (7)2017 (4)2018 (2)2019 (6)2020 (8)2021 (7)2022 (7)2023 (8)

Filter by keyword:
soccer (44)health (3)e-sports (3)basketball (4) (2)running (8)field hockey (1)swimming (1)volleyball (1)socccer (1)

Showing 68 / 68 publications.

2023

Penalty Kick Analysis: Visual Recognition, Pose Estimation, and LSTM
By Gabby Vinco
The penalty kick is one of the most dramatic events that can occur in a soccer game. It can be the source of heartbreak or the source of glory for millions of fans. With an event that can be game defining, only around 17.5% of penalties are saved. Coaches have long made the hypothesis that the direction the kicker will shoot the penalty kick can be predicted based on their body movements prior to the shot. Here we test this hypothesis. Are we able to determine the direction of a penalty shot based on the kicker’s body movements before they make contact with the ball? This question is examined using three main concepts 1) object detection by means of YOLO v7, 2) pose estimation by means of YOLO Pose, and 3) categorical prediction through LSTM. By implementing this process on video data gathered from YouTube, we can extract pose data and track the kicker’s movements over a sequence of frames. This sequence of skeletal keypoint coordinates can then be input in the LSTM to train a model that predicts the final direction of the kick whether it is “Center”, “Left”, or “Right”. The predictions made by the model were then compared with a random generator intended to act as a goalkeeper randomly choosing a direction to dive. On average the random choosing goalkeeper had a predictive accuracy of 33.8% whereas the trained model had a predictive accuracy of 41.6%, displaying a 7.8% improvement in predictive accuracy.
articleFull text
Augmentation and Prediction of Human Movement Data
By Hasbi Dülger
The analysis of human movement data, characterized by its time series nature, is of great importance in domains like biomechanics, sports science, and rehabilitation. However, the scarcity of diverse data presents challenges for comprehensive analysis and robust model development. To counter this, synthetic data generation through augmentation techniques emerges as a promising solution. This thesis aims to overcome data scarcity by exploring established time series augmentation methods, introducing two paradigms: Slight Augmentations, focusing on subtle variations, and Synthetic Time Series Generation, utilizing machine-learning for entirely new sequences. Evaluating peak vertical ground reaction force (vGRF) prediction demonstrates the effectiveness of augmentation. Promising results are observed for both paradigms. NotIE17915783ably, several augmentation techniques in the Slight Augmentations paradigm enhance peak vGRF prediction, while Synthetic Time Series Generation techniques like TimeGAN and ADASYN also show improved performance. These outcomes support the hypothesis that synthetic data integration enhances biomechanical analysis. Caution is advised when selecting augmentation techniques, as diverse and realistic datasets play a crucial role in addressing data scarcity and advancing human movement analysis research.
articleFull text
Een uitbreiding op het Expected Possession Value raamwerk door middel van alternatieve beloningsmethoden
By Jonas Vanvinckenroye
Deze masterproef richt zich op het ontwikkelen en uitbreiden van modellen voor het inschatten van de Expected Possession Value (EPV) van een balbezit in voetbalwed- strijden. Verschillende modellen zullen worden ontwikkeld en geëvalueerd, waarbij de focus ligt op het vinden van een model dat beide in defensieve en offensieve spelsituaties een nauwkeurige schatting van de EPV-waarde kan geven. Zo worden er drie EPV-modellen gecreëerd met elk een verschillende beloningsmethode, namelijk het oorspronkelijke EPV-model van [Fernández et al., 2021], een EPV-model waar de verwachte waarde gebaseerd is op het bereiken van het laatste derde van het voet- balveld, en een EPV-model dat het oorspronkelijke EPV-model combineert met het EPV-model dat het bereiken van het laatste derde van het voetbalveld als beloning heeft. Een vergelijkende studie wordt uitgevoerd tussen de verschillende modellen met als doel de voor- en nadelen van elke beloningsmethode te onderzoeken. Deze verge- lijkende studie brengt verschillende bevindingen aan het licht. Het oorspronkelijke EPV-model presteert ondermaats in defensieve spelsituaties en slaagt er niet in de optimale aanspeelpunten aan te duiden. Dit is waar het EPV-model met het bereiken van het laatste derde als beloning veel beter presteert. In offensieve spelsituaties is het echter omgekeerd. Daar blijkt het oorspronkelijke EPV-model dan weer nauw- keurigere resultaten te leveren. Een combinatie van beide beloningsmethoden lijkt dus een goed idee. Het EPV-model met de combinatie van beide beloningsmethoden blijkt zeer goed te presteren in beide defensieve en offensieve spelsituaties. Dit laatste model wordt nog verder geoptimaliseerd, door verschillende model- len te creëren die elk dezelfde beloningsmethode hebben, maar elk verschillende beloningswaarden hebben. Hierdoor is het gelukt om dit laatste model nog ver- der te verbeteren. Dit model maakt in beide defensieve en offensieve spelsituaties nauwkeurigere schattingen dan het oorspronkelijk EPV-model. Ten slotte worden een aantal spelers beoordeeld door middel van het oorspronke- lijke EPV-model en het model dat de twee beloningsmethoden combineert.
articleFull text
Long-term counter-factual predictions of a team/player’s performance in soccer
By Raf Hermans
Assessing the impact of soccer players on team performance is a topic that is of vital importance for managers. Missing a player due to injury, suspension or due to them being sold, can be detrimental to the goals of the team. This thesis uses event data, provided by Stats Perform, to predict the impact of a player's absence on a team's performance. In order to assess player performance, three player ratings are designed in this thesis. Two of the ratings are offensive player ratings. They capture a player's propensity to score goals and their ability to create goal scoring chances. These ratings are based on the expected goals and expected threat metrics. The third rating is a defensive player rating. It captures a player's ability to prevent the opponent from scoring goals. It is based on the valuing actions by estimating probabilities metric. The appropriateness of the ratings is shown by means of their correlation with match outcomes. The defensive ratings are found to not be very informative. This is explained by the fact that the ratings are based only on on-the-ball actions, which are not very relevant with regards to defensive performance. The reason for this is that defensive performance depends mostly on positioning, thus requiring different data. Four bottom-up models are implemented. They all work in a similar fashion, namely by first combining the player ratings into offensive and defensive team ratings in a specific way, and then predicting the likelihood of each possible match outcome based on those team ratings. Their performance is assessed by means of accuracy and ranked probability score and it is compared to the performance of some baseline models. The bottom-up models generally perform worse than the baseline models. They are however able to capture the impact a player's absence may have on the team's performance. This is illustrated by means of a use case, namely the performance of KRC Genk in the Belgian Jupiler Pro League after selling their striker Paul Onuachu at the end of January 2023.
articleFull text
Acquiring attacking player proficiency by identifying missed attacking runs in soccer
By Stijn Uytterhoeven
Existing methods for evaluating the attacking proficiency of soccer players do not provide a complete assessment of their capabilities. Current methods predominantly focus on a player's on-ball actions, and neglecting their off-ball movements which are instrumental in gaining an advantage for their team. Evaluating a soccer player should incorporate their ability to recognize and execute attacking runs, as this is a crucial part of their performance. This research will focus on evaluating players on their ability to identify potential attacking runs and execute them. The proposed method involves analyzing matches and searching for possible missed attacking runs. By quantifying the impact of these missed runs on the positioning of the player, we can determine a regret value associated with each missed opportunity. The main goal of the system would then be to apply statistical analysis on the missed attacking runs and their regret values of different players to evaluate them. To implement this research three key components were developed. Firstly, an evaluation framework that uses contextual factors to asses a soccer position. Secondly, identification and simulation of attacking runs are carried out by first identifying potentially strategic ending positions for such runs. These positions ideally include open spaces, previously uncontrolled areas and positions that are dangerous for the opposing team. Lastly, to complement the simulated missed attacking runs, defenders' responses were taken into account. Through a multi-agent imitation learning technique called ghosting, agents are trained to act like defenders in a soccer game and can respond to artificially generated scenarios. By combining these three components the full framework can identify, simulate and evaluate potentially missed attacking runs of players during a game. Through statistical analysis on the regret values of players' missed attacking runs, they can be evaluated on their ability to identify and execute attacking runs.
articleFull text
Datagedreven Formatiedetectie in Voetbal met de Static Qualitative Trajectory Calculus en Hiërarchisch Clusteren
By Jérôme D'hulst
Een groot onderdeel van voetbalanalyse is formatiedetectie. De formatie van een team bepaalt namelijk de speelstijl van dat team en bijgevolg onthult het detecteren van de verschillende gespeelde formaties van een team, de tactiek van dat team wat voor tegenstanders een groot voordeel kan opleveren. Voor analisten is dit echter een tijdrovend en moeizaam proces maar met behulp van AI en data-analyse kan dit proces geautomatiseerd worden zodat meer data geanaliseerd kan worden. Dit leidt tot betere resultaten die sneller verkregen worden. Er bestaan reeds verschillende formatiedetectie methodes maar ondanks hun sterke kenmerken hebben ze elk verschillende gebreken. Er zijn bijvoorbeeld methodes die formaties detecteren aan de hand van op voorhand bepaalde referentieformaties. Hierdoor kunnen niet alle mogelijke vormen en variaties van formaties gedetecteerd worden. Andere methodes veronderstellen dat een ploeg maar volgens één formatie speelt gedurende een wedstrijd, wat niet realistisch is. Deze thesis introduceert een formatiedetectie methode die alle sterke kenmerken van de reeds bestaande methodes bevat zonder de gebreken over te nemen. Deze methode detecteert automatisch alle gespeelde formaties van een team in een wedstrijd zonder dat deze formaties afhankelijk zijn van op voorhand gedefiniëerde referentieformaties. Deze methode gebruikt hiervoor een uitbreiding van de static qualitative trajectory calculus van Beernaerts et al. [9], om de verschillende formaties voor te stellen, in combinatie met hiërarchisch clusteren. Per gedetecteerde cluster wordt een formatie gedetecteerd. Hierdoor kan aan de hand van deze methode, door de keuze van het aantal gedetecteerde clusters, bepaald worden hoeveel variatie gedetecteerd wordt in de verschillende formaties. Daarnaast introduceert deze thesis een algoritme dat een analyse opstelt die be- schrijft hoe de gespeelde formatie van een team evolueert gedurende een wedstrijd aan de hand van de resultaten van deze formatiedetectie methode. De gedetecteerde formatietransities kunnen ook gelinkt worden aan event data. Zo kan bepaald wor- den welke situatie of gebeurtenis een mogelijke oorzaak is van de transitie. Door gebruik te maken van dit algoritme kan kennis verworven worden over het gedrag van teams bij het voorkomen van bepaalde gebeurtenissen in de wedstrijd. Door in te spelen op deze kennis, kunnen teams een groot voordeel verkrijgen in de toekomstige wedstrijden.
articleFull text
Data-driven identification of optimal substitutions in soccer
By Joan Hernanz i Ibanez
Data-driven football analytics is a rising field, and clubs are spending more and more resources in gaining a competitive edge through data-driven techniques. Substitutions are the main tool a coach has to intervene in the course of the game, and their limitation and relevance have attracted an interest to their study. In this thesis we seek for a data-informed approach to the identification and prediction of optimal substitutions. With the recent change in football legislation, now each team is permitted up to five substitutions per match. We compare the new paradigm with the prior one, and look for optimal substitutions with the use of data-based models. With machine learning classifiers and a substitution sensible in-game win probability model, player changes have been assessed. The same models have been used for simulating alternative type of substitution and timing, in order to make data-driven approaches that increase the chances of success. The addition of extra substitutions has resulted in an increase of tactical interventions by coaches, but the match dynamics have remained the same. Machine learning models obtain good results in the prediction of substitutions assessment. The win probability model is sensible to substitutions, which have generally a better effect for the substituting team. Offensive substitutions generally increase the winning probabilities, especially for losing teams. No timing is observed to be significantly better for doing substitutions, but in particular cases can be very relevant.
No text available
Data-driven optimisation of substitutions in football
By Steven Bucaille
Data is increasingly being used to inform strategic decisions in sports, particularly in football. This thesis focuses on using on-the-ball action data to predict the time and type of substitutions made during a match, as well as the outcome of these substitutions. To motivate our minute-by-minute approach, we provide a correlative study demonstrating the relationship between player performance and substitution probability. Our models, which utilize neural networks to analyze minute-by-minute player performance and compare it to typical performance, are highly effective and outperform previous work in the field.
articleFull text

2022

Het beoordelen van verdedigende prestaties en het meten van verdedigende chemie in voetbal met behulp van positionele data
By Vince Colpaert
De bestaande technieken binnen voetbalanalyse zijn niet geschikt om een complete analyse van het verdedigende gedeelte van voetbal uit te voeren. Bovendien zijn de technieken die interacties tussen spelers in kaart brengen beperkt. Daarom ontwerpt deze masterproef een metriek die de verschillende aspecten van een verdedigende prestatie beoordeelt. Verder wordt er een methode opgesteld waarmee de verdedigende chemie tussen spelers gemeten kan worden. Om de verdedigende prestatie van een speler te kunnen evalueren, moet er een waarde toegewezen worden aan individuele acties. Hiervoor wordt er met behulp van Graph Neural Networks een EPV-model opgesteld dat de verwachte uitkomst van iedere spelsituatie voorspelt. Dit EPV-model bestaat uit twee afzonderlijke modellen die de kans op een doelpunt voor de thuis- en uitploeg voorspellen. De verdedigende prestaties van een speler worden vervolgens beoordeeld met een metriek die opgebouwd is uit drie componenten: balveroveringen, druk op balbezitter en verdedigend positiespel. Elk van deze componenten dekt een aspect van het verdedigen in voetbal. Door met drie componenten te werken is de totale score voor de verdedigende metriek makkelijker te interpreteren en kan er een genuanceerd beeld gegeven worden van de verdedigende prestatie van een speler. De verdedigende chemie van een groep spelers wordt bepaald door hun prestaties wanneer ze samenspelen te vergelijken met hun gemiddelde prestaties. Met behulp van Graph Neural Networks wordt er een model opgesteld dat de verdedigende chemie voorspelt tussen spelers die nog maar zelden of nooit samengespeeld hebben. Dit model slaagt erin om beter te presteren bij het voorspellen van de gezamenlijke verdedigende prestatie van een paar van spelers dan een model dat geen rekening houdt met chemie.
articleFull text
AutoSD: Een autoencoder-gebaseerde detectie van gelijkaardige matchsituaties
By Jef Geluykens
Ondanks de snel toenemende populariteit van data-analyse in voetbal blijven videobeelden de belangrijkste tool om tactische analyses uit te voeren. Het zoeken naar relevante matchsituaties in de videobeelden van een tegenstander is een tijdrovend proces. De Koninklijke Belgische Voetbalbond is op zoek naar een intelligente dataoplossing die dit proces deels kan automatiseren. Daarom introduceert deze thesis AutoSD: een autoencoder-gebaseerde tool voor de detectie van gelijkaardige matchsituaties in voetbal. De tool maakt het analisten mogelijk om de spelsituaties uit het verleden terug te vinden die gelijkaardig zijn aan een voor hen interessante situatie. Dit zou hen normaal uren aan zoekwerk in videobeelden kosten. AutoSD combineert twee principes: dimensionaliteitsreductie en nearest neighbor search. De dimensionaliteitsreductie gebeurt aan de hand van een convolutionele autoencoder (AE) die een complexe voetbalsituatie omzet naar een compacte vectorrepresentatie. De input bestaat uit positionele data van de spelers. Voor de output werd geëxperimenteerd met een reeks variaties op pitch control oppervlakken. Deze oppervlakken zijn een visuele representatie van de posities, beweging en ruimtes tussen spelers zodat de encoding domeinspecifieke informatie bevat. Nearest neighbor search aan de hand van twee gedefinieerde afstanden geeft de meest gelijkaardige wedstrijdsituaties terug op basis van een query frame of segment. De eerste afstand is de euclidische afstand tussen frames. De tweede afstand is de Dynamic Time Warping (DTW) afstand tussen sequenties van opeenvolgende frames (segmenten). Kwalitatieve experimenten tonen aan dat AutoSD in staat is om gelijkaardige relevante situaties aan te reiken uit historische data. Dit bevestigt dat de gedefinieerde afstanden dicht aanleunen bij de interpretatie van een analist. Kwantitatieve experimenten valideren dit op artificieel gegenereerde gelijkaardige samples en op specifieke situaties die op basis van event data geselecteerd kunnen worden. Het gekozen model sorteert in minder dan 7 seconden 180 000 segmenten van 3 seconden. 84 procent van de gezochte situaties uit event data bevindt zich in het meest gelijkaardige percentiel. Sequentiële query’s doen het significant beter dan frame per frame query’s. AutoSD onderscheidt zich van de oplossingen uit de literatuur door de optie te voorzien om query’s te doen segmenten van willekeurige duur en voor een willekeurig aantal spelers. Daarnaast gebruikt het een model met diepere voetbalinzichten, met meer granulaire inputdata
articleFull text
Using a wearable accelerometer for load registration during running
By Tom Pelsmaekers
If the past years have taught us anything, it would be that health topics are one of the most popular and at the same time often controversial ones. That is perfectly understandable, since we all have a personal interest in the state of our own health. The latest numbers of the World Health Organization (WHO) indicate however that, even though THE pandemic seems to have passed, we are presently living in another pandemic: the obesity pandemic. 60 % of adults and almost 1 in 3 children in Europe are too heavy. There are however solutions for this: we could eat healthier food and increase our physical activity. One of the most easily accessible sports to enroll in is running. This also shows in research: for youth, adults and even for elderly it is ranked in the top 6 of most popular sports in Flanders. However, running has a high rate of injuries. Most of them are overload injuries. Due to the repetitive and impactful nature of the movement, it is hard for novice and experienced runners to not trespass the cumulative load capacity of their body. Therefore it is important to be able to quantify the load experienced during a run. Running speed and duration have proven to be insufficient. Ground Reaction Force (GRF) measurements are more relevant, but are mostly limited to very specific movements in expensive laboratories. The use of Inertial Measurement Units (IMUs) or accelerometers allows in field observations of the accelerations experienced by different parts of the runners’ body. This master’s thesis tried to investigate which GRF running parameters could be accurately estimated using a lower back mounted IMU. For some parameters, such as the Vertical Average Loading Rate, significant correlation was found. For other parameters such as the Peak Acceleration and Gait Cycle Time, limited correlation was found. Parameters such as Impulse, Time to Vertical Peak, Stance Time and Duty Factor no correlation was found. Including subject and/or speed specific models didn’t increase the accuracy of the vACC measurements. The biggest weakness of IMUs are that the step detection is less accurate than for a GRF measurement, and that the signal experiences more noise. Improving hardware and software, including using machine learning to train models, could result in higher quality data and more in-field applications. That way, it could maybe be possible in the future for trainers or athletes themselves to construct subject specific training plans that are intensive enough to have a high training effect but where the load capacity is not trespassed. That way injuries could be reduced and one could optimally profit from the health benefits of participating in sports.
articleFull text
CounterRisk: Predicting counter-attacks, even if they don’t occur
By Louis Stalpaert
The CounterRisk (CR) represents the likelihood for an attacking team to concede a dangerous counter-attack at any time instance. We present a comprehensive analysis framework which provides a tool to evaluate the CounterRisk during the game in a decomposed way. This fine-grained framework consists of a series of subcomponents that are modelled separately. We show we can obtain accurate predictors for these subcomponents, making use of calibrated gradient boosting models that learn from spatiotemporal football data. Furthermore, this decomposed approach allows for greater interpretation insight into the produced CounterRisk values for the end user. Lastly, we present a series of practical applications based on CounterRisk to support football players and staff in their tactical decision-making.
articleFull text
Prediction in volleyball by Markov models
By Emma van Doren
The first three contacts played after the serve are a prominent part of the rally. This concerns over 60% of the points, which thus already end after the first attack. The analysis of the receiving and blocking strategy of volleyball teams is often based only on historical raw data, but does not go beyond descriptive analysis. This thesis presents the use of Markov models as basis for the receiving and blocking analysis in volleyball. The model uses the historical data to generalize a team’s behavior as a Markov process. This means that based on what a team has done in the past, the model can predict what will happen in the near future and how to prevent or use this to their advantage by serving to a different target, changing the reception line or knowing in advance where to block. So the model verifies which different actions will give an advantage and then provides actionable tactical insights. Teams are compared to each other based on these properties and team-specific insights and strategies are made to gain a tactical advantage over the rivalling team. This system can be a stepping stone to expanding the currently used software to a predictive application with not only descriptive analysis. It would take volleyball and its tactics to a higher level.
articleFull text
Supporting Transfer and Wage Decisions in Football Using a Player’s Expected On Field Value and Future Transfer Fee
By Wout Pauwels
Transfer and wage decisions in football are extremely crucial: they significantly influence the sportive and financial performance of a club. However, evidence suggests that clubs spend their budget sub-optimally. Even though a wide variety of research has tried to help in these decisions by rating players or identifying interesting transfer targets, no paper predicts the influence on the end goal of a club or is able to capture the value/cost trade-off. This paper proposes two new player metrics to resolve these issues: On Field Value and Future Transfer Fee. A system is designed that predicts both metrics. On Field Value is the increase in expected revenue coming from better sportive performance of the team thanks to the player. This revenue comes from merit payments, tickets to European competitions or by avoiding relegation. The designed system predicts the percentage of games each player will start and the probabilities of winning, losing or drawing each game, converts this into probabilities of ending at each ranking and expresses this in the expected revenue from on field performance. The system predicts the outcome of competition 4% better in terms of predicted revenue than keeping the outcome of last year, which performs 7% better than a betting company in 2014/2015 and 9% better than the BBC in 2015/2016 on the England Premier League. Future Transfer Fee predicts the transfer fee for which the club can sell the player in a few years. More concretely, this is done by finding players with a similar position in a similar competition at the same age and applying k-Nearest Neighbours on FIFA features to find the k most similar players. The average factor with which their transfer values changed in the studied time is then applied to the current transfer value of the player. This system is outperformed by both regular k-Nearest Neighbour regression and keeping the value constant on a three year period on Mean Absolute Percentage Error. This is largely explained by the rather unexpected decrease in transfer values as removing this effect immediately makes it the best model. The On Field Value and Future Transfer Fee are applied for the identification of interesting transfer targets, the comparison of different transfer options, determining the transfer fee and wages to be paid for a player and how long the proposed contract should be. Building on the original metrics, the Relative On Field Value is defined and the Return On Investment is translated to a football context.
articleFull text
Learning Contextualized Soccer Player Representations using Variational Autoencoders
By Maxel Withofs
In the field of soccer analytics, representing the playing style of players is one of the main tasks. This can be done using player representations, which are fixed-size vectors that aim to describe a player’s behavior. With these player representations, one could do things like comparing players (e.g. to find similar players for scouting purposes) or monitoring a player’s development, by studying the player’s representation over time. Various action-based approaches exist that learn these representations, but they do not explicitly take into account the situations (or match contexts) in which the players perform those actions. In this thesis, player representations are obtained that depend on the match context using different variations of Variationa Autoencoders (VAEs) that are trained on event stream data of real-life soccer games. Three models are constructed, where each model builds on the previous one and addresses some of its problems. The final model is called the Variational Recurrent Ladder Agent Encoder (VaRLAE), which uses Recurrent Neural Networks (RNNs) to make use of the play history that is present in the data and a hierarchy of latent variables to embed the player information in. The models are tested and evaluated by using the player representations that they learn in a series of tasks. These tasks include identifying players from anonymized data, where the VaRLAE model performs better than previous approaches, and finding similar players, in which similarities between players are captured to some extent. The representations also prove useful in the VAEP framework for valuing actions and rating players, where the performance on some important metrics like the Brier score is improved when they are used as extra features during training. Although the representations could be improved in terms of interpretability, they have the potential to be successfully incorporated in other soccer analytics tasks.
articleFull text

2021

A Dynamic Model for the Planning for Scouting of Football Players
By Emile Valcke
These days, money cannot be ignored in the world of football. The football clubs can be considered as large businesses that need to perform and obtain good results in order to stay financially independent. The key factor in having these good results is by creating a team with talented players. These players come and go during time. Recruiting new promising players for the team is a very important aspect. This role is given to the scouts, who will assess the quality of potential new players by watching them perform in real games. A critical thinker may wonder whether scouting is still needed to be done physically. More and more new techniques and studies for soccer analytics are developed in order to assess the quality of players purely based on data and video footage. However, these techniques are focused on players on the ball or players who are visible during broadcasting. Off-screen positioning and actions of players that are not on the ball may be left out. It could also be that a scout is interested in the warm-ups before the games or has to scout in countries with less accommodation to broadcast games. Hence, there is still need for a scout to physically travel to games and appraise the qualities of players in person. The scout process happens in two steps. First, a football team identifies potential players that may be interesting to scout. Then, the scouts go watching these players perform in games and judge whether they would be a good addition to the team. This thesis focuses on the planning and scheduling of the scouting trip. Players can be spread over countries with different game schedules or overlapping games. Scouts can also change their priorities over time due to unexpected events or impulsive actions. This makes the problem very dynamic. In order to efficiently plan out this scouting trip, scheduling techniques can be used to meet the personalized conditions and requirements of scouts for their scout trip.
articleFull text
Een karakterisatie van de speelstijl van voetbalteams op basis van topic modeling
By Daan Wildiers
Deze thesis loopt in samenwerking met de Koninklijke Belgische Voetbalbond (KBVB). Om de prestaties van hun nationale teams te verbeteren, doet men tegenwoordig beroep op uitgebreide data-analyse. Het begrijpen van de speelstijl van (potentiële) tegenstanders is daarin een belangrijke component. Ook bij het zoeken van tegenstanders voor oefenmatchen is het bijzonder nuttig om teams met een bepaalde speelstijl makkelijk te kunnen identificeren. Het doel van deze masterproef is om op automatische wijze een begrijpbare representatie van de speelstijl van een team af te leiden uit ball event data. Met deze representatie moet het mogelijk zijn om de speelstijlen van teams onderling te vergelijken. De twee voornaamste problemen in voorgaand werk zijn enerzijds de begrijpbaarheid van de representatie en anderzijds het behandelen van de locatie- en tijdscomponent van fases in een wedstrijd. Er wordt in deze masterproef daarom gefocust op deze problemen en meer specifiek wordt de locatie- en tijdscomponent op een data-driven manier behandeld. Verder bouwend op recent werk wordt er een begrijpbare representatie bekomen aan de hand van het Topic Modeling algoritme Latent Dirichlet Allocation (LDA). Analoog aan het identificeren van onderwerpen in documenten, worden er typische spelpatronen gezocht waarmee de speelstijl van een team kan beschreven worden. Dit model wordt getraind aan de hand van beschrijvingen van wedstrijden. De keuze van de kenmerken (d.i. features) waarmee een wedstrijd beschreven kan worden, bepaalt in grote mate welke typische spelpatronen ermee geïdentificeerd kunnen worden. Informatie zoals de interacties tussen spelers en de locaties van deze interacties worden daarom gecodeerd in de features. De event data wordt opgesplitst in bewegingskettingen waaruit op een data-driven manier een aantal vertegenwoordigers worden gekozen waarmee de andere bewegingskettingen kunnen vergeleken worden. Samen met de bewegingspatronen in de final third en een lange ballen statistiek, zijn dit de features waarmee een wedstrijd beschreven wordt. Hiermee worden typische spelpatronen geïdentificeerd waarmee een vector kan worden opgesteld die inzicht geeft in de speelstijl van een team. Een aantal use cases en andere evaluatie tools tonen aan dat de vectoren makkelijk te begrijpen zijn en inzichten geven die overeen komen met waarnemingen van sportjournalisten. Met de vectoren is het mogelijk om teams met een gelijkaardige speelstijl te identificeren. De vectoren zijn ideaal om snel een beeld te geven van de speelstijl van een team. Voor een diepere analyse kan er ingezoomd worden om het voorkomen van een feature in een bepaald typisch spelpatroon te analyseren.
articleFull text
Uitbreiding van het Expected Threat model: Een Markov model van voetbal
By Maarten Sijmkens
De steeds grotere beschikbaarheid aan data in sport en in het bijzonder voetbal heeft gezorgd voor een opkomst aan nieuwe technieken om analyses te maken. Het Expected Threat model werd in 2019 geïntroduceerd door K. Singh. Het modelleert een voetbalwedstrijd als een Markov Decision Process. Deze methode kan acties zoals passes, crosses en dribbles een waardering geven op basis van hoeveel ze de kans op een goal veranderen. Op die manier kunnen verschillende acties en spelers vergeleken worden met elkaar. Het doel van deze thesis is om enkele uitbreidingen op het Expected Threat model te maken. Ten eerste wordt onderzocht welke effecten de indeling van het veld in cellen heeft op het model. Daarnaast voegt de thesis naast de positie, drie nieuwe parameters toe aan het model. Het tijdstip van een actie, de score bij de actie en contextinformatie over de druk die de tegenstander uitoefent. Verder bekijkt de thesis ook naar een methode om de waardering te veranderen op basis van winkansen in plaats van goalkansen. Tot slot vergelijkt de thesis al deze uitbreidingen en tracht hieruit inzichten te verwerven.
articleFull text
Analysis of the Attacking Playing Style of Football Teams based on a Markov Model of Ball Possession Sequences
By Jeroen Clijmans
The analysis of the attacking playing style of football teams is often carried out based directly on raw match data. However, a prominent obstacle is the low-scoring nature of football. Scoring is the most important aspect of football, but a player’s and team’s skill is not always reflected in the scoreline. This thesis presents the use of an intermediate Markov model as the basis of playing style analysis. The model is constructed using raw data and is able to generalize over a team’s historical behaviour. Based on what a team has done in the past, the model can derive new possible ways how a team can arrive to a shot, score a goal or move the ball to a particular location. The influence of the rarity of shots and goals is decreased by doing so. The analysis of the attacking playing style using this model is demonstrated by quantifying different properties of interest. These include the passing behaviour during goal kicks and short free kicks, the use of long balls, an analysis of the most likely action subsequences, the usage of each zone of the field, the danger created when using a particular zone, the speed of buildup and the ability to create shooting opportunities. Teams are then compared to each other based on these properties.
articleFull text
Berekening van ogenblikkelijke zwemslagfrequentie op basis van IMU-data
By Tobi Stadler
Deze thesis is gericht op het berekenen van de zwemslagfrequentie op basis van de data opgemeten met een IMU, meer bepaald de “Swimtraxx One” sensor ontwikkeld door het Leuvense bedrijf Swimtraxx. Dit systeem bevat naast de IMU, met accelerometer en gyroscoop, een microcontroller waarop alle parameters die de zwemprestatie kwantificeren in real-time worden berekend. De meeste bestaande methodes in de literatuur zijn niet geschikt om de ogenblikkelijke slagfrequentie foutloos en in real-time te bepalen. Dit werk heeft een methode ontwikkeld op basis van pitch detection om deze frequentie rechtstreeks uit de IMU-data te bepalen met hoge nauwkeurigheid. Pitch detection is een methode uit het domein van audioverwerking om de pitch (toonhoogte) van een signaal te berekenen. Deze techniek wordt hier toegepast op accelerometer- en gyroscoopdata waarbij de pitch wordt gelijkgesteld aan de zwemslagfrequentie, en behaalt betere resultaten dan de “state-of-the-art”. Bovendien bestaan er verschillende efficiënte algoritmen voor pitch detection waardoor de methode geschikt is voor het gebruik op de microcontroller van de Swimtraxx One.
articleFull text
Het meten van de effectiviteit van pressing in voetbal
By Simon Merckx
Een belangrijk onderdeel van de verdedigende strategie van elk modern voetbalteam is druk zetten (pressing). Een effectieve manier van druk zetten wordt gezien als een belangrijke factor in het succes van topclubs. Meer inzicht in pressing is daarom interessant voor zowel clubs, fans als media. Er is echter nog niet veel (publiek) werk beschikbaar rond de datagebaseerde analyse van pressing. De grootste oorzaak hiervan is de beperkte beschikbaarheid van voldoende gedetailleerde data. In deze thesis was er toegang tot tracking data, die de posities van alle spelers en de bal gedurende de volledige match bevat. Deze vorm van data maakt het mogelijk om de volledige context rond een pressingsituatie in rekening te nemen. Het doel van deze thesis is om op een geautomatiseerde manier de pressingstrategie van voetbalteams te analyseren. Dit doel wordt in twee deeltaken opgesplitst. De eerste taak bestaat eruit automatisch pressing te detecteren uit de data. De tweede taak omvat het ontwikkelen van een nieuw model dat in staat is de effectiviteit van pressing te kwantificeren. Op basis van recent werk rond de controle van teams over de verschillende zones van het speelveld en het meten van de intensiteit van de druk op de bal wordt een set van regels opgesteld. Deze regels worden gebruikt om de datapunten waarin het verdedigende team druk zet te selecteren en gebaseerd hierop de pressingsituaties van beide teams op te stellen. Het automatisch detecteren van pressingsituaties bespaart club analisten veel tijd, en kan bovendien aangewend worden om snel pressinggerelateerde statistieken en metrieken te berekenen. Om de effectiviteit van pressing te kwantificeren wordt een bestaand evaluatiekader, dat pressing beoordeelde als een afweging tussen risico en beloning, verfijnd en uitgebreid. Aan de hand van tracking data is het mogelijk om expliciet rekening te houden met de mogelijke passes van een speler onder druk. Resultaten tonen dat deze nieuwe metriek een positieve correlatie heeft met bestaande karakteristieken van 'effectief' druk zetten. De metriek kan gebruikt worden om individuele pressingsituaties te analyseren, maar ook om meer geaggregeerde statistieken over langere periodes te berekenen. Dit kan nuttig zijn als feedback op de eigen verdedigende strategie en om zwaktes te vinden bij de tegenstander.
articleFull text
Voorspellen van loopblessures aan de hand van voetdrukmetingen
By Loren Nuyts
In deze masterproef wordt een machine learning pipeline opgesteld om loopblessures te voorspellen op basis van druk- en krachtmetingen van de voet, center of pressure metingen, de foot posture index en metadata. Er wordt onderzocht hoe nauwkeurig de blessures voorspeld kunnen worden, welke features daarbij relevant zijn en of er individuele verschillen zijn tussen lopers die de voorspellingen nog verder kunnen verbeteren. Voor het opstellen van die pipeline is het belangrijk om de beschikbare data op zo een manier te preprocessen dat er gefocust wordt op de variatie in de loopstijl van personen in plaats van op de absolute waardes van de metingen. Na het opstellen van de pipeline kunnen de relevante features geïdentificeerd worden. Features die gebaseerd zijn op gemiddelde drukmetingen van metatarsal 2 en 5 en die bovendien blootsvoets gelopen werden zijn zeer belangrijk om succesvol blessures te voorspellen. Ook de absolute waarde van de FFT coëfficiënten van de kracht van de center of pressure zijn onmisbaar voor die voorspellingen. Uit de analyse van de features blijkt dat slechts een beperkt aantal features echt relevant zijn om de loopblessures te voorspellen. Veel features hebben geen invloed op de voorspellingen en sommige hebben zelfs een negatieve impact. Door die features te verwijderen kunnen de voorspellingen verder verbeteren. Door te clusteren op basis van de 15 meest relevante features ontstaan groepen van gelijkaardige lopers. De one-hot codering van het cluster nummer, dat als extra features is toegevoegd, helpt bovendien om personen met een hogere nauwkeurigheid te voorspellen. Gekende verschillen tussen lopers zoals het verschil tussen rearfoot en forefoot lopers hebben in het beste geval geen invloed op de voorspellingen. Dat bevestigt ook het feit dat er geen verband is tussen geblesseerd raken en een rearfoot of forefoot loper zijn. De uiteindelijke pipeline kan loopblessures met 76% nauwkeurigheid voorspellen en heeft een recall van 86% en een F1-score van 68%.
articleFull text

2020

Visual Query of Soccer Actions
By Shuo Sun
Sports analytics is transforming both how sports is played and how we interact with it. Various analytical tools have been created for 'The Beautiful Game' soccer. The ability to collect an unprecedented amount of soccer data posed unprecedented challenges to soccer analytics. We present a web application for users to query a soccer action trajectory of interest by drawing on an interactive web interface. In order to develop the searching algorithm behind the web application. We first conduct experiment on accuracy in trajectories retrieval for different distance metrics. Then, we conduct another experiment to optimize the searching algorithm in trajectory retrieval. The result is a web application that can search for a similar trajectory effectively and efficiently.
articleFull text
On Deriving Player Vectors From Match Event Stream Data
By Devashish Deshpande
The game of soccer is one of the most widely viewed sports in the world today. The competition between teams of top leagues is cut-throat with teams trying to gain an edge over their rivals through not just improved coaching methodologies but also through utilising data. As data such as event stream data and optical tracking data becomes more widely available in not just soccer but across different sports, increasingly complicated models are being developed to assist in developing different aspects of a team’s strategy. This data is being used for a variety of tasks such as player recruitment, match strategy and monitoring player development each often worth millions of dollars to a team. Because of these reasons there is an increasing interest in the ways in which the data available can be better utilised. In our work we deal with event stream data that is publicly available through websites such as Opta and StatsBomb among others. This work can roughly be divided into two parts: First, we extend the existing methods on player vectorization by incorporating new actions; namely headers and tackles. We then analyse whether or not this extension improves the performance; empirically as well as analytically. Second, we explore new ways to model the data using tensor decomposition methods and evaluate the performance.
articleFull text
A "Messi vs All" Analysis of the Expected Goals (xG) Metric
By Anil Cem Arslan
Soccer fans often have furious debates when comparing the scoring skills of their favourite players. In soccer, 'Expected Goals' (xG) is the key metric to have an analytical answer to this opposition. In a nutshell, xG metric stands for the likelihood of a shot ending up in the back of the net and players are evaluated by whether they beat these expectations. For example, arguably the best player in the world Messi has been consistently outperforming his xG with a great margin. However, the existing work on this metric is merely quantitative, providing no insights into why or how Messi performs better than others in terms of xG. This paper (1) analyses the factors that affect a shot being scored, (2) introduces a Bayesian Inference extension to calculate these factors and (3) compares Messi to other players in the framework of these factors. The xG models we propose in this study outperforms the previous models in the literature in predictive performance. The Bayesian Inference framework of this study proves to provide robust insights into the scoring skills of players.
articleFull text
Karakterisatie speelstijl van voetballers aan de hand van Word2Vec
By Jasper Maes
In dit werk zijn we op zoek gegaan naar spelersvectoren die de speelstijl van voetballers in kaart brengen. We hebben dit gedaan aan de hand van de Word2Vec-methodologie. Eerst hebben we de twee bekendste Word2vec-modellen, genaamd CBOW (Continuous Bag-Of-Words) en Skip-Gram grondig bestudeerd. Vervolgens hebben we om tot onze spelersvectoren te komen, gebruik gemaakt van een dataset bestaande uit match event data. Deze dataset omvat elke actie van elke speler uit elke match van de seizoenen 2013-2014 tot en met 2017-2018. Op basis van deze acties hebben we onze spelersvectoren kunnen opbouwen. Dit hebben we gedaan door zowel het Word2Vec- als FastText-model uit de Gensim-library te gebruiken. Op basis van een MRR-validatie hebben we kunnen vaststellen dat deze FastText-variant niet veel meerwaarde brengt. Ook hebben we gezien dat CBOW het lichtjes beter doet dan Skip-Gram. Een bijkomende vaststelling was, dat onze gemiddelde MRR-score aanzienlijk hoger ligt dan bij een reeds bestaande poging waar NNMF gebruikt wordt om spelersvectoren te construeren. Naast spelersvectoren zijn we ook op zoek gegaan naar een manier om team- en spelersactievectoren voor te stellen. Bij teamvectoren doet Word2Vec het opnieuw beter dan FastText en CBOW doet het deze keer zelfs overtuigend beter dan Skip-Gram. Bij de spelersactievectoren was een MRR-validatie moeilijker en hebben we gekozen voor een grafische weergave. Aan de hand van de visualisaties zagen we dat er bij de spelersactievectoren nog veel ruimte voor verbetering is. Tot slot hebben we met onze vectoren ook enkele experimenten uitgevoerd. Zo zijn we onder andere op zoek gegaan naar op elkaar lijkende spelers. Dit kan bijvoorbeeld handig zijn als er bij team een speler vertrekt en het management een gelijkaardig profiel wil aantrekken.
articleFull text
Soccerplayer2vec: Quantifying soccer players' performance and similarity through vector embeddings
By James Defauw
The spectacular advent of data science and artificial intelligence (AI) in the domain of soccer has been driven by both academia and industry, as professional teams around the world have been increasingly investing in the development of sophisticated machine learning models analysing soccer games, with the intent to gain refreshing insights in the game's dynamics and ultimately improve the team's performance on the pitch. This thesis aims to conduct further contributions in this field by developing an embedding model expressing soccer players as real-valued vectors within a low-dimensional latent space. In the first stage, individual on-ball soccer actions, expressed in the SPADL (Soccer Player Action Description Language) data format, are embedded in the latent space through neural network models. These models are largely inspired by the network architectures put forward in the celebrated field of word embeddings (word2vec), with the intent of replicating its successful mastering of semantic information. Additionally, other embedding architectures such as auto-encoding models are explored to serve as performance benchmarks. The development of these embedding models for soccer action data introduces structural barriers, such as the combination of continuous and discrete data types, and the dual representation of spatial data for the home and away team. To overcome these barriers, this thesis proposes a variety of architectural modifications and evaluates their effectiveness through experimental analysis. In a second stage, the obtained soccer action embeddings will be aggregated by performing players, resulting in embeddings for soccer players that are reflective of their overall playing profile. This thesis suggests different aggregation methods and puts forward a framework of metrics to quantitatively evaluate them. Embedding aggregation and evaluation methods are based on previous work in the field of document embedding (doc2vec). Ultimately, a critical analysis of the resulting player-embeddings is conducted. This is done internally, by exploring the latent embedding space with unsupervised machine learning techniques, and externally, through comparison of player embeddings with external data sources.
articleFull text
Het karakteriseren van voetbalspelers met tensor-gebaseerde methoden
By Tomas Geens
Voetbal is al jarenlang de populairste sport in Europa. Daardoor heeft de sport een enorme economische impact. Zo realiseerde voetbal een wereldwijde omzet van 42 miljard dollar in 2018. Het is dan ook geen verrassing dat de opkomst van data-analyse in de laatste decennia een toegenomen interesse in voetbal-analyse met zich meebrengt. In de eerste plaats zijn er bedrijven zoals Opta en Wyscout die voetbal-data verzamelen. Het analyseren van deze data is nog een vrij recent domein en hier is dus nog veel ruimte voor verbetering. Deze thesis sluit zich aan bij de onderzoeken die voetballers proberen te karakteriseren aan de hand van hun verzamelde data. Meer bepaald gebruikt deze thesis tensor-gebaseerde methoden die invoer kunnen decomposeren en zo in staat zijn om latente informatie uit de data te halen. Een methode die hiervoor geschikt is en al goede resultaten behaalde bij onder meer het basketbal is de CP decompositie. Deze methode zal in deze thesis een hoofdrol spelen. Deze kan prototypes vinden en kan door het combineren van deze prototypes het echte gedrag van voetballers benaderen. De focus ligt op ’on-the-ball’ acties. Dit zijn acties waarbij de bal rechtstreeks betrokken is zoals schoten, dribbels, crosses en passes. De thesis bekijkt vooral het passgedrag in detail omdat bij deze niet enkel de start-, maar ook de eindlocaties van belang zijn en omdat eerder onderzoek hier tekortschiet. Het resultaat van de thesis zijn componenten en gewichten per speler die de speelstijl van spelers uitleggen. Voor passes ligt de nadruk ook op het vinden van een compacte voorstelling die in staat is om snel passgedrag te reconstrueren. Zo kunnen toepassingen waarbij een snelle uitvoering belangrijk is de resultaten gebruiken.
articleFull text
Waarderen en voorspellen van acties in voetbal met neurale netwerken
By Nick Schouten
Traditionele voetbalstatistieken waarderen acties op weinig voorkomende gebeurtenissen in de toekomst zoals een doelpunt. Twee gelijkaardige acties kunnen hierdoor verschillende waarderingen krijgen omdat één in een doelpunt eindigt. Voorgaand werk bouwde reeds logistische regressie, dichtstbijzijnde buren en random forest modellen om spelsituaties een waarde te kunnen geven zonder toekomstige acties in rekening te moeten nemen. De waarde van een spelsituatie is hierbij gedefinieerd als de kans op doelpunt voor beide teams. In deze thesis worden modellen gebouwd op basis van neurale netwerken. Er wordt aangetoond dat deze neurale netwerken enkel kunnen trainen met invoerwaarden die genormaliseerd zijn. De neurale netwerken trainen beter wanneer ze samengestelde invoerwaarden met een directer verband op de te voorspellen uitvoerwaarden als extra invoer krijgen. Een eerste neurale netwerk werkt verder aan het waarderen van spelsituaties en behaalt een Brier-score van 0.011004 en een AUROC-score van 0.8041. Dit overtreft het huidige best presterende model. Een ensemble model van dit neurale netwerk en een Catboost uitbreiding op het random forest model uit vorig werk wordt getoond nog beter te presteren, met een Brier-score van 0.010988 en een AUROC-score van 0.8049. Vervolgens worden drie neurale netwerken gemaakt om kenmerken van de volgende actie te voorspellen. Het neurale netwerk dat het actie-type van de volgende actie voorspelt, behaalt een precisie van 67%. Een tweede neuraal netwerk kan met een precisie van 97% onderscheiden of een balbezit wisseling zal plaatsvinden. Finaal voorspelt een derde neuraal netwerk de eind-locatie van de volgende actie met een gemiddelde fout van 10% van het veld.
articleFull text
Patronen ontdekken in voetbaldata met een data-driven categorisatie van de locatiecomponent
By Tim Hofmans
Voetbal is één van de populairste sporten ter wereld. Er gaat enorm veel geld rond in de handen van spelers, trainers en clubs. Voetbalclubs hebben er dus alle belang bij dat hun team goed presteert. Een ploeg die op voorhand weet hoe de tegenstander zal spelen, kan hier enorme voordelen uithalen. Om de speelstijl van een ploeg te bepalen doen clubs meer en meer beroep op een team van ingenieurs, in plaats van een team van voetbalanalisten. Hier worden verschillende vormen van artificiële intelligentie gebruikt om voetbalwedstrijden te analyseren. Een mogelijke toepassing is het ontdekken van patronen in het spel van bepaalde ploegen. Met deze patronen kunnen we de tactiek van deze ploegen beschrijven. In deze thesis zullen we proberen dergelijk tactische patronen te ontdekken. In het eerste deel van deze thesis zullen we een data-driven manier onderzoeken om de locatiecomponent van de acties te categoriseren. Hiervoor zullen we een aantal zones construeren. We zullen nietnegatieve matrix factorisatie gebruiken om deze zones uit de data zelf te extraheren. Op deze manier zullen deze zones de acties goed representeren. Op de plaatsen waar geen acties voorkomen, zullen geen zones liggen en op plaatsen waar veel acties voorkomen, zullen veel zones aanwezig zijn. Een extra voordeel is dat we op deze manier voor elke ploeg en elk actietype aparte zones kunnen construeren. We zullen hier enkel werken met de drie belangrijkste actietypes: schoten, dribbels en passen. In het tweede deel zullen we deze zones gebruiken in het patroonherkenning algoritme, gebaseerd op CM-SPADE. We zullen daarna de gevonden patronen rangschikken en de top tien patronen per ploeg gebruiken om hun tactiek voor te stellen. Omdat we niet exact weten hoe een ploeg speelt, hebben we geen toegang tot een ground thruth. We zullen hier gebruik maken van de algemeen bekende tactiek van bepaalde ploegen. De conclusie van deze thesis is dat deze algemeen bekende tactiek van de ploegen zeker terug te vinden is in hun top tien patronen. Ook de verschillen in tactiek tussen bepaalde ploegen zijn zeer duidelijk zichtbaar.
articleFull text

2019

Using machine learning to improve the training individualization of professional soccer players
By Maaike Van Roy
Het opvolgen van de trainingsbelasting bij voetbalspelers is belangrijk om blessures te voorkomen en tegelijkertijd de spelers in topvorm te houden. Daarom proberen we in deze thesis de interne belasting van een speler te voorspellen, gegeven zijn externe belasting. Eerder onderzoek ontwikkelde hiervoor groepsmodellen en een individueel model per speler. Deze thesis bouwt hierop verder en tracht deze modellen te ver- beteren door enkele individualisaties toe te passen. Daarvoor houden we rekening met de onderlinge verschillen en gelijkenissen tussen spelers. Drie individualisaties worden toegepast: een groepering per positie op het voetbalveld, een groepering van gelijkaardige spelers en een groepering van gelijkaardige trainingssessies. Groeperen van gelijkaardige spelers in combinatie met LASSO als voorspellende methode lijkt het beste te werken, maar er werd geen merkbaar verschil met de groepsmodel- len vastgesteld. Daarnaast worden voor elk van deze individualisaties ook andere regressiemethoden getest. Er is echter geen verschil te merken met de reeds ge- bruikte regressiemethode LASSO. Daarna worden uitdagingen in verband met de trainingsgeschiedenis en het subjectief meten van de interne belasting behandeld. Het toevoegen van de vorige externe belasting lijkt in combinatie met neurale netwerken een beter resultaat te geven. Vooral voor modellen per positie en modellen per groep gelijkaardige spelers is dit het geval, al is het verschil verwaarloosbaar. Door de subjectieve aard van de meetmethode voor de interne belasting, zou het kunnen dat de spelers de schaal van de meetmethode anders geïnterpreteerd hebben. Dat wordt nagegaan en lijkt niet het geval. Een laatste aanpak trachtte meerdere taken samen te leren in de hoop dat de geleerde informatie voor één taak zou kunnen helpen om de andere taken beter te leren. Deze modellen maken echter slechtere voorspellingen dan de groepsmodellen. Een individuele analyse per speler leert ons dat spelers die een unieke interne belasting rapporteren, baat hebben bij een individueel model. Ook moeten spelers aan een minimum aantal trainingssessies hebben meegedaan om een representatief individueel model voor hen te kunnen leren. Voor de ‘normale’ spelers is er echter op individueel niveau geen verschil te merken tussen de geïndividualiseerde modellen en de groepsmodellen. De geïndividualiseerde modellen zijn dus in staat om met minder gegevens om van te leren, een even goede voorspelling te maken als de groepsmodellen.
articleFull text
All you need is a skill: using TrueSkill to predict football games
By Evaldas Kazlauskis
Football (also known as soccer) is one of the most popular sports in the globe. Over a billion people tuned in to watch the final game of FIFA World Cup 2018. In many cases, the winner is not known until the last minute of a match. Sometimes a team wins just by sheer luck. Maybe that is why the sport is so entertaining and have many fans. Additionally, as luck is involved in many game outcomes, it is hard to have accurate models to predict the final outcome. The bookmakers manage to predict only ~52% of the games correctly, while a simple strategy like predicting a win for the home team is right ~45% of games. This thesis focuses on estimating a skill of football teams or individual players using the TrueSkill algorithm and two proposed extensions for it called the Offense- Defense and the Score-Difference models. The skill is approximated to follow the normal distribution N(μ, σ^2) and by revising historical data, the skill-value μ is estimated based on past performances. The σ^2 determines how certain the skill-value is approximated by the algorithm. With more historical data, this value decreases and the updates to the μ value are less significant. The computed skill is used to estimate outcome probabilities for the upcoming games. In addition, numerous features are extracted from the data to improve the predictions. When proposed methods were compared against bookmakers and other techniques, several proposed systems managed to outperform the competition. Although the difference is not significant. One of the proposed models was put to the test on predicting the future games of the English Premier League for 2018/2019 season before it ended. The results are promising and show that the model can be used in real applications.
articleFull text
Sweeping the playfield: benchmarking prediction models in football
By Lars Van Cutsem
In this thesis, we benchmark the performance and profitability of prevalent prediction models for forecasting the outcome of individual football matches. In addition, we suggest two new prediction models inspired by match importance and starting XI player valuations. All experiments are performed and evaluated on five European domestic football leagues. We find that the popular Elo-ratings and pi-ratings prevail performance wise. In match settings were we differentiate based on available team rankings, our suggested models perform very well, even outperforming both Elo-ratings and pi-ratings based prediction models in some settings. We evaluate profitability of all benchmarked models against the published odds of the bookmakers, and observe profitability in rare cases.
articleFull text
Predicting a runner's fatigue level using multi-task learning
By Gilles Van Gestel
Mensen lopen tegenwoordig op een regelmatige basis om gezond te blijven. Hieraan zijn natuurlijk gezondheidsrisico's verbonden. Lopers kunnen blessures krijgen als gevolg van oververmoeidheid. Vroegtijdige detectie van vermoeidheid kan potentieel vele blessures voorkomen. Op basis van data van draagbare sensoren kunnen machine learning modellen opgesteld worden die vermoeidheid voorspellen. Bestaande modellen beschouwen lopers echter te veel als gelijken en onvoldoende als unieke individuen. Deze masterproef onderzoekt de mogelijkheid om machine learning modellen te combineren met Multi-Task Learning en zo meer individueel- en groepsgerichte modellen te creëeren. Deze modellen beschouwen de lopers niet als uniform geheel of als uniek individu, maar als groepen van gelijkaardige lopers. Het doel is om gelijkenissen tussen lopers te detecteren, deze lopers te groeperen en Multi-Task Learning te gebruiken om deze gelijkenissen uit te buiten en zo de nauwkeurigheid van bestaande machine learning modellen te verbeteren.
articleFull text
Predicting the potential of soccer players using tensor decomposition
By Kenneth Verstraete
With soccer players being sold for up to 222 million euro, it is important for soccer teams to know if their heavy investments will pay off in the future. Teams therefore try to find young players with a high potential to invest in while their transfer fee is still relatively low. Buying a player at the age of 20 for ten million euro and letting him develop to a player worth 100 million euro at the age of 25 is cheaper than buying him for 100 million euro at the age of 25. Being able to find players with a high growth rate can save soccer teams a lot of money. Predicting the potential of players is thus becoming increasingly important. In this paper, methods are presented that try to predict the skills of players for the coming years. Players who are predicted to grow a lot in skill are very interesting for teams. In order to do this, the player data from the FIFA video game series by EA Sports is used. The data of all players in the games are regularly updated which makes it possible to analyse the skills of each player through time and therefore, it is also possible to predict the potential of each player. The presented methods are tensor-based in the sense that the data of all players is stored in their multidimensional form using tensors or multidimensional arrays. Tensor decompositions are then used to extract information. These decompositions also allow for some insightful findings in the data that otherwise could not have been found if the data were to be flattened to matrices. Both the canonical polyadic decomposition (CPD) and the Tucker decomposition are used. While the CPD is used to extract latent structures for interpretable insights, the Tucker decomposition is used for the prediction of potentials.
articleFull text
Het automatisch analyseren van de speelstijl van voetbalspelers
By Aron Geerts
Voetbal is een van de meest commerciële sporten ter wereld. De kosten die clubs maken om de juiste spelers te vinden lopen op tot honderden miljoenen. Zo werd in de zomer van 2017 nog de Braziliaanse voetballer Neymar gekocht door Paris Saint-Germain voor 222 miljoen euro. Het spenderen van zulke bedragen is altijd een risicovolle investering. Daarom is het ook logisch dat clubs voldoende informatie vergaren over een bepaalde speler alvorens over te gaan tot een transfer. Deze masterproef tracht een model op te stellen om clubs te helpen in het begrijpen van de speelstijl van spelers. Dit gebeurt door spelers op te verdelen in een aantal categorieën, gebaseerd op objectieve statistieken die vergaard worden tijdens een wedstrijd. Dit staat in tegenstelling met de gangbare methode van analyse, waarbij vakexperts hun mening geven over een bepaalde speler, zonder daarbij op een feitelijke manier te argumenteren. De gebruikte methode kadert binnen het vakgebied van de sports analytics. Dit domein ervaart recentelijk een groeiende interesse vanuit zowel wetenschappelijke hoek als van sportclubs uit. In het baseball en basketbal gebruiken clubs al langer geavanceerde analyses om een competitief voordeel te halen ten opzichte van hun tegenstanders. Ook het voetbal springt nu volop mee op de trein. Daarom poogt deze masterproef ook een bijdrage te leveren in dit thema. Om speelstijlen van spelers te vatten, wordt in een eerste fase gezocht naar welke kenmerken (Eng: features) bepalend zijn om het speelgedrag van een voetballer te vatten. Vervolgens wordt elk van deze kenmerken geanalyseerd en wordt voor elke speler gedefinieerd hoe hij zich hiervoor gedraagt. Het combineren van het gedrag van een speler voor elk van deze kenmerken leidt tot een definitie van de stijl van een speler. Bovendien introduceren we ook een afstandsfunctie waarmee men de speelstijl van verschillende spelers kan vergelijken. Deze vergelijking wordt gebruikt in een tweeledige verificatie van het model. Eerst wordt op een formele manier gekeken hoe consistent het model is in de tijd. Vervolgens toont dit werk hoe subjectieve bevindingen gestaafd kunnen worden aan de hand van de gevonden resultaten.
articleFull text

2018

Machine learning methods for the practical prediction of fatigue in recreational runners
By Maarten Rimaux
Lopen is een heel toegankelijke sport doordat het geen dure uitrusting vereist. Ondanks dat lopen een eenvoudige sport is, zijn hier toch gevaren aan verbonden. Wanneer overmatig getraind wordt zonder voldoende te rusten, kunnen overbelastingsblessures ontstaan door vermoeidheid. Om deze blessures tegen te gaan, proberen we in deze masterthesis te onderzoeken hoe we praktisch vermoeidheid bij recreatieve lopers kunnen voorspellen. Deze masterthesis stelt een datagedreven methode voor, zonder domeinkennis te gebruiken, om dit probleem aan te pakken. Hierbij wordt gebruik gemaakt van accelerometerdata om variabelen te vinden die het looppatroon beschrijven. Het doel is om een model te creëren dat op basis van deze kenmerken een beoordeling van waargenomen inspanning kan voorspellen. Het uiteindelijke model is op basis van gradient tree boosting met alle kenmerken en heeft een gemiddelde absolute fout van 1,66. Verder wordt in dit werk onderzocht wat de invloed van snelheid is op het voorspellen van vermoeidheid, doordat het looptempo vrij te kiezen was bij de dataverzameling. Hierbij werden twee modellen opgesteld: één met de minst afhankelijke kenmerken van snelheid en één met de meest afhankelijke kenmerken van snelheid. Het model met de meest afhankelijke kenmerken had een lagere gemiddelde absolute fout. Om deze reden werd verder onderzocht wat het toevoegen van snelheid als extra kenmerk als effect zou hebben op het reeds gevonden model. Als resultaat bekwamen we een model met een hogere gemiddelde absolute fout. Hieruit kunnen we besluiten dat snelheid een invloed heeft op de kenmerken om vermoeidheid te voorspellen, maar dat snelheid als kenmerk zelf geen extra informatie biedt. Als laatste werd ook onderzocht welke sensor locatie het meest praktisch is voor deze toepassing. Hierbij werden enkele criteria opgesteld om een praktische locatie te definiëren, namelijk draagbaarheid, vertrouwdheid en bruikbare data. Op basis hiervan werden 4 locaties geselecteerd: linkerheup, rechterarm, linkerpols en onderrug. Voor elk van deze locaties werd een model opgesteld om na te gaan welke locatie de laagste gemiddelde absolute fout had. Uiteindelijk kwam de onderrug als beste positie naar voren met een gemiddelde absolute fout van 1,78. Daarnaast werden ook combinaties van twee locaties met elkaar vergeleken. Hierbij was de combinatie linkerheup en onderrug het beste met een gemiddelde absolute fout van 1,70. De gevonden resultaten kunnen in de toekomst verder verwerkt worden in een praktische toepassing.
articleFull text
Op zoek naar waardevolle gegevens in voetbaldata
By Louis Dubaere
Deze thesis onderzoekt een manier om ongebruikelijke voetballers te detecteren aan de hand van de verschillende event sequences waar die voetballer aan deelneemt. Event sequences zijn gebeurtenissen in een match waarbij de bal voor minstens drie opeenvolgende events in hetzelfde team blijft. Elke speler wordt voorgesteld door een feature vector, die een weerspiegeling is van zijn deelname aan een aantal op voorhand vastgelegde {event sequences}. Er worden drie verschillende methodes besproken om deze event sequences te bepalen. De uiteindelijke detectie van ongebruikelijke voetballers gebeurt door middel van klassieke outlier-detectie algoritmen die toegepast worden op de feature vectoren van de spelers. Op basis van enkele formele experimenten, is er indicatie dat de methode erin slaagt om een onderscheid te maken tussen de feature vectoren van de verschillende posities (verdediger, middenvelder en aanvaller). Daarna detecteert de methode, in een aantal informele experimenten, voor elke positie enkele ongebruikelijke voetballers. Aan de hand van een analyse van deze gevonden voetballers, lijkt het erop dat er enkel in het geval van de gevonden aanvallers gesproken kan worden over ongebruikelijke voetballers.
articleFull text

2017

Het voorspellen van balverlies uit voetbalgegevens
By Jeroen Craps
Gedurende de laatste jaren neemt de hoeveelheid aan gegevens omtrent professionele voetbalwedstrijden, die verzameld worden en het niveau waarop deze geannoteerd worden, significant toe. Een overduidelijke reden hiervoor is de toename aan kapitaal dat geïnvesteerd wordt in de voetbalwereld (b.v. transfersommen, spelers- en trainerslonen). Er zijn steeds meer gedetailleerde gegevens bekend over de gebeurtenissen die tijdens een wedstrijd plaatsvinden, waaronder zelfs positionele gegevens. In bestaand onderzoek wordt vooral gebruik gemaakt van statistieken. De positionele gegevens worden hierin weinig tot niet geanalyseerd. Dit is de reden waarom er in deze thesis onderzoek wordt verricht naar de mogelijkheid om de positionele gegevens te gebruiken bij de predictie van balverlies. Deze positionele gegevens geven meer context omtrent de fase, waarvoor er een predictie gemaakt wordt. Aan de hand van wedstrijdgebeurtenissen worden fasen gedefinieerd. Deze fasen zouden representatief moeten zijn voor een aspect van de speelstijl van een ploeg. Met behulp van een nieuwe geïntroduceerde afstandsfunctie kunnen fasen met elkaar vergeleken worden. Deze afstandsfunctie maakt gebruik van gegevens die de context, waarin de fase plaatsvindt, zou moeten verduidelijken. Deze gegevens zijn de tussenstand, de tijdsaanduiding en acties die plaatsgevonden hebben gedurende deze fase. Om te vergelijken voor welke ploegen het gemakkelijker is om een juiste voorspelling te maken, wordt er een analyse gedaan naar de trends die gevonden kunnen worden in de behaalde resultaten van de verschillende ploegen. Uit deze analyse blijkt dat enerzijds de resultaten die in de competitie behaald werden van belang zijn, maar anderzijds zijn er ook andere aspecten die het resultaat beïnvloeden. Zo zijn trainerswissels en blessures vaak voorkomende gegevens in de huidige voetbalwereld. Deze brengen mogelijks een abrupte verandering in tactiek met zich mee, welke de nodige gevolgen kunnen hebben voor de consistentie van het model.
articleFull text
Voorspellen van het potentieel van professionele voetbalspelers
By Ruben Vroonen
De voetbalgemeenschap is zeer dynamisch. Clubs kopen en verkopen spelers voortdurend met maar één doel voor ogen: de beste ploeg ter wereld te vormen. Sinds de eeuwwisseling zijn de bedragen die clubs neertellen voor de beste spelers enorm toegenomen. Zo erg zelfs dat enkel de rijkste clubs nog mee kunnen dingen voor de grote prijzen. Ditzelfde probleem deed zich al langer voor in het honkbal en inspireerde Billy Beane om metrieken te gebruiken om goedkopere spelers te vinden met hetzelfde potentieel als de duurdere spelers. Later werden deze metrieken gebruikt in honkbal en basketbal om projectiesystemen te ontwikkelen die voorspelden hoe goed een speler kon worden. Om ook in het voetbal te kunnen voorspellen wat het potentieel van een speler zal zijn hebben we het APROPOS projectiesysteem ontwikkeld. APROPOS staat voor Algorithm for PRediction Of the POtential of Soccer players. Dit algoritme is gebaseerd op het CARMELO projectiesysteem voor basketbalspelers en gebruikt een k-dichtste buren methode. Hierbij maakt het algoritme een voorspelling voor het potentieel van een speler door gebruik te maken van het potentiële niveau van de meest gelijkaardige spelers. In deze masterproef onderzoeken we meerdere manieren om twee spelers met elkaar te vergelijken en om een voorspelling op te stellen. Het beste voorspellingsmodel vergelijkt twee spelers door hun evolutie doorheen de jaren te vergelijken en voorspelt wat de evolutie zal zijn voor de speler over een bepaalde periode. Dit model kan met een hoge nauwkeurigheid voorspellen wat het potentieel van een speler zal zijn.
articleFull text
Machine learning methodes voor het voorspellen van VO2max uit sub-maximale inspanning
By Arne De Brabandere
Maximale zuurstofopname (VO2max) is een variabele die een indicatie geeft van iemands uithoudingsvermogen. Deze variabele is gedefiniëerd als de maximale hoeveelheid zuurstof die iemand kan opnemen en gebruiken per tijdseenheid en wordt uitgedrukt in ml/kg/min. VO2max wordt gemeten met een maximale inspanningstest. Atleten kunnen zo’n test echter niet regelmatig uitvoeren omwille van zowel fysieke als praktische beperkingen. Daarom zijn verschillende modellen ontwikkeld om VO2max te voorspellen uit sub-maximale inspanning. Bestaande modellen maken echter maar beperkt gebruik van variabelen die loopbewegingen beschrijven. In plaats van hiervoor alleen domeinkennis te gebruiken, stelt deze masterthesis een datagedreven methode voor. Het doel is om een model op te stellen voor de voorspelling van VO2max uit sub-maximale inspanning op een loopband, met als invoer variabelen berekend uit hartslag en accelerometermetingen. Het uiteindelijk model is een lineair regressiemodel met vier variabelen (geslacht, lichaamsgewicht, inverse van gemiddelde hartslag en inverse van de standaardafwijking van de totale versnel- ling gemeten op het scheenbeen) en heeft een verklaarde variantie van 0,784 en een gemiddelde absolute fout van 2,35 ml/kg/min. Dit werk toont aan dat de combinatie van hartslag en accelerometervariabelen nuttig is om VO2max te voorspellen en stelt een methode voor om deze variabelen automatisch te selecteren. De variabelen worden berekend uit twee sensoren - een hartslagmeter en een accelerometer - bevestigd op het lichaam van de lopers. Om een voorspelling te maken, is een lichte inspanning van vier minuten aan 8 of 9 km/u vereist. Het model kan daarom gebruikt worden in een praktische toepassing om de VO2max van atleten op regelmatige basis op te volgen en trainingsadaptaties te meten.
articleFull text
Het voorspellen van winstkansen in het basketbal met behulp van machine learning technieken
By Giel Dops
De laatste decennia worden in zowat elke sport vele statistieken bijgehouden, uit interesse maar ook voor professionele doeleinden. Op voorhand voorspellen welk team een wedstrijd of een competitie zal winnen, is een populaire toepassing van sportstatistieken. In deze tekst wordt een andere vorm van voorspellen onderzocht. Deze masterproef onderzoekt namelijk hoe men de winstkansen van een team op elk moment tijdens een basketbalwedstrijd kan voorspellen met behulp van machine learning technieken. Dit onderzoek handelt in de context van de Scooore League, de hoogste divisie in het Belgische mannenbasketbal, en gebruikt gegevens uit deze competitie. Het probleem van het voorspellen van winstkansen zal voorgesteld worden als een machine learning probleem. Voor dat probleem wordt dan een oplossing gezocht met behulp van vijf paradigma's uit de machine learning: logistic regression, naive Bayes, random forest, SVM en gradient boosting. Die algoritmes voorspellen waarschijnlijkheden aan de hand van kennisinvoer, geformaliseerd als attribuut-waarde data. We houden tevens ook rekening met het kalibreren van de waarschijnlijkheden door isotone of sigmoïde kalibratie toe te passen en te evalueren. Vervolgens kunnen we de voorspellingen evalueren met behulp van drie evaluatiemethodes. Uiteindelijk wordt het machine learning probleem terug gemapt op het winstkansenprobleem. De resultaten worden dan geïnterpreteerd in de context van de Scooore League. De experimenten in deze tekst besluiten onder andere dat logistic regression, gekalibreerd met sigmoïde kalibratie, de beste resultaten levert. De belangrijkste attributen blijken het puntenverschil tussen de teams en de odds aan het begin van de wedstrijd te zijn. Over het algemeen scoort onze aanpak goed en behaalt het beduidend betere resultaten dan een naïef referentiemodel. Ten slotte bestuderen we ook kort een gelijkaardig probleem waarbij het voorspellen van het puntenverschil tussen beide teams op het einde van de wedstrijd centraal staat. Ook hiervoor wordt er een oplossing aangereikt en behalen we goede resultaten.
articleFull text

2016

Voorspellen van doelpunten en waarderen van spelsituaties in voetbal
By Tom Decroos
No abstract available
articleFull text
A data-driven approach for plantar pressure analysis
By Kilian Hendrickx
Nowadays plantar pressure data is analysed in biomechanical means by experts, sometimes aided with biomechanical metrics. During plantar pressure analysis an increasing amount of data is recorded. This data with an increased level of detail is often too much to analyse in a traditional biomechanical methodology and thus most of the times reduced to a more limited data set. This could hide interesting unknown patterns that where available in the accurate data set. With this reduction, the advantages of the accurate measurements are therefore limited. The usage of data-driven techniques for plantar pressure analysis is interesting as it allow use of a higher amount of data. This can lead to discoveries of hidden patterns or principles that are yet unknown for the biomechanical experts. Following a traditional data-driven methodology, this thesis mainly focusses on the preparation and modelling of the biomechanical data. Recordings are often done in a lab environment but the recorded data comes with challenges that avoids the usage of the raw data in data-driven methods. In a data-driven process, features have to be created to allow analysis of the data. Therefore several methods to extract these features of a plantar pressure data set are developed. During this development, the key idea is to increase the amount of used data. To test the hypothesis that data-driven techniques can be used to analyse plantar pressure data, experiments are set up. These experiments focusses on the confirmation of known biomechanical principles, as it allows to conclude that a data-driven can indeed be used to analyse this kind of data.
articleFull text
Performance management van de Belgian Red Lions door Machine Learning
By Bram Geelen
In deze masterthesis wordt bestudeerd hoe met methoden uit het Machine Learning aan data-analyse kan worden gedaan. Hierbij wordt toegespitst op data uit het hockey, specifiek over de fysieke prestatie van het Belgische nationale mannen-hockeyteam, de Belgium Red Lions. Er wordt onderzocht of deze methoden kunnen dienen om opmerkelijke prestaties - zogenaamde anomalieën - te vinden. Ook wordt geprobeerd om toekomstige prestaties van spelers te voorspellen. Daarnaast wordt ook de theoretische achtergrond uitgelegd van een tool die automatisch interessante wedstrijdprestaties van spelers kan vinden in grotere datasets. Als laatst wordt aan de hand van decision trees een vergelijking gemaakt tussen de verschillende aanvalslinies in het hockey, en op dezelfde manier wordt geanalyseerd of de recente inkorting van de lengte van een wedstrijd een invloed heeft gehad op de intensiteit van de wedstrijd. Op basis hiervan worden statistische regels en spelersprofielen opgesteld die de onderzoekers bij Topsportslab en de coaches van de nationale ploeg in praktijk kunnen gebruiken.
articleFull text
Machinaal leren: een nieuwe methode voor vermoeidheidsdetectie bij hardlopers
By Bart Vanderlocht
Lopen is een populaire maar ook zeer blessuregevoelige sport. Vermoeidheid van de loper is één van de oorzaken van de blessures. Deze thesis onderzoekt het gebruik van accelerometers en Machinaal leren (ML) om vermoeidheid in lopers te detecteren, en zo het aantal blessures te reduceren. Data verzamelt voor 30 proefpersonen met twee accelerometers (één op het scheenbeen, één op de onderrug) tijdens een vermoeidheidstest wordt gebruikt als input voor drie ML-algoritmes (Beslissingsbomen, Support Vector Machine en AdaBoost). Na het verwerken van de data (onder andere berekenen van features en een normalisatie van deze features) worden voor zowel classificatie als regressie voorspellende modellen gebouwd. Elk van de algoritmes construeert modellen die vermoeidheid redelijk goed kunnen voorspellen, statistisch gezien verschilt de kwaliteit van de voorspellingen niet significant. Het beste resultaat wordt tweemaal behaald met AdaBoost: voor classificatie een accuraatheid van 69.7% in het onderscheid tussen niet-vermoeid en vermoeid, voor regressie een gemiddeld absolute fout van 0.171 in de voorspelling van de werkelijke vermoeidheidsschaal. De normalisatie van features is belangrijk om tot goede resultaten te komen, en de accelerometer op de rug is informatiever dan diegene op het scheenbeen. De verticale as van de accelerometer is het minst informatief. Tussen de proefpersonen zijn er zeer grote verschillen in de kwaliteit van de voorspellingen: voor proefpersonen die een meer constante snelheid aanhouden tijdens de vermoeidheidstest zijn de voorspellingen beter. Ten slotte wordt vermoeidheidsvoorspelling vergeleken snelheidsvoorspellingen op basis van accelerometers: in dit tweede geval zijn de voorspellingen doorgaans beter. De kwaliteit van de voorspellingen per algoritme verschilt weerom niet significant. Het beste resultaat is een gemiddeld absolute fout van 0.148. Voor snelheidsvoorspelling kunnen goede voorspellingen gemaakt worden voor de snelle proefpersonen.
articleFull text
Voorspellen van voetbalresultaten door de kwaliteit van doelpogingen te kwantificeren
By Rob Coekaerts
De enorme markt voor sportweddenschappen creeert een vraag naar modellen die wedstrijden accuraat kunnen voorspellen. De opkomst van technologie zorgde recentelijk voor een explosie in de hoeveelheid data die per wedstrijd gegenereerd wordt. Bestaande modellen uit de academische literatuur maken echter nog maar weinig gebruik van de beschikbare data. In de tussentijd komen uit de online voetbalanalyse-gemeenschap op basis van die grote hoeveelheid data innoverende concepten, zoals het 'verwacht aantal doelpunten', tevoorschijn. Deze masterproef reproduceert en implementeert een kwalitatief `verwacht aantal doelpunten'-model en integreert dit concept van het verwacht aantal doelpunten in Elo-waarderingen. Deze integratie steunt op een nieuwe methode om op basis van de uitslag in het verwacht aantal doelpunten, de prestatie van beide teams in een wedstrijd te kwantificeren. Dit werk toont aan dat voorspellingen aan de hand van deze waarderingen accurater zijn dan voorspellingen op basis van standaard Elo-waarderingen.
articleFull text
Het ontdekken van offensieve passpatronen in voetbalgegevens
By Dieter Jordens
In de laatste jaren zijn er steeds meer sportgegevens beschikbaar en ook de analyse van deze gegevens wordt belangrijker. Dit is een rechtstreeks gevolg van het feit dat er in sommige sporten zoals voetbal veel geld wordt uitgegeven (e.g. spelers, trainers). Er worden ook steeds meer gedetailleerde gegevens over gebeurtenissen tijdens wedstrijden bijgehouden en zelfs positionele gegevens van spelers. In het huidige onderzoek hebben statistieken enorm veel potentieel, maar met de positionele gegevens wordt momenteel nog maar weinig gedaan. Daarom wordt er in deze thesis onderzoek verricht naar passpatronen in gegevens. Deze passpatronen kunnen iets vertellen over de speelstijl van een ploeg en meer specifiek over hoe bepaalde ploegen een aanval opbouwen. In deze thesis wordt aan de hand van de wedstrijdgebeurtenissen een passtraject gedefinieerd. Vervolgens wordt er een vernieuwende spatio-temporele afstandsfunctie geïntroduceerd waarmee deze passtrajecten vergeleken kunnen worden. Om de speelstijlen van ploegen te kunnen vergelijken wordt er onderzoek gedaan naar welke passtrajecten kenmerkend zijn voor een bepaalde ploeg. Met enerzijds gevonden passtrajecten die een ploeg kenmerken en anderzijds zelfgekozen passtrajecten is het mogelijk om de speelstijl van een ploeg te definiëren. De distributie van de passtrajecten van een ploeg over de clusters die overeenkomen met de gekozen passtrajecten bepaalt de speelstijl van een ploeg. Door deze distributies van verschillende ploegen met elkaar te vergelijken, kan men aan speelstijlanalyse doen.
articleFull text
Een gedistribueerd actiesequentiezoekalgoritme voor de RoboCup-competitie
By Simon Vanneste
De RoboCup-competitie is een competitie waarbij verschillende robotteams tegen elkaar voetballen in verschillende categorieën. Een categorie van deze competitie, is de 2D-simulatie. Hierbij zullen twee virtuele teams tegen elkaar voetballen door middel van tactische beslissingen. In de literatuur wordt een actie gegenereerd door een zoekboom van samenwerkende acties te doorzoeken en de actie te gebruiken die naar de beste actiesequentieketting leidt. In dit onderzoek wordt er onderzocht of het gecentraliseerde actiesequentiezoekalgoritme vervangen kan worden door een gedistribueerde variant. Dit zal gebeuren door de spelers zonder bal, op de bal te laten bieden. Indien een speler een hogere bieding kan genereren dan de speler met de bal, zal hij de bal aangespeeld krijgen. Een beperking hierbij is echter, dat elke speler maar één tot twee berichten kan ontvangen. Hierdoor zullen de biedende spelers moeten inschatten of ze kans maken op de bal door middel van een berichtbeperkende methode. Er zijn verschillende methodes bestudeerd om een bieding te genereren en we hebben ondervonden dat het genereren van een bieding op basis van een gegeneerde actiesequentieketting het beste resultaat geeft. Deze methode om een bieding te genereren laat ons toe om met dezelfde kwaliteit acties te genereren waarbij de maximale berekeningstijd zal verminderen indien het aantal berichten niet is beperkt. Indien het aantal berichten beperkt wordt, is het niet langer mogelijk om dezelfde kwaliteit te behouden. In deze thesis wordt een methode beschreven, waarbij het wel mogelijk is om de rekentijd te reduceren zonder kwaliteitsverlies.
articleFull text

2015

Interactively exploring sports data
By Jeroen Decleer
No abstract available
No text available
Mining and learning battle tactics from StarCraft replays
By Tom Van Hamme
No abstract available
No text available
Discovering playing styles in soccer match data
By Jeroen Van Gool
No abstract available
No text available
Analyzing playing styles in Belgian basketball
By Thomas Neven
No abstract available
No text available
Voorspelling van spelersstatistieken in het Belgische basketbal
By Yuri Passchyn
Dit eindwerk onderzoekt hoe effectief het is om spelersstatistieken voor basketbalspelers te voorspellen met het K-nearest-neighbors algoritme. We richten ons hierbij specifiek op spelers die een overgang maken van de Amerikaanse NCAA naar de Belgische Scooore! league. De nadruk van het onderzoek ligt op het gebruik van verschillende parametrische methoden om een afstandsmaat te leren, voor gebruik in KNN. We testen ook verschillende manieren om gewichten toe te kennen als nabewerking. Onze resultaten tonen dat we slechts een aantal spelersstatistieken accuraat kunnen voorspellen. De meeste spelersstatistieken tonen geen significante verbetering met een zeer simplistische voorspellingsmethode. Dit is waarschijnlijk te wijten aan onze kleine dataset. De effectiviteit van afstandsmaat leren in deze context, moet verder onderzocht worden op het vlak van niet-parametrische methoden.
articleFull text
Learning optimal line-ups in soccer games
By Eryk Kulikowski
No abstract available
No text available
Preventing running injuries through fatigue detection
By Mathieu Theerens
No abstract available
No text available
Mining and learning battle tactics from StarCraft replays
By Eric de Potter de ten Broeck
No abstract available
No text available
Predicting soccer match outcomes
By Dieter Verbeemen
No abstract available
No text available

2014

Het leren schrijven van voetbalwedstrijdverslagen uit gestructureerde gebeurtenisgebaseerde gegevens
By Maarten Allard
Met de recente player tracking software (PTS), kunnen voetbalwedstrijden geanalyseerd worden en kunnen videobeelden omgezet worden in ruwe gegevens. Deze gegevens beschrijven de evenementen die op de videobeelden te zien zijn. Zo kunnen de gegevens bijvoorbeeld een pas of een doelpunt beschrijven. In deze thesis wordt onderzocht of we met deze gegevens de interessantste wedstrijdmomenten kunnen bepalen. Ook wordt er onderzocht of we op basis van bestaande wedstrijdverslagen nieuwe verslagen kunnen genereren. Als we deze twee doelstellingen samenvoegen, kunnen we, met behulp van de PTS, op basis van videobeelden automatisch een voetbalverslag genereren. Er zijn bestaande systemen die tijdens een voetbalwedstrijd reeds verslag geven. Zo worden er tijdens de wedstrijd zinnen gegenereerd, vertrekkend van de gegevens van de PTS, die de evenementen beschrijven. Mensen die niet naar de videobeelden kijken, kunnen op die manier toch een wedstrijd live volgen. Deze bestaande systemen werken steeds met sjablonen. Dit wil zeggen dat voor eenzelfde evenement steeds dezelfde zin gegenereerd wordt. Ook rapporteren deze systemen alle evenementen, niet enkel de belangrijkste. Deze masterproef beschrijft een nieuw algoritme om een voetbalverslag te genereren. Uit de resultaten blijkt dat er een stap in de goede richting is gemaakt. Het algoritme kan de belangrijkste evenementen uit een wedstrijd selecteren. Het kan ook patronen uit bestaande verslagen herkennen en later opnieuw gebruiken. Enkele huidige problemen zijn dat het algoritme te weinig informatie heeft over voetbal of dat er te naïef gewerkt wordt. Zo bevatten correct gedetecteerde patronen soms extra informatie over het verloop van een evenement. Maar het algoritme begrijpt deze informatie niet en gebruikt deze patronen dan op een verkeerde manier.
articleFull text
Discovering playing styles in soccer match data
By Glenn Daneels
No abstract available
No text available
Osteoarthritis monitoring with Kinect
By Toon Van Craenendonck
No abstract available
No text available
Het leren van optimale spelstrategieën in Hattrick met Monte Carlo Tree Search
By Aäron Verachtert
Deze masterproef onderzoekt of het Monte Carlo Tree Search-algoritme (MCTS) succesvol kan worden toegepast op een combinatorisch probleemdomein. We onderzoeken de optimalisatie van opstellingen voor het online voetbalspel Hattrick. Een opstelling bestaat uit toewijzingen van voetbalspelers aan posities en individuele instructies. De zoekruimte van mogelijke opstellingen is vrij groot. Daarom is de optimalisatie van Hattrick-opstellingen een moeilijk probleem. Omdat MCTS in staat is om te gaan met grote zoekruimten, proberen we dit algoritme toe te passen op de optimalisatie van Hattrick-opstellingen, waarbij parti'ele opstellingen dienen als de toestanden van het probleem. MCTS vereist een beoordeling van eindtoestanden. We hebben ervoor gekozen om een volledige opstelling te beoordelen op de uitkomst die voorspeld wordt moest de opstelling gebruikt worden. Om een uitkomst te kunnen voorspellen hebben we een verzameling van gegevens over reeds gespeelde wedstrijden opgehaald. Via automatisch leren hebben we een aantal voorspellende modellen geleerd en met elkaar vergeleken. We onderzoeken zowel een nominale als een numerieke uitkomstvoorstelling. Vervolgens onderzoeken we het Monte Carlo Tree Search-algoritme zelf. We stellen een aantal toepasbare uitbreidingen op het MCTS-algoritme voor. We evalueren de resultaten van combinaties van varianten voor de selectiestap en de simulatiestap op een verzameling van hypothetische wedstrijden. Deze resultaten tonen aan dat MCTS wel degelijk goede opstellingen kan bepalen en dat het zinvol is om het MCTS-algoritme toe te passen op combinatorische optimalisatieproblemen.
articleFull text
Developing an automatic system for monitoring quality of movement for prevention and rehabilitation
By Benjamin Wittevrongel
The purpose of this thesis was to investigate whether machine learning techniques can be applied to make an a priori prediction about which gait retraining strategy is the best option for a patient suffering from knee osteoarthritis. Next to the pure predictive task in which only the best retraining strategy is returned, this study also aimed at constructing interpretable models that provide insight into the data. Three data sets were considered: a data set originating from healthy subjects, a data set from arthritic subjects and a combined data set containing the data of all subjects. A data mining approach was followed that includes data selection, data preprocessing, application of machine learning algorithms and evaluation of the learned models. For the predictive task, the parameters of the algorithms were optimized to maximize the predictive performance. The descriptive task in contrast used a fixed parameter configuration and interpretable classifiers. The results showed that for all three data sets a predictive model with reasonable accuracy (± 75%) could be found. While also acceptable descriptive models were found for the healthy and arthritic subjects separately, the results with the merged data set did not result in a satisfactory descriptive model. For both tasks, the models learned on healthy subjects did not perform well when applied to the arthritis patients and vice versa. Two hypotheses that could provide an explanation for this phenomenon were formulated.
articleFull text
Building predictive models from soccer match ratings
By Gunjan Kumar
No abstract available
No text available
Predicting college basketball match outcomes
By Sruthi Moorthy
No abstract available
No text available
Automatisch leren van de voorspelling van time-loss blessures in professioneel voetbal
By Tim Op De Beéck and Jeroen Mordijck
Voetballers zijn de belangrijkst activa van een voetbalclub. Daarom is het noodzakelijk om hen in topvorm en blessurevrij te houden. Tijdverliesblessures, blessures waardoor een speler niet in staat is om deel te nemen aan trainingen en wedstrijden, brengen een grote financiële kost met zich mee. Daarom is het doel van deze thesis om de voorspelling van tijdverliesblessures te verbeteren met behulp van Machine Learning en Data Mining technieken. We focussen daarbij op voorspellingen die interpreteerbaar zijn daar deze toelaten om preventieve strategieën voor blessures te verbeteren. Vooreerst voorspellen we risicoprofielen van blessures. Vervolgens voorspellen we de optredende gebeurtenis van blessures. Het voorspellen van risicoprofielen laat toe om goede strategieën te bepalen voor het koppelen van testresultaten aan blessures, een optimale verhouding tussen het aantal negatieve en positieve voorbeelden te bepalen en om enkele belangrijke karakteristieken te identificeren. Het toevoegen van de extra karakteristieken verbetert de voorspelling. Voor elke zone wordt er vervolgens een model geleerd. Naive Bayes leidt tot de beste resultaten met nauwkeurigheden tussen de 81 en 90%. De voorspellingen van de optredende gebeurtenis van blessures door gebruik te maken van een schuifraamtechniek kan verbeterd worden door de karakteristieken te discretiseren. We konden besluiten dat de twee weken voor een blessure de belangrijkste zijn. Door enkel niet-contactblessures te gebruiken voor het opstellen van positieve voorbeelden kunnen de voorspellingen verder verbeterd worden. Naive Bayes komt ook voor het voorspellen van de optredende gebeurtenis van blessures als best presterende algoritme naar voren met een nauwkeurigheid van 83,3%.
articleFull text
Het bouwen van voorspellende modellen uit statistieken van voetbalwedstrijden
By Christof Houben
No abstract available
articleFull text
Applying machine learning to sports analytics
By Zifan Shi
No abstract available
No text available