23-01-2010

De ondergang van het ratingsysteem


Economisch Imperialisme

Al enkele jaren hanteer ik een ratingsysteem voor de Nederlandse voetbalcompetitie. Het doel is om de resultaten van vroeger te gebruiken om de toekomst te voorspellen, of in ieder geval, om een verwachting te geven. Nu valt het te betwijfelen of deze verwachtingen echt zinnig zijn; er komt een kans uit, maar wat koop je daar eigenlijk voor? AZ wint van Excelsior, of niet. Er is geen tussenweg.

Het ratingsysteem heeft een opmerkelijke gelijkenis met het economisch imperialisme; het toepassen van economische principes op gebieden die buiten de economie vallen. Er wordt geprobeerd menselijk gedrag te voorspellen door het gedrag te observeren. Men veronderstelt dat mensen rationeel zijn en dat ze hun nut maximaliseren aan de hand van hun preferenties. Zodoende worden de preferenties gedestilleerd uit het waargenomen gedrag. Deze preferenties moeten vervolgens het gedrag in de toekomst weer voorspellen. Het ratingsysteem werkt dus precies hetzelfde, maar dan met resultaten in plaats van geobserveerd gedrag.

Met het vak Economische Filosofie werd dit "Rational-choicemodel" met de grond gelijk gemaakt. Kun je wel voorspellingen doen uit waarnemingen? Hebben mensen wel gegeven preferenties? Waarom zouden emoties geen rol spelen? Elke week kreeg dit model van McKenzie en Tullock een volgende verbale dreun om de oren. Na een tekst van de docent zelf was het oordeel duidelijk: het model is fundamenteel fout.

Voetbalrating
Nu is het de vraag of dat ook voor het ratingsysteem geldt. De opzet is hetzelfde, het te observeren object niet. Nu draait het om harde resultaten. Resultaten heb je minder in de hand dan gedrag. Natuurlijk wil iedereen winnen; de preferenties zullen wel voor iedereen gelijk zijn, maar niet iedereen (niet elke ploeg) is even goed in staat zijn preferenties te vervullen. In het ratingmodel kun je het niveau van een ploeg zien als de preferenties in het model van McKenzie en Tullock. En is het niveau van een ploeg constant? Nee, afgezien van een goede of slechte dag, zijn er natuurlijk veel meer factoren die een rol spelen. Geblesseerde of geschorste spelers, maar ook grote veranderingen tussen seizoenen, zoals trainerswisselingen en het uitwisselen van spelers.

Helaas zit dit niet in het model opgenomen. Normaal gesproken gaat het nog wel goed, omdat het krachtenveld in de Eredivisie over de jaren heen ongeveer hetzelfde blijft. Hierdoor kan de eindrangschikking van seizoen i gelden als uitgangspunt voor seizoen i+1. Elk seizoen zijn er wel ploegen die ver terugzakken (zoals Feijenoord en AZ geregeld), terwijl andere ploegen ineens komen opzetten (FC Twente de laatste jaren). Daardoor liggen de ratings van dergelijke ploegen over een jaar duidelijk te hoog of te laag.

Als het bij een paar ploegen blijft, dan is dat nog niet gelijk reden voor paniek. Misschien is het nodig om het model uit te breiden met een aangepaste "K-factor", de factor die de ratingverandering bepaalt, maar het is de vraag of je dan echt aan voorspellen doet, of meer de gebreken van je model probeert te verdoezelen. Het is een lastig vraagstuk, hoeveel de huidige resultaten en de resultaten van vroeger moeten worden meegeteld. Natuurlijk mag één verrassend resultaat niet meteen voor vreemde gebeurtenissen zorgen, aan de andere kant beperkt de "ratinginertia" je voorspellingen; je wil natuurlijk dat de ratings direct het daadwerkelijke niveau van de ploegen aangeeft.

2009-2010
Voor dit jaar heb ik gekozen om het ratingmodel "statisch" te houden, dit in verband met statistische problemen die kunnen optreden bij variabele ratings. Dan zouden twee ploegen die exact dezelfde prestatie hebben geleverd over één seizoen ineens een andere eindrating of TPR hebben omdat de ene ploeg toevallig tegenstanders trof die op dat moment een hoge rating hadden (wat iets anders is dan in vorm zijn).
Het statisch zijn kwam ook door de manier waarop de data moet worden ingevoerd: elke ploeg heeft een apart tabblad. Dit maakt het erg moeilijk om een dynamisch ratingsysteem over te houden. Pas na afloop van het seizoen worden de ratings aangepast aan de resultaten, waardoor je na een iteratief proces de evenwichtsratings krijgt. Deze evenwichtsratings zijn een nette weerspiegeling van de krachtsverhoudingen.

Waar de verschuivingen vorig jaar vrij gematigd waren, zijn ze dat nu zeker niet (na 18e ronde):

Nr Ploeg  Rating Punten TPR W-We
1 Twente  2472 16,5 2623 3,41
2 PSV  2433 16,5 2619 4,19
3 Ajax  2445 13,5 2505 1,34
4 Feyenoord 2281 13 2464 4,12
5 Utrecht  2281 11,5 2406 2,80
6 Heracles 2190 11 2381 4,30
7 AZ  2561 9,5 2338 -5,01
8 NAC  2270 8,5 2273 0,07
9 VVV  2150 8 2232 1,84
10 Groningen 2349 7,5 2226 -2,78
11 Roda  2166 6,5 2197 0,71
12 NEC  2281 6,5 2180 -2,28
13 Vitesse  2270 6,5 2177 -2,09
14 Sparta  2201 6,5 2175 -0,59
15 Heerenveen 2396 6 2164 -5,21
16 ADO  2178 5,5 2151 -0,61
17 Willem II 2213 5 2112 -2,27
18 RKC  2150 4 2063 -1,96

Vooral de W-We (het verschil tussen aantal gescoorde punten en de verwachting) is een goede indicator voor hoezeer de voorspellingen overeenkomen met de praktijk. Sommige ploegen spelen ver boven hun verwachting:

Heracles (2190) +4,30
PSV (2433) +4,19
Feijenoord (2281) +4,12
Twente (2472) +3,41

Andere ploegen bakken er geen drol van:
Heerenveen (2396) -5,21
AZ (2561) -5,01

De ploeg die het best aan de verwachtingen voldoet is NAC, met een plusje van 0,07. De standaarddeviatie van de W-We's is maar liefst 3,04 (volgens Excel, officieel is het nog iets meer omdat je niet door 18 maar door 17 moet delen.) Ik weet niet wat gebruikelijk is, maar dit seizoen geeft wel weer aan hoe moeilijk het is om voetbalresultaten (in grote lijnen) te voorspellen. Ik denk dat dit de ondergang is van het ratingsysteem.

Schaakratings
De vraag is ten slotte of dit ook geldt voor schaakratings. Gelukkig zijn mensen over het algemeen stabielere objecten dan voetbalelftallen. Aan de andere kant ontwikkelen schakers zich wel, waardoor hun niveau niet gelijk blijft met de tijd, dit in tegenstelling tot voetbalploegen, die uit steeds weer andere spelers bestaan, waardoor ze niet of nauwelijks onderhevig zijn aan individuele ontwikkelingen. Daarnaast heb je het eerder genoemde fenomeen "ratinginertia", waardoor de ratingcyclus achterloopt bij het niveau van een speler, zelfs als zijn niveau min of meer is gestabiliseerd. De goede resultaten van vandaag komen pas tot uitdrukking in de rating van morgen, waarbij morgen vaak nog wel een paar maandjes op zich laat wachten.

Conclusie: ratings, hecht er niet al te veel waarde aan (behalve als je graag een CM-titel wilt kopen.)


Gerelateerde artikelen:

5 opmerkingen: