11-05-2009

Voetbalstatistiek


Pannekoek

Het voetbalseizoen is weer voorbij, de prijzen zijn verdeeld. AZ werd kampioen en het ongelukkige Volendam daalde af. Rond de winterstop was iedereen ervan overtuigd dat Volendam zou degraderen, maar daarna krabbelden ze goed op. Vlak voor het einde van de competitie leken ze zich veilig te spelen. De laatste plaats werd overgedaan, dus dat zag er prima uit. Het leek zelfs zo goed, dat niemand treurde toen Groningen in de blessuretijd won. Het Graafschap uit, daar zou het slechte oranje zich verzekeren van de nacompetitie. Daarbij rekenden ze erop dat Feijenoord wel effe van Roda zou winnen. Hoe dom kun je zijn... xD

Ondertussen is het interessant wie de opvolger wordt van Lowie van Gaal. Co Adriaanse lijkt me een prima kandidaat, maar hij kan ook naar Ajax, waar Marco Pannekoek plotseling opstapte. Ik vind het overigens een slechte reclame.

Op het afgelopen Eredivisieseizoen kun je een hoop statistische analyses doen. Het blad NWT begon er in februari mee, maar ik had het idee dat ze wel kansen creëerden, maar niet scoorden. Naar aanleiding van het eerste artikel "De wetten van koning voetbal" schreef ik een brief naar de redactie, waarin ik enkele zwakke punten in het verhaal probeerde bloot te leggen.

NWT mist kansen voor open doel

Graag lees ik uw blad met daarin interessante artikelen, die vaak van goede kwaliteit zijn. Helaas was het verhaal over voetbalstatistieken, "De wetten van koning voetbal" (NWT, februari 2009, pag. 32), van een minder kaliber.
In dit artikel werd geprobeerd voetbaluitslagen in wetten te vangen. Daarbij lijken de auteurs werkelijk waar alles wonderlijk te vinden en proberen ze vanaf hun eigen strafschopgebied te scoren, maar missen ze tegelijkertijd kansen voor open doel.

Zo wordt er beweerd dat de remisekans in de Nederlandse Eredivisie twintig procent is. Verder wordt er gesteld dat het aantal doelpunten in een wedstrijd poisson verdeeld is. Een berekening met Excel laat zien dat de kans op een gelijkspel dan inderdaad ongeveer twintig procent is, wanneer het aantal doelpunten van beide teams onafhankelijk is van elkaar. De berekening suggereert dus onafhankelijkheid, wat mijns inziens pas een bijzondere conclusie is. Helaas wordt er niks over gezegd in het artikel, een gemiste kans.
Wat ook niet had misstaan, was een onderzoek of het grotere aantal remises in het buitenland komt doordat daar minder gescoord wordt. 

De vijfde wet wordt beargumenteerd met een regressielijn in de grafiek die de winst- en remisekans uitzet tegen het ranglijstverschil. Voor grote ranglijstverschillen kunnen helaas geen uitspraken worden gedaan, want er zijn te weinig datapunten. Daar komt het nadeel van de kleine dataset aan het licht, maar het verhindert de auteurs niet om toch de conclusie te trekken dat de remisekans van twintig procent voor alle duels geldt. Bij de regressielijn kan de vraag nog worden gesteld of er wel sprake is van een lineaire trend.

In de derde wet verwonderen de auteurs zich over het feit dat de gaten boven- en onderaan de ranglijst groter zijn dan in het midden. Daaruit wordt geconcludeerd dat het vooral een kwestie van motivatie is. Mijns inziens is het statistisch gezien vrij logisch; er zijn meer mogelijkheden om "rond de vijftig procent te eindigen" dan dat je alle wedstrijden wint of verliest. Hierdoor zijn er veel middenmoters en zullen de onderlinge afstanden in de middenmoot kleiner zijn.

Dit was wat ik over het artikel kwijt wilde. Overigens had ik de remisekansen verkeerd berekend, waardoor de kans op een gelijkspel statistisch gezien ongeveer 24% is en niet 20. Maar goed, waar ging het artikel nou precies over?

Er werden vijf voetbalwetten geponeerd. Dan denk je gelijk aan iets heel spannends, maar het viel mee. (of tegen?) Voor mij waren de statistische wetten van belang. Interessant was de vijfde wet, die beweerde dat de kans op een gelijkspel tussen alle ploegen gelijk is. Daar werd nogal wat beweerd en die wet is naar het schijnt ook flink afgeschoten door de lezers. Dat had deze wet niet verdiend.

De wet werd onderbouwd door een grafiek waarin het resultaat als een functie van het ranglijstverschil was uitgezet. Zoals we later nog wel zullen zien, is het ranglijstverschil niet constant. Hoe dan ook, met behulp van een regressielijn werd aannemelijk gemaakt dat de remisekans tot op zekere hoogte gelijk blijft. Hiertoe hadden de auteurs enkele Eredivisieseizoenen gebruikt als referentiemateriaal. Het nadeel is dan dat er weinig datapunten zijn voor extreme ranglijstverschillen (de nummer 1 tegen 18 komt eens per seizoen voor), waardoor de grafiek onnauwkeurig wordt naar de randen.

Het probleem hierbij is dat de regressielijn bij de randen ook naar "nul" of "één" crasht. Over de remisekansen bij grote ranglijstverschillen kan niet veel worden gezegd, hoewel ze dat aanvankelijk suggereerden.

Zoals ik in de brief schreef, wist ik met behulp van Excel "aan te tonen" dat bij een gemiddelde van 3,1 doelpunten per wedstrijden 24 procent in een gelijkspel eindigt. 


In de Nederlandse Eredivisie eindigt echter maar twintig procent van alle duels in een gelijkspel, beweerde het artikel. Dat werd in het vervolgartikel ("Opstand tegen koning voetbal") tot slot opgemerkt:

"Ten slotte onderzocht Jesper de Groote, of de totale kans op gelijkspel (20-22 procent) niet gewoon volgde uit het geconstateerde feit dat het aantal doelpunten per wedstrijd voldoet aan de Poissonverdeling (de Tweede wet). Onder de aanname dat het aantal doelpunten van de tegenstanders onafhankelijk van elkaar is, eindigt 24 procent van de wedstrijden in gelijkspel. Conclusie: een achterstand roept wel extra scoringsdrift op, maar niet veel."

Toch nog beroemd... ;) De conclusie is echter fout: er vallen minder remises dan je zou "verwachten", wat betekent dat de ploeg die op voorsprong staat juist meer scoort.

In het vervolgartikel werd uitvoerig besproken dat de auteurs behoorlijk waren aangevallen door de lezers. Iemand maakte een krankzinnige opmerking over een 1-aprilgrap (raar, het artikel stamt uit februari) en anderen waren verontwaardigd. Ze waren het niet eens met de vijfde wet. Ik begrijp het niet. De feiten liggen er, dus dan kun je het er toch moeilijk mee oneens zijn?!

"Veel NWT-lezers geloofden niet in de door ons opgeduikelde statistische 'wetten' van de voetbalcompetitie. Eén briefschrijver vond dat we 'kansen voor open doel' hadden gemist..." xD

Eigen statistiek
Al jaren houd ik een voetbalratingsysteem bij. Het ratingverschil brengt krachtsverschillen veel nauwkeuriger in kaart: het krachtsverschil tussen twee ploegen kan 100 ratingpunten zijn, of vijf plekken op de ranglijst. De onderverdeling is veel nauwkeuriger. Een koploper (zoals dit jaar met AZ) kan vele punten voorsprong hebben op de nummer twee (en daardoor een veel groter ratingverschil) dan twee ploegen die met elkaar in de middenmoot aan het vechten zijn.

Dat biedt in ieder geval mooie kansen om het afgelopen Eredivisieseizoen grondig te analyseren. Er vielen dit jaar 870 doelpunten, wat 2,84 per wedstrijd is. In 147 duels (48%) won de thuisploeg, in 83 (27%) de uitploeg en in 76 (25%) gevallen werd het remise (als ik de uitslagen tenminste goed heb ingevuld). Dat is opmerkelijk: dat is bijna exact het aantal gelijke spelen dat je zou verwachten bij een gemiddelde van 2,84 doelpunten per wedstrijden. Het lijkt erop dat de doelpunten dit jaar inderdaad onafhankelijk van elkaar vielen, hoewel je dat volgens mij nog niet direct mag concluderen uit deze "match".


Het aantal doelpunten per wedstrijd was bij benadering Poisson verdeeld, al kwamen wedstrijden met vier doelpunten wel erg vaak voor.

Een ander punt is het verschil in speelsterkte. Hoe hangt het verschil in doelpunten samen met het ratingverschil? Daartoe moest ik eerst de evenwichtsratings berekenen voor het afgelopen seizoen:

Ploeg Begin, Eind, TPR, Evenwicht
AZ 2259, 2620, 2542, 2560
Twente 2427, 2482, 2470, 2472
Ajax 2498, 2443, 2455, 2445
PSV 2496, 2428, 2443, 2433
Heerenveen 2413, 2395, 2399, 2396
Groningen 2279, 2374, 2353, 2349
Utrecht 2270, 2287, 2283, 2281
Feyenoord 2364, 2258, 2281, 2281
NEC 2380, 2253, 2281, 2281
Vitesse 2248, 2278, 2272, 2270
NAC 2396, 2234, 2269, 2270
Willem II 2222, 2211, 2213, 2213
Sparta 2209, 2200, 2202, 2201
Heracles 2194, 2189, 2190, 2190
ADO 2100, 2190, 2171, 2178
Graafschap 2121, 2173, 2162, 2166
Roda 2276, 2135, 2165, 2166
Volendam 2150, 2153, 2152, 2153

AZ kwam dus uit op 2560, Volendam op 2153. Een verschil van "slechts" 407 punten tussen de nummer 1 en nummer 18. Hieronder een puntenwolk met regressielijn tussen het ratingverschil en het uiteindelijke verschil in doelpunten:


Het verband tussen rating en verschil in doelpunten is duidelijk aanwezig, maar de punten zijn grillig verdeeld. Desondanks is er nog steeds sprake van thuisvoordeel.

Opmerkelijk is bij het doelpuntenverhaal dat de "intercept" pas na -100 ligt, terwijl de thuisvoordeelconstante uiteindelijk een kleine 90 punten bleek te bedragen. Kennelijk winnen thuisploegen met hogere cijfers, iets wat ook wel logisch is (7-0-thuiszeges komen wel eens voor, 0-7-uitzeges eigenlijk nooit).

Normale verdeling
Voor de berekening van de verwachte scores gebruik ik de Sigmoidfunctie volgens Wikipedia. Deze verdeling lijkt op de normale verdeling, maar heeft meer kansmassa over bij de staart. Hierdoor hebben zwakke ploegen dus meer kans tegen sterkere ploegen dan met de normale verdeling. Dat is denk ik wel realistischer, want voetbal is mensenwerk en mensen maken nou eenmaal fouten. Dus zie je wel eens uitglijders.

Maar goed, nu een grafiekje. Ik heb de scores opgeteld in verschillende ratingklassen; >300 pt verschil, 251-300, 201-250, ... , 0, -1 - -50, ... , <-300. Deze klasses zijn naar mijn mening wel voldoende groot, waardoor ik het volgende grafiekje kon maken:


De lijn van de verwachte scores lijkt redelijk overeen te komen met de in de praktijk behaalde resultaten.

Nu is dit ook niet zo gek, omdat de ratings zijn aangepast aan de resultaten, maar desondanks is het goed om te zien dat de curve redelijk benaderd wordt. Tot slot een aantal regressievergelijkingen om de remisekans te bepalen:


De winst- en verlieskansen nemen vrijwel lineair toe/af met het verschil in rating, de remisekans heeft een top bij een ratingverschil van ongeveer 100 punten in het voordeel van de uitploeg (ongeveer waar het "effectieve ratingverschil" nul is.) De remisekans is daar zo'n 30 procent, dus meer dan de 24-25 procent op basis van de onafhankelijke doelpunten. Dat is toch raar, want dan zou de ploeg die op achterstand is gekomen blijkbaar vaker scoren. Of worden er minder doelpunten gescoord tussen ploegen van gelijk niveau? Aan de ene kant is de hoge remisekans dus heel logisch, aan de andere kant zit de statistiek in de weg. Belangrijker is natuurlijk dat de remisekans volgens deze regressielijn gestaag afneemt naarmate het ratingverschil groter wordt. Daarmee verdwijnt wet vijf wat mij betreft in de prullenbak.

Dit was het voor nu, binnenkort ga ik
- NWT weer een keer mailen
- Een vervolg op dit artikel maken, mocht ik nog onvolledigheden zien

Vragen en suggesties zijn altijd welkom!

Gerelateerde artikelen:
Eredivisie ronde 20; 01-02 2009

1 opmerking: