Jespers weblog: Ratinglijst

De ratinglijst van februari leverde weer de nodige mutaties op. Dit heeft te maken met het feit dat de ratings anders worden berekend of zo. Ik snap het nog steeds niet echt, maar ja. In ieder geval is de KNSB-competitie meegeteld. Verder zijn de JJC's meegeteld, net zoals het SGS-PJK en oa. het Harmonietoernooi, als ik het goed heb.

De lijst met vrienden en bekenden ziet er nu zo uit:Vin$ 2316 (2318)
Large 2241 (2202)
Ewood 2233 (2183)
Robin Oscar 2184 (2233)
PJF 2084 (2081)
Le 2074 (2031)
Behirder 2033 (2010)
Pascal L 2031 (2031)
Pinda 1931 (1981)
Sizzel 1911 (1911)
De Witte 1805 (1776)
KC 1788 (1755)
Bart 1688 (1636)
EB 1685 (1637)

Over het algemeen een stijgende trend. Zelf steeg ik naar 2033 (!), waardoor ik zelfs Pascal L voorbij ben. Pinda had meer tegenwind; voornamelijk door de JCC zakte hij liefst 50 (!) punten. En hij was al zo veel gezakt. :(
Wat meer "onderin", wat nog steeds (boven)gemiddeld clubniveau is, pakten de witte en KC enkele tientallen elopuntjes, terwijl Bart en EB (!) zo'n vijftig punten stegen.

Elo-inflatie
Laatst keek ik hoe Vin$ bulletpartijen speelde tegen een "nieuwe" speler. Het was een of andere grootmeester die werkelijk waar alle partijen won. Hij wachtte eerst tientallen seconden en knalde er dan binnen fracties van seconden sterke zetten uit. Volgens een gast was het een cheater en dat idee had ik ook.
Deze knakker, zelf een 2700-speler, opperde dat het misschien een truc was om de ratinginflatie een halt toe te roepen. Volgens hem lagen de blitz- en bulletratings zo hoog omdat die speeltempi vaak werden gespeeld. De "langzame" rating lag veel meer in de buurt van de "echte" rating. Dit kwam volgens hem omdat er bij elke partij ratinginflatie ontstond.

Dit klonk mij raar in de oren. Als er een partij wordt gespeeld, zal er praktisch altijd ratinguitwisseling plaatsvinden. Maar netto gaan er geen elopunten verloren, net zomin als dat er geen elopunten bijkomen.
De enige uitzondering is bij startratings. Elke speler, ongeacht het niveau, begint op Playchess met een rating van 1590. (Dit is een beetje een gammele constructie, vind ik.)
Hoe dan ook, een sterke speler zal in het begin vaak winnen en daardoor hard stijgen, waarbij hij nog wordt geholpen door een extra grote K-factor. Alleen hierdoor kunnen er extra ratingpunten in het systeem komen. En daar is al op voorzien: de startrating van 1590 is zo'n 50 punten lager dan het gemiddelde niveau.

Hierdoor zou je verwachten dat de elo's wel min of meer stabiel blijven en ook ikzelf heb niet het idee dat het steeds makkelijker wordt om een hoge rating te halen op internet.
Vroeger had ik eens 2300 bullet gehaald, nu lukt me dat (tot mijn frustratie; ik ben toch beter dan anderhalf jaar geleden?!) niet meer. De 2700-knakker zei dat hij vroeger 2600 was en dat hij nu bijna 2800 was. Misschien is hij de uitzondering die de regel bevestigt...

Ook in het KNSB-ratingsysteem wordt vaak gesproken over inflatie. Mensen die zonder iets te spelen opeens een puntje rijker worden. En toch betwijfel ik het. Ik snap nog steeds niet hoe er gecompenseert wordt voor spelers die overlijden en daarmee veel punten uit het systeem jatten. Ze worden "vervangen" door jeugdspelers, die vaak zwaar underrated zijn.

Als je kijkt naar het niveau van de wereldtop, dan zie je dat de 2800-grens nog steeds moeilijk te slechten is. Waarschijnlijk is het alleen nog maar moeilijker geworden. Er zijn nu veel meer wereldtoppers (2700+) dan vroeger. Bovendien zijn ze dusdanig "gehaaid", dat ze de allersterksten vrijwel altijd op remise kunnen houden. De matige prestaties van Topalov en Kramnik in Wijk aan Zee zijn niet onverklaarbaar.

Het niveau is dus steeds hoger geworden en het valt niet mee om als wereldkampioenskandidaat de concurrentie een stap voor te blijven.

Ratings zeggen dus ook niks over het niveau. Een speler kan veel meer rating verdienen door een slechte partij te winnen, dan dat hij in een uitstekend gespeelde partij niet verder komt dan remise. Dat is de zwakke plek van het ratingsysteem.
Het spelniveau is natuurlijk niet te controleren. Behalve dat alle partijen grondig moeten worden geanalyseerd, zou er eigenlijk ook nog een psychologisch aspect worden meegewogen.

Veel makkelijker is het dus om het niveau van een speler te testen door hem te laten schaken tegen andere spelers. Het probleem is dat de uitslag van een partij dan over beide spelers wat zegt. De winnaar heeft goed gespeeld, maar de verliezer heeft het slecht gedaan.
En wat te denken van twee bevriende spelers die negen doldwaze zetten doen en dan remise spelen (nadat een van beiden mat stond)?

FIDE-rating
Bij de FIDE was het tot enkele jaren geleden gebruikelijk dat alleen "sterke" spelers een FIDE rating hadden. De grens lag op 2200. Dat betekende als een <2200-speler een goed toernooi speelde, dat hij dan best wel eens een FIDE-rating kon krijgen. Vervolgens kon hij zijn vorstelijke 2200-rating niet handhaven en verdween weer uit de lijst. De schade die de speler had aangericht, was dat er punten aan het systeem werden toegevoegd.

Dit euvel werd uit de weg geruimd door de drempel te verlagen naar iets als 1600. Hierdoor kreeg half Nederland ineens (de mogelijkheid) een FIDE-rating te behalen.
Door de inflatie van de FIDE-ratings door het bovengenoemde mechanisme zijn de FIDE-ratings momenteel zo'n 100 punten hoger dan KNSB-ratings. Een speler met 2000 KNSB heeft gemiddeld ongeveer 2100 FIDE. Dit verschil wordt langzaam minder en boven de 2300 zijn FIDE- en KNSB-rating bij de meeste mensen wel ongeveer gelijk.
Een sterke speler met een rating van boven de 2300 zou door de hogere K-factor zelfs iets harder kunnen stijgen met zijn FIDE-rating dan met zijn KNSB-rating.

Toch zitten er nog veel haken en ogen aan het FIDE-ratingsysteem:
* Niet alle toernooien tellen mee voor FIDE-rating
* Tussentijdse ratingmutaties worden niet doorgevoerd in de verandering in verwachte scores
* Er vindt verder ook geen iteratie plaats, de ratings kunnen zeer onnauwkeurig zijn
* De FIDE maakt nog wel eens rekenfouten
* Voor ratingverschillen van boven de 350 elopunten blijft de verwachte score constant op 0,89-0,11. Dit benadeelt de zwakkere speler.

Bij punt 2 bedoel ik dat een speler met een lage rating (bijvoorbeeld 2100) aan een competitie kan meedoen. Stel dat de speler op dat moment al een veel hoger niveau heeft en nog steeds sterker wordt, dan kan hij met die lage 2100-rating zeer veel elo winnen.

Punt 3 is bijna hetzelfde. Stel dat diezelfde 2100-speler meedoet aan behoorlijk wat toernooien. Zijn TPR's liggen allemaal rond de 2200. Dan kan het zo zijn dat hij door de accumilaties van overscores boven de 2200 uitkomt, een niveau dat boven zijn prestaties en beginrating ligt.

KNSB-rating
De KNSB-rating is betrouwbaarder. Toch heeft de KNSB-rating ook een zwakke plek: De K-factor is variabel met de rating. Tot 2000 is hij 30, daarna neemt hij elke 20 elopunten met één af. (Dus bij een rating van 2001 heb je een K-factor van 29, als ik het goed begrijp). Boven de 2400 is de K-factor 10, dat is echt erg weinig. (Overigens zou de K-factor volgens de hierboven genoemde omschrijving boven de 2380 al 10 zijn.)

Het zwakke punt hieraan is, dat er punten aan het systeem kunnen worden toegevoegd of weggehaald. Een "zwakke" speler die wint van een "goede" speler, voegt veel punten toe aan het systeem. Omgekeerd, als de "goede" speler wint, gaan er wat punten verloren.
Nu is er een effect dat punten in het systeem brengt: een speler die bijvoorbeeld ongeveer 2200-niveau heeft, zal goede en slechte periodes kennen. Als de speler een goede periode heeft, zal zijn rating stijgen, totdat de hogere rating hem stabiliseert. Als hij daarna in een mindere periode zit, zal hij hard vallen. Het verschil is alleen dat hij in zijn weg omhoog een hogere K-factor had en daardoor minder boven zijn verwachting hoefde te presteren. Bij zijn val werd hij enigszins beschermd door zijn lager geworden K-waarde. Hierdoor zou dus inflatie kunnen optreden.

Ook kan er inflatie optreden omdat de speelsterkte niet normaal verdeeld is. Zwakke spelers zouden betere kansen hebben tegen sterkere spelers dan het ratingsysteem voorschrijft. Hierdoor kan ook weer inflatie ontstaan.
Verder dacht ik dat er misschien nog inflatie kan ontstaan doordat lager gerate spelers statistisch vaker "underrated" zijn dan hoger gerate spelers, maar ik weet niet zeker of dat klopt. Misschien is er juist deflatie op deze manier omdat hoger gerate spelers fanatieker zijn en daardoor juist underrated zijn.

Misschien is het een goed idee om de inflatie in het juiste perspectief te zien. Stijgen de ratings evenveel als het niveau? Dat zou een uitdagend onderzoek zijn.

Jespers weblog

01-02-2008

Ratinglijst

9 opmerkingen: