Question:
Ajustement pondéré pour Elo relatif
Andrew Latham
2012-09-05 18:36:43 UTC
view on stackexchange narkive permalink

Je regardais mes plus gros problèmes de l'autre jour et je me suis rendu compte que le résultat n'était pas satisfaisant. La plupart d'entre eux étaient des bouleversements de 500 à 600 points alors que j'étais encore très mal noté (c'est-à-dire 800 battant un 1300), tandis que les bouleversements que je considère comme les plus importants ont été ceux de 150 à 200 points marqués en tant que joueur ou expert A. De même, ce serait beaucoup plus bouleversé si un 2650 battait Levon Aronian que pour un 1500 de battre un maître. Il semble que plus les notes sont élevées, plus les points comptent - une différence de 100 points compte beaucoup plus plus vous montez.

Quelqu'un peut-il trouver une manière pondérée ou logarithmique de représenter les notes Elo sur une sorte d'échelle pour que cela soit représenté avec précision et que les joueurs puissent être comparés de manière cohérente, ou une telle échelle existe-t-elle déjà?

Quatre réponses:
#1
+7
Andrew
2012-09-05 18:54:22 UTC
view on stackexchange narkive permalink

Je pense que le phénomène que vous décrivez est dû à la variabilité du jeu aux niveaux inférieurs. Elo est défini en fonction de la probabilité statistique qu'un joueur batte l'autre.

Voici la formule exacte pour obtenir le score attendu d'un joueur (rating = Ra) contre un adversaire (rating = Rb):
ELO Rating formula

Cela signifie que un joueur 800 est théoriquement aussi susceptible de battre un joueur de 1000 qu'un joueur de 2200 est de battre un joueur de 2400.

De toute évidence, ce n'est pas le cas car aux niveaux inférieurs, il y a une variance beaucoup plus élevée dans le résultats. Cette différence est assez bien capturée dans le système de notation Glicko. Fondamentalement, un joueur a une cote ainsi qu'un écart de cote (RD) qui représente à quel point la cote d'un joueur est bien établie. Donc, dans votre cas, lorsque vous avez obtenu une note de 800, vous étiez probablement plus proche de la force 1100 ou 1200, mais votre note n'avait pas encore rattrapé votre force. C'est l'un des défauts fondamentaux de tous les systèmes de notation que la notation est toujours à la traîne. Si l'USCF avait utilisé le système Glicko, ces premières victoires auraient entraîné un saut de classement bien plus important que ce qui s'est réellement produit, et votre adversaire aurait également perdu moins de points.

Donc, pour résumer, bien que les systèmes de notation ne soient pas parfaits et que votre force soit souvent supérieure à votre note, un 800 battant un 1000 et un 2600 battant un 2800 sont tous deux également probables d'un point de vue purement mathématique.

La réponse d'Andrew dit déjà essentiellement ce que je suis sur le point de dire, mais cela pourrait être une reformulation utile. Une note n'est qu'une estimation de la valeur réelle d'un paramètre (force de jeu), et cette valeur changera avec le temps. Puisqu'un joueur plus faible a le potentiel d'augmenter rapidement cette valeur, alors qu'un joueur fort ne le fait pas, nous pouvons nous attendre à ce que les notes des joueurs les plus faibles soient généralement des estimations plus pauvres que celles des joueurs plus forts, et nous devrions donc voir de plus grands bouleversements à ces niveaux. aussi. Le DR du système Glicko fournit un indicateur explicite du degré de confiance dans les notations / estimations données.
#2
+1
D M
2018-05-21 06:59:15 UTC
view on stackexchange narkive permalink

Vous pouvez créer l'échelle que vous voulez ... mais comme cela a été dit, les notes sont déjà calculées de sorte qu'une différence de notes particulière produira un score attendu particulier. L'ajustement ne fera probablement que fausser les choses, surtout si l'ajustement est dans la mesure que vous suggérez et basé uniquement sur les numéros de notation (par opposition, par exemple, au fait que votre note de 800 était provisoire , et c'est parti. de manière significative dans les quelques tournois qu'il a fallu pour que votre classement s'établisse.)

Je pense que vous surestimez à quel point il est rare qu'un 2650 batte un 2820 ou plus. S'il y a un écart de 170 points dans les notes, la personne inférieure devrait obtenir un score d'environ 27 à 28%. Bien qu'une grande partie de ce score provienne de tirages au sort, le joueur le plus bas gagne parfois. Pour savoir à quelle fréquence, j'ai regardé une base de données contenant 127K jeux. Je l'ai filtré pour les jeux dans lesquels un 2800+ a joué à 2650 ou moins. Il y avait 230 jeux de ce type. Parmi ceux-ci, 16 ont été remportés par la partie la plus faible. Cela représente environ 7%.

Ou peut-être sous-estimez-vous à quel point il est difficile pour un 1500 de battre un maître. Je n'ai pas de base de données des joueurs les moins bien notés par rapport aux maîtres, mais j'ai regardé l'historique des jeux USCF d'un FM 2309 de mon état. Il a disputé 48 matchs contre des joueurs de moins de 1500 depuis qu'ils ont commencé à garder une trace à la fin de 1991 et a perdu zéro . Il a disputé 104 matchs contre des joueurs classés 1500-1699 et en a perdu 4. Contre des joueurs classés 1700-1999, il a perdu 33 sur 589, soit environ 5,6%.

Oui, je mélange les notes USCF et FIDE par en comparant les deux, mais je dirais néanmoins qu'un 1500 battant un maître est en fait un plus gros bouleversement qu'un 2650 (ce qui est presque suffisant pour être dans le top 100 mondial) battant un 2820.

Mais vous n'a pas posé de question à ce sujet, alors je vais le mettre de côté maintenant. Vous avez posé des questions sur les formules possibles. Une formule qui pourrait être dans l'esprit de ce que vous semblez avoir l'intention (pondérer fortement le montant du bouleversement en fonction de la note de l'adversaire et affectant tous les domaines de l'échelle de notation) est:

A = D * 2 ^ ((R / 300) -5)

"A" est le montant ajusté du bouleversement, "D" est la différence les notes, et "R" est la note de l'adversaire. Le 2 signifie que le bouleversement ajusté double pour un montant donné de note de l'adversaire (si c'était un 3, il triplerait à la place), et le 300 représente le montant nécessaire pour effectuer ce changement. (Le 5 est juste pour l'échelle.) Donc, par cette formule, pour chaque 300 points que l'adversaire est noté, le montant ajusté du bouleversement double.

Personnellement, je pense que c'est moyen trop raide (une différence de 1500 points de classement de l'adversaire signifie qu'elle est ajustée par un facteur de 32, et je ne pense pas que vous puissiez jamais dire qu'une différence de 10 points équivaut à une différence de 320 points) mais cela semble correspondre à ce qui était voulait. Cette formule rendrait un 2650 battant un 2820 légèrement meilleur qu'un 1500 battant un 2200, et rendrait un 1800 battant un 1950 meilleur qu'un 800 battant un 1300.

#3
  0
edwina oliver
2020-02-08 22:49:56 UTC
view on stackexchange narkive permalink

Vous pourriez trouver de nombreuses façons plus compliquées de mesurer les performances, mais cela ne résoudrait pas adéquatement l'INCONSISTENCE et la VARIABILITÉ des joueurs moins bien notés.

De plus, les notes ne sont pas du tout précises à de faibles niveaux car est un mélange insuffisant de la concurrence. Les meilleurs GM jouent eux-mêmes, ce qui est un groupe beaucoup plus petit que ceux qui évaluent les joueurs de niveau club dans le monde ou même dans un grand pays. D'ailleurs, un petit pays devrait avoir plus d'acteurs faibles que le total de TOUS les GM dans le monde.

Et les notes estiment uniquement les PERFORMANCES PASSÉES, ce qui, comme le disent les annonces, ne garantit pas les performances futures. Les enfants s'améliorent beaucoup; et les MJ vieillissent et sont généralement légèrement plus faibles.

#4
-1
Jamal Munshi
2014-08-29 06:00:07 UTC
view on stackexchange narkive permalink

La faiblesse du système de notation Elo est qu'il repose sur le «score», c'est-à-dire le remplacement des résultats des parties d'échecs trinomiales par des «scores» binomiaux (win = 1, perd = 0, draw = 1/2). Le score entraîne la perte de certaines informations sur les résultats du jeu. J'ai fait une mesure empirique de la perte d'information et je l'ai trouvée significative. J'ai proposé une mesure bidimensionnelle des performances qui est plus précise car elle contient plus d'informations.

Je ne peux pas lire le journal sans encore un autre compte


Ce Q&R a été automatiquement traduit de la langue anglaise.Le contenu original est disponible sur stackexchange, que nous remercions pour la licence cc by-sa 3.0 sous laquelle il est distribué.
Loading...