Je connais des questions connexes et des réponses intéressantes sur le même sujet, comme Comprendre AlphaZero. Mes questions sont liées à la figure suivante sur la procédure de recherche d'AlphaZero
Cette figure provient de la Article scientifique sur AlphaZero (Fig. 4, page 4). La recherche est illustrée pour une position du très beau jeu 1 AlphaZero (blanc) et Stockfish (noir) après 29. ... Qf8. Le reste de la note de la figure est la suivante
L'état interne des MCTS d'AlphaZero est résumé après 10 ^ 2, ..., 10 ^ 6 simulations. Chaque résumé montre les 10 états les plus visités. La valeur estimée est affichée dans chaque état, du point de vue du blanc, mise à l'échelle de la plage [0, 100]. Le nombre de visites de chaque état, par rapport à l'état racinaire de cet arbre, est proportionnel à l'épaisseur du cercle de bordure. AlphaZero considère 30.c6 mais joue finalement 30.d5.
J'apprécierais quelques idées concernant les questions suivantes. (Il est important de noter que je suis un simple joueur d'échecs sans connaissances en informatique. Je trouve toujours cela fascinant)
- Que représentent les simulations 10 ^ 2, ..., 10 ^ 6 ? Je suis très confus parce que dans le matériel supplémentaire, ils notent que `` pendant la formation, chaque SCTM a utilisé 800 simulations ''.
- Qu'est-ce que cela signifie que chaque SCTM a utilisé 800 simulations?
- Je suppose que la valeur de 60 dans le cercle rouge dans les 10 ^ 2 simulations représente un score attendu de 60% pour le blanc, qui est la moyenne de toutes les évaluations de poste. Cependant, la moyenne simple des 9 coups indiqués est égale à 61,2. Je suppose que d'autres mouvements ont également été pris en compte et simulés. Suis-je juste ici?
- Je suppose que pour les simulations 10 ^ 3 à 10 ^ 6, elles ne présentent qu'un échantillon illustratif des branches. La simulation 10 ^ 5 n'est pas affichée après 34.Rce1 ou arrêtée après 34.Rce1? Je suppose que chaque simulation va jusqu'à un score attendu de 100%.