強さの定量のためのマッチングについて

問題を簡単にするために、最中限は3人ゲームだが、2者間の勝負に分解して考える。つまりA: +2, B: -1, C: -1のゲームは「A:+1, B:-1」「A:+1, C:-1」「B:0, C:0」の3つの試合の合成だと考える。これによって2人ゲームなどのレーティングと同じ考え方ができるようになる。もちろんこれは「AはBにもCにも強いけど、BとCを同時に相手にしたときは弱い」というようなことがないという仮説をおくことになる。もちろんこれは正しくないわけだけど、ナイーブベイジアンのナイーブだという仮定が正しくないけど実用上ベイジアンSPAMフィルタは問題なく動いているのと同じで、試してみて実用上問題がなければいいんじゃないかと思っている。

さて、そういうわけでElo rating system - Wikipedia, the free encyclopediaとかでレーティングを計算できるようになったとする。ご存知の通り最中限は強いプレイヤーが100%勝つかというとそうではないので、何度か繰り返して対戦して勝率を求める必要があるだろう。

で、ここで問題だと思うのは「限られた時間(対戦数)で優勝者を決める場合、素朴な総当たり戦でかまわないのか?」というもの。僕はこれはNOだと思っている。これってMulti-armed bandit - Wikipedia, the free encyclopediaの拡張と考えることができて、素朴な総当たり戦はMulti-armed banditで全部のスロットに同じ金額を入れる行為と同じなのではないかと。




眠たいのに眠れないので適当なことを書いています。