2021-12-20
- Author:
- Somasundaram T
- Panneerselvam K
- Bhuthapuri T et al.
- Title:Double Q-learning Agent for Othello Board Game
- Journal:
- Issue:
- Page:
- Year:2018
#paper
- オセロにDouble Q-learningを適応した研究
- COMP
- Table重みを利用したプレイヤー
- 重みの総和を価値とする
- 自分が打った後、どういうスコアになるか という指標で貪欲に打つ
- RAND
- Q-learning
- TD-learning
- TD-学習は現在のボード状態と以前に学習した推定値に基づいて現在の推定値を計算する
- 学習率は0.002
- 報酬は 1,0,-1
- パラメータ
- エージェントが次の手で獲得できる最大得点
- 相手が次の手で獲得できる最大得点
- エージェントが次の手を打つ可能性のあるセル数と相手が次の手を打つ可能性のあるセル数の比
- Double Q-learning
- Q-learningに二重の推定量
- 学習率 0.01
- 割引率 0.99
- 報酬 1,0,-1
- 学習
- 自分自身と50万回学習
- 白紙から初めて、COMPと200万ゲーム学習
- 学習中・学習後にCOMPと対戦し、結果を確認
- チェックポイントごとに1000回テスト
- 学習終了後10000回テスト