2021-12-20

  • Author:
    • Somasundaram T
    • Panneerselvam K
    • Bhuthapuri T et al.
  • Title:Double Q-learning Agent for Othello Board Game
  • Journal:
  • Issue:
  • Page:
  • Year:2018 #paper

  • オセロにDouble Q-learningを適応した研究
  • COMP
    • Table重みを利用したプレイヤー
    • 重みの総和を価値とする
    • 自分が打った後、どういうスコアになるか という指標で貪欲に打つ
  • RAND
    • ランダムプレイヤー
  • Q-learning
    • Q-learningで価値を更新するプレイヤー
    • 実装は以前の研究を引き継ぎReinforcement Learning in the Game of Othello
    • parameter
      • 学習率 0.01
      • 割引係数 1
      • イプシロン0.1→0
      • 報酬 勝ち引き分け負け 1 0.5 0
    • 入力層、隠れ層、出力層
      • 入力層はオセロ盤、出力層はQ値と打つ場所のペア
  • TD-learning
    • TD-学習は現在のボード状態と以前に学習した推定値に基づいて現在の推定値を計算する
    • 学習率は0.002
    • 報酬は 1,0,-1
    • パラメータ
      • エージェントが次の手で獲得できる最大得点
      • 相手が次の手で獲得できる最大得点
      • エージェントが次の手を打つ可能性のあるセル数と相手が次の手を打つ可能性のあるセル数の比
  • Double Q-learning
    • Q-learningに二重の推定量
    • 学習率 0.01
    • 割引率 0.99
    • 報酬 1,0,-1
  • 学習
    • 自分自身と50万回学習
      • この学習前後でRANDと対戦
    • 白紙から初めて、COMPと200万ゲーム学習
      • 学習中・学習後にCOMPと対戦し、結果を確認
      • チェックポイントごとに1000回テスト
      • 学習終了後10000回テスト