Bandit¶

詳細な仕様は IDL 定義を参照してください。

Configuration¶

設定は単体の JSON で与えられる。 JSON の各フィールドは以下のとおりである。

method

バンディットに使用するアルゴリズムを指定する。以下のアルゴリズムを指定できる。

設定値	手法
`"epsilon_greedy"`	epsilon-greedy法を利用する。
"epsilon_decdeasing"`	Greedy Mix法を利用する
`"ucb1"`	UCB1法を利用する。
`"softmax"`	softmax法を利用する。
`"exp3"`	exp3法を利用する。
`"ts"`	Thompson samplingを利用する [1]

[1]	Thompson Samplingを利用する場合、register_reward APIで登録する報酬が0または1に限られる点に注意。

parameter

アルゴリズムに渡すパラメータを指定する。 method に応じて渡すパラメータは異なる。

共通

assume_unrewarded:

報酬がゼロの場合に register_reward の呼び出しを省略できるか否かを指定する。 True の場合、 select_arm によって選択された腕から得られた報酬がゼロの場合には register_reward の呼び出しを省略できる。ただし、 register_reward の呼び出しは select_arm の結果に対応していなければならない。 False の場合、報酬がゼロであっても必ず register_reward を呼び出す必要があるが、 register_reward の呼び出しを select_arm の呼び出しとは無関係に行う事ができる。 (Boolean)

epsilon_greedy

epsilon:

腕の選択をランダムに行う確率を指定する。確率 epsilon で一様分布からランダムに腕を選択し、確率 1 - epsilon で現在最も期待値の高い腕を選択する。 (Float)

値域: 0.0 <= epsilon <= 1.0

seed(optional):

乱数の生成に使用するシードを指定する。省略した場合はシステムクロックがシードとして与えられる。そのため実験の再現性は保証されない。 (Integer)

値域: 0 <= seed <= \(2^{32} - 1\)

epsilon_decreasing

腕をランダムに選択する確率を減衰させる割合を指定する。大きいほど、減衰の進み方は小さくなる。 (Float)

値域: 0 < decreasing_rate < 1

seed(optional):

乱数の生成に使用するシードを指定する。省略した場合はシステムクロックがシードとして与えられる。そのため実験の再現性は保証されない。 (Integer)

値域: 0 <= seed <= \(2^{32} - 1\)

ucb1

なし

softmax

tau:

温度パラメータを指定する。大きくするほどランダムに腕の選択を行い、小さくするほど期待値の高い腕が選ばれやすくなる。 (Float)

値域: 0.0 < tau

seed(optional):

乱数の生成に使用するシードを指定する。省略した場合はシステムクロックがシードとして与えられる。そのため実験の再現性は保証されない。 (Integer)

値域: 0 <= seed <= \(2^{32} - 1\)

exp3

gamma:

腕の重みの混合比率を指定する。 gammaを大きくするほど全腕共通の重みの比率が高くなり、小さくするほど各腕固有の重みの比率が高くなる。 (Float)

値域: 0.0 < gamma <= 1.0

seed(optional):

乱数の生成に使用するシードを指定する。省略した場合はシステムクロックがシードとして与えられる。そのため実験の再現性は保証されない。 (Integer)

値域: 0 <= seed <= \(2^{32} - 1\)

ts

seed(optional):

乱数の生成に使用するシードを指定する。省略した場合はシステムクロックがシードとして与えられる。そのため実験の再現性は保証されない。 (Integer)

値域: 0 <= seed <= \(2^{32} - 1\)

例:

{
  "method" : "epsilon_greedy",
  "parameter" : {
    "assume_unrewarded" : false,
    "epsilon" : 0.1
  }
}

Data Structures¶

message arm_info¶

腕の状態を表す。

0: int trial_count¶: 腕が選択された回数を表す。

1: double weight¶: 腕の重みを表す。

message arm_info {
  0: int trial_count
  1: double weight
}

Methods¶

service bandit

bool register_arm(0: string arm_id)¶

パラメータ:	arm_id -- 新たに登録する腕のID
戻り値:	腕の登録に成功した場合True, 失敗した場合にFalse

arm_id で指定された腕を新たに登録する。

bool delete_arm(0: string arm_id)¶

パラメータ:	arm_id -- 削除する腕のID
戻り値:	腕の削除に成功した場合True, 失敗した場合にFalse

arm_id で指定された腕を削除する。

string select_arm(0: string player_id)¶

パラメータ:	player_id -- 腕を選択されるプレイヤーのID
戻り値:	選択された腕のID

player_id で指定されたプレイヤーの腕を選択する。

bool register_reward(0: string player_id, 1: string arm_id, 2: double reward)¶

パラメータ:	player_id -- 報酬を登録するプレイヤー arm_id -- 報酬を登録する腕 reward -- 報酬の値
戻り値:	報酬の登録に成功した場合 True 失敗した場合 False

player_id で指定されたプレイヤーの arm_id で指定された腕に報酬を登録する。

map<string, arm_info> get_arm_info(0: string player_id)¶

パラメータ:	player_id -- 腕の情報を取得するプレイヤー
戻り値:	指定されたプレイヤーの腕の情報

player_id で指定されたプレイヤーの腕の情報を返却する。

bool reset(0: string player_id)¶

パラメータ:	player_id -- 腕の情報をリセットするプレイヤー
戻り値:	情報のリセットに成功した場合 True 失敗した場合 False

player_id で指定されたプレイヤーの腕の情報を全てリセットする。