研究成果


この研究室で得られた成果を紹介します(新しい順)。詳細はリンク先の論文を見てください。また、研究成果一覧についてはresearchmapを見てください。


Application of zero-determinant strategies to particle control in statistical physics

繰り返しゲームにおけるゼロ行列式戦略を統計物理における格子上粒子の制御に応用する方法を提案した。この方法はゼロ行列式戦略に関する2つの定理に基づく。第一の定理は、ゼロ行列式戦略は、もし存在すれば、1次元的な遷移確率を用いて実現されるというものである。第二の定理は、(2人の利得が恒等的に等しいという自明な状況でない)非自明な2人ポテンシャルゲームにおいてはゼロ行列式戦略が存在するというものである。これら2つの性質に基づいて、2次元格子上の1粒子の2つの座標に対する有効的なポテンシャルエネルギーの平均値間に一方的に線形関係式を課すように1つの座標の遷移確率を操作する方法を与えた。
arXiv:2306.05597

Unexploitable Games and Unbeatable Strategies

N人完全対称ゲームのクラスとして搾取不可能ゲームというクラスを導入した。このクラスは一般化ジャンケンサイクルのない2人対称ゲームのN人への一般化となっている。そして、繰り返し搾取不可能ゲームにおいては負けない模倣戦略が必ず存在することを示した。また、(全員の利得が常に同じという自明な状況でない)非自明な繰り返し搾取不可能ゲームにおいては負けないゼロ行列式戦略も必ず存在することも示した。搾取不可能ゲームの最も単純な例として公共財ゲームを取り上げ、これらの結果を説明した。
IEEE Access 11, 5062 (2023)
arXiv:2211.02285

Memory-two strategies forming symmetric mutual reinforcement learning equilibrium in repeated prisoners' dilemma game

[Usui, Ueda, Appl. Math. Comput. (2021)]の続編として、繰り返し囚人のジレンマゲームにおいて2人のプレイヤーが相互強化学習で獲得する戦略の解析を行った。本研究では決定論的記憶2戦略を対象とした。まず、強化学習で獲得される戦略は学習される側の戦略と同じ構造をしていることを示した。続いて、決定論的記憶2戦略が対称な相互強化学習均衡を形成する際の必要条件を求めた。そして、決定論的記憶2戦略による対称な相互強化学習均衡の具体例を3つ与えた。最後に、一般に記憶n'戦略のなす相互強化学習均衡は記憶n戦略(n>n')のなす相互強化学習均衡にもなっていることを示した。
Applied Mathematics and Computation 444, 127819 (2023)
arXiv:2108.03258

Controlling Conditional Expectations by Zero-Determinant Strategies

記憶nゼロ行列式戦略を用いると通常の記憶1ゼロ行列式戦略から任意のバイアスアンサンブルでの平均利得の間に一方的に線形関係式を課す戦略を構成できることを示した。これは、バイアスとしてあるプレイヤーにとって不利な状況に大きな重みを与えてやることで、通常のゼロ行列式戦略を強くできる可能性を意味する。繰り返し囚人のジレンマゲームにおいて記憶nゼロ行列式戦略を具体的に構成する方法も示した。また、変形ゼロ行列式戦略と組み合わせて使う方法についても示した。
Operations Research Forum 3(3), 48 (2022)
arXiv:2012.10231

Necessary and Sufficient Condition for the Existence of Zero-Determinant Strategies in Repeated Games

繰り返しゲームにおけるゼロ行列式戦略はプレイヤーの利得の間に一方的に線形関係式を課す記憶1戦略のクラスである。これまでに囚人のジレンマゲームや公共財ゲームのようないくつかのゲームにおいてはゼロ行列式戦略が発見されてきた一方で、ジャンケンなどゼロ行列式戦略が存在しないゲームも知られており、ゼロ行列式戦略の存在条件は長い間未知であった。本研究ではゼロ行列式戦略が存在するための成分ゲームの必要十分条件を特定した。この条件は、利得の線形結合の累積値を一方的に調整できる2つの行動の存在という形で理解できる。また、2人対称ゲームにおいて、一般化ジャンケンサイクルが存在しないゲームには必ず2人の利得を一方的に等しくするゼロ行列式戦略が存在することも示した。
Journal of the Physical Society of Japan 91(8), 084801 (2022)
arXiv:2205.14799

Unbeatable Tit-for-Tat as a Zero-Determinant Strategy

しっぺ返し戦略は繰り返し2人対称ゲームにおいて相手の前回の手を返す戦略である。本研究で我々は、「しっぺ返し戦略がゼロ行列式戦略となること」と「成分ゲームがポテンシャルゲームであること」は同値であることを証明した。この際、しっぺ返し戦略は2人の利得を一方的に等しくするようなゼロ行列式戦略となる。また、「成分ゲームがポテンシャルゲームであること」は「しっぺ返し戦略が負けない戦略であること」と同値であることが知られているので、ゼロ行列式戦略と負けない戦略の何らかの関係が示唆される。実際、imitate-if-better戦略も成分ゲームがポテンシャルゲームのとき負けないことが知られているが、この戦略も条件付き平均利得を制御する拡張されたゼロ行列式戦略に含まれることも示した。
Journal of the Physical Society of Japan 91(5), 054804 (2022)
arXiv:2109.03447

Symmetric equilibrium of multi-agent reinforcement learning in repeated prisoner's dilemma

繰り返し囚人のジレンマゲームにおいて2人のプレイヤーが交互に相手の戦略に対して最適な戦略を強化学習で学習した場合にどのような戦略の組が均衡点として得られるかを理論的に調べた。その結果、2人のプレイヤーが記憶1戦略のみを用いる場合、相互強化学習の均衡点となりうるのは、全ての決定論的記憶1戦略のうち、Grimトリガー戦略、Win-stay Lose-shift戦略、All-D戦略の3つだけであることがわかった。
Applied Mathematics and Computation 409, 126370 (2021)
arXiv:2101.11861

Memory-two zero-determinant strategies in repeated games

繰り返しゲームにおける「ゼロ行列式戦略」は本来は記憶1戦略クラスに対して導入されてきたが、我々はゼロ行列式戦略の概念を記憶n戦略クラス(n>1)に対しても拡張することに成功した。記憶nゼロ行列式戦略は時間間隔nの間のプレイヤーの利得の定常状態における時間相関関数に対して一方的に線形関係式を課すような戦略となっている。例として繰り返し囚人のジレンマゲームにおける記憶2ゼロ行列式戦略の例をいくつか示した。いくつかの例はしっぺ返し戦略の記憶2戦略クラスへの拡張と見なせる。
Royal Society Open Science 8(5), 202186 (2021)
arXiv:2011.06772

Tit-for-Tat Strategy as a Deformed Zero-Determinant Strategy in Repeated Games

近年、繰り返しゲームにおいて「ゼロ行列式戦略」と呼ばれる戦略のクラスが発見された。ゼロ行列式戦略はプレイヤーの平均利得に対して一方的に線形関係式を課すような戦略である。本研究で我々は利得のモーメントに一方的に線形関係式を課す「変形ゼロ行列式戦略」という概念を導入した。そして、繰り返し囚人のジレンマゲームにおけるしっぺ返し戦略が2人のプレイヤーの利得の全てのモーメントを同時に一方的に等しくするような変形ゼロ行列式戦略となっていることを示した。別の言い方をすれば、しっぺ返し戦略は2人のプレイヤーの利得のモーメント母関数を一方的に等しくするような戦略となっている。
Journal of the Physical Society of Japan 90(2), 025002 (2021)
arXiv:2012.07659