研究内容


当研究室では自然界や人工システムに見られる複雑な振る舞いを「最適な状態へと至ることができなくなっているシステムの振る舞い」という切り口から解析しています。2025年時点では特に以下のようなテーマに中心的に取り組んでおります。

繰り返しゲームにおける利得制御の基本的性質の理解と利得制御能力の拡張

繰り返しゲームは将来の利得を考慮したエージェントの意思決定を扱う枠組みです。例えば囚人のジレンマゲームにおいては、一回のゲームでは均衡点として裏切りが実現されますが、無限回ゲームを繰り返すことでプレイヤーが将来を考慮した行動をとり協力が達成されうることが知られています。近年、繰り返しゲームにおいて「ゼロ行列式戦略」と呼ばれる新たな戦略クラスが発見されました。ゼロ行列式戦略はプレイヤーの利得の間に一方的に(他プレイヤーの戦略によらずに)線形関係式を課すことで利得を制御する戦略クラスです。繰り返し囚人のジレンマにおいては、このクラスには例えば、相手の利得を特定の値に固定するequalizer strategyや、絶対に負けないextortionate strategy、絶対に勝てないが相互協力をナッシュ均衡として実現するgenerous zero-determinant strategyなど、直観に反するものが数多く含まれます。また、繰り返し囚人のジレンマにおいて、相手の前回の手を真似するしっぺ返し戦略は2人の利得を一方的に等しくするゼロ行列式戦略であることも知られており、このような戦略の一般化とも見なせます。ゼロ行列式戦略は必ずしも合理的な戦略ではありませんが、これまでに協力行動の進化の文脈でその意義が解析されてきました。しかしながら、ゼロ行列式戦略のゲームによらない一般的な性質はこれまであまり注目されてきませんでした。当研究室では、ゼロ行列式戦略の一般的な性質を理解するとともに、その利得制御能力の拡張を行っています。

模倣行動の有用性の利得制御的観点での特徴づけ

模倣行動は他者の振る舞いを真似するだけの単純な行動原理でありながらも、様々な状況で有用な行動の獲得につながることが多くあります。例えば、例えば人間の子どもは周りの人間の真似をしながら言語や行動規範を習得し社会に所属していきます。また、生物においては、そもそも遺伝子が親から子に複製されるというメカニズムが自然に採用されています。一方で、創作活動の分野においては、他人の創作物の剽窃は禁忌とされています。一般に模倣の成功は、模倣する側と模倣される側の利害がどの程度一致しているかに依存すると考えられます。そのため、複数のエージェントの合理的振る舞いを数学的に記述するゲーム理論が模倣行動の成功の有無の分析にも有用となる可能性があります。
繰り返し囚人のジレンマにおいては、しっぺ返し戦略と呼ばれる模倣戦略が相互協力を合理的な行動として達成することが知られています。近年、繰り返し囚人のジレンマゲームにおいて、このしっぺ返し戦略は二人の利得を一方的に等しくする(負けない)ゼロ行列式戦略であることが発見されました。本研究室ではこのゼロ行列式戦略の概念を用いて繰り返しゲームにおいて模倣戦略が有用となりうる条件の特定を目指しています。

繰り返しゲームにおけるマルチエージェント強化学習の性質の理解

強化学習は、マルコフ決定過程においてエージェントが好ましい行動を取った場合に報酬を与えることで特定の環境に対する最適な行動を学習しようという機械学習の方法です。近年ゲーム理論のような複数のエージェントが存在する状況での強化学習(マルチエージェント強化学習)が盛んに研究されています。これは、強化学習の観点からは、複数のエージェントの存在下では環境が非定常となるので通常の強化学習よりも難しい設定となっているためです。あるいは、ゲーム理論の観点からは、エージェントが初めから合理的でなくても、強化学習の結果合理的な行動を獲得する可能性があるため、限定合理性の文脈で研究されています。本研究室では簡単なゲームにおけるマルチエージェント強化学習の振る舞いについて調べています。