Netflix × ZONe 「今際の国のアナタ」

強化学習による行動生成エンジンを用いたゲーム開発

Share

OVERVIEW

2020年12月に、漫画『今際の国のアリス』(原作:麻生羽呂)がNetflixオリジナルシリーズ『今際の国のアリス』としてドラマ化されました。その公開を記念して、エナジードリンク『ZONe』とコラボレーションした、“本能”のみで操作する新感覚ブラウザゲーム『今際の国のアナタ』を配信しました。作品の中で登場人物が生死をかけて行うゲームに、「もしも自分が参加することになったらどのような行動を起こすのか」という想像の世界を、AIを使用してリアルに再現したブラウザゲームです。Qosmoではゲームデザインに加え、強化学習を用いたキャラクターの行動生成エンジンの開発を担当しました。

BACKGROUND

『今際の国のアリス』は、山﨑賢人演じる有栖良平(アリス)らが生死を賭けたデスゲームへと参戦していくストーリーです。本プロジェクトにおいては、そのデスゲームのうちの一つである”おにごっこ”を取り上げ、もし自分が同作品の登場人物と同じゲームへ参加することになった場合に、どのような行動を取るのかという心理に着目をしました。
今回のゲームでは、プレイヤーが自分で操作するのではなく、自分の分身であるAIが “本能“に従って試行錯誤しながら物語を進行していきます。
プレイヤーはゲーム開始時に出題されるいくつかの質問に答え、その回答に応じてキャラクターにパラメータが割り振られます。その後、プレイヤーは自分ではキャラクターを操作することはできず、そのキャラクター自身が割り振られたパラメータに応じて様々な行動を取り、ゴールを目指して物語が展開していくことになります。

Unreal Engine4でのビヘイビア・ツリーの一例
様々なノードを組み合わせ、状態に応じてキャラクターの動きを制御します。

TECHNOLOGY

ゲームAI

ゲームのキャラクターAIとしては、「ステート・マシン」や「ビヘイビア・ツリー」といった手法が古くから使われてきました。本プロジェクトにおいても、鬼や仲間のキャラクターのAIには「ビヘイビア・ツリー」を使用しています。ビヘイビア・ツリーは柔軟でカスタマイズしやすいため、”おにごっこ”においても特定のキャラクターAIの実装には最適な選択肢でした。

強化学習

本ゲームにおいては、プレイヤーのパラメータは性格診断の回答に応じて決定されます。そのため、回答結果に該当するプレイヤーのパラメータの数は膨大なものとなります。それら特定のパラメータ1つ1つに対応するビヘイビア・ツリーを用意するのはほぼ不可能に近いため、プレイヤーのAIに関しては、強化学習を用いて実装することに挑戦しました。強化学習は機械学習の一種で、エージェントが試行錯誤を通じて環境に次第に適応していくような学習の枠組みになります。

強化学習の仕組み

性格診断の結果に応じて、プレイヤーには「俊敏」「記憶」「敏感」「友好」「筋力」の5つのパラメータが割り振られます。そして、そのパラメータに応じて多様な振る舞いを生成する必要がありました。例えば「俊敏」が高いプレイヤーは一度に遠い距離まで移動することができる、「友好」が高いキャラは味方とうまく連携することができる、など様々なバリエーションが考えられます。強化学習を使用することで、このような多様な振る舞いを生成できないか、というのが今回の大きなチャレンジでした。

ゲーム×強化学習

今回は、すでに出来上がったゲーム環境に対して強化学習を行うのではなく、ゲーム開発と強化学習を並行して行う必要がありました。そのため、実装環境としてUnityが提供するML-Agentsを採用しました。ML-Agentsを使用することで、Unityで開発したゲーム環境内でキャラクターエージェントの訓練を行うことができます。ゲーム開発にUnity、そして強化学習のライブラリとしてML-Agentsを使用したことで、ゲームバランスの調整と学習の調整サイクルを素早く回すことができました。ゲームにおける強化学習の活用はまだまだ手探りな部分も多いため、このゲーム開発と学習のサイクル速度は非常に重要でした。

Unityでの学習時のデバッグ画面

学習フェーズでは作品のストーリーに合わせて、プレイヤーキャラクターは「できるだけ早く」「できるだけ鬼と遭遇しない」「できるだけ多くのドアを開ける」ように学習を進めていきます。この際、プレイヤーキャラクターにはパラメータとして性格診断の結果を組み込んでおり、その値の組み合わせに最適化された行動を取るようになります。このパラメータは「俊敏」「記憶」「敏感」「友好」「筋力」の5つにそれぞれ5段階で振り分けられ、各パラメータ毎にそれぞれ異なった効果を持ちます。「俊敏」は一度に移動できる距離、「記憶」は味方がゴールの位置を教えてくれた際の記憶時間、「敏感」は視野の広さ、「友好」は仲間の出現頻度、「筋力」は体力に影響します。その結果、「俊敏」が高い場合には鬼から素早く逃げることができ、「敏感」が高い場合には鬼の接近をいち早く感知することができます。このようにして、性格診断に応じて様々な特徴が生まれるようにゲームの設計を行いました。

実際のゲーム画面

ゲーム開発における強化学習の活用はまだ事例が少ないですが、大きな可能性を秘めています。今後も、強化学習を使用したプロシージャルなデザインやモデリング、エージェントベースのシミュレーションなど多分野への幅広い展開へと繋げていきたいと考えています。技術的な詳細については、Qosmo Labも併せてご覧ください。


ARTICLES


CREDITS

  • Planning / Production

    電通+電通テック+Qosmo+salvo

  • Creative Director

    尾上永晃(電通)

  • Planner

    岸裕真(電通)・水野泰雅(電通)・並木隼人(電通)

  • Director

    玉井裕和・小久保夏江(salvo)

  • Producer

    栗原孝行(電通テック)・川内史(電通テック)・高橋大輔

  • Project Manager

    安江沙希子(Qosmo)・安藤英洋(salvo)・山崎詩織(salvo)

  • Technical Director

    徳井直生(Qosmo)

  • Machine learning / Game Development

    中嶋亮介(Qosmo)

  • Programer / Researcher

    Bogdan Teleaga(Qosmo)

  • Sound Effect

    植草史仁

  • Account Exective

    山本和毅(電通)・水越悠輔(電通)・櫻井一起(電通)

  • Frontend Engineer

    池山春夢(salvo)・三上裕之(salvo)・田中義人(salvo)

  • Serverside Engineer

    川上祐介(KKcraft Inc.)

ご依頼・ご相談などは、こちらからお問い合わせください

CONTACT