Microsoft、ゲームをリアルタイムで生成するAI「WHAMM」を公開 デモがプレイ可能に

2025年4月4日、米Microsoftは、プレイヤーの操作に応じてゲーム環境をリアルタイムで生成するAIモデル「WHAMM(World and Human Action MaskGIT Model)」を発表した。
古典的FPS『Quake II』を再現したデモも一般公開されている。
AIがゲームをリアルタイムで描き出す
WHAMMは、Microsoftが開発した新たなAIモデルで、プレイヤーの操作に即応しながらゲーム世界を構築する点が最大の特徴だ。
従来モデル「WHAM-1.6B」が1秒間に1フレーム前後の生成速度にとどまっていたのに対し、WHAMMでは毎秒10フレーム以上の描画が可能になり、生成速度は10倍以上になっている。
リアルタイム性が飛躍的に向上しており、実用段階に一歩近づいた。
技術面では、トークンをマスクしながら画像を反復的に生成する「MaskGIT」(※)アーキテクチャが採用されており、なめらかな描写が可能になった。
モデルは二層構造で設計されており、約5億パラメーターのBackbone Transformerが大枠を構築し、さらに約2億5000万パラメーターのRefinement Transformerが詳細を詰める。
それぞれのモデルが得意分野を担当することで、リアルタイム応答性を高めている。
今回のデモでは、1997年に発売されたFPS『Quake II』の一部をWHAMMが再現。プレイヤーはブラウザ経由で120秒間ゲームプレイを体験できる。
とはいえ、操作には遅延があり、敵との戦闘も現段階では精度が不十分だ。
数値UIやコンテキスト保持も課題として挙げられ、0.9秒間視界から外れたオブジェクトが消失する現象も確認されている。
※MaskGIT(マスクジット):トークン化された画像や映像の一部を「マスク(空白化)」し、AIがその空白を予測・修復する形で全体を生成していく技術。精度と速度の両立が可能とされる。
開発環境の変革と体験価値の再定義
Microsoftは今回の発表に際し、「WHAMMはリアルタイム生成ゲームの初期的実験であり、今後のインタラクティブメディアの可能性を探る一歩である」とコメントしている。
これまで手作業で構築されてきたゲームの背景やイベントが、プレイヤーの行動に応じて動的に生成される世界が現実味を帯びてきた。
一方で、現時点では課題も多い。
戦闘演出の不正確さや訓練範囲の限定、数値表示の誤差などは、エンタメコンテンツとしての完成度を妨げる要因だ。
加えて、ブラウザ経由の遅延はインタラクティブ性の足かせとなっており、本格的な実用には更なる改良が求められるだろう。
それでも、WHAMMのようなAIモデルは、従来のプリセット型のステージ設計とは本質的に異なる開発手法をもたらすポテンシャルを秘めていると言える。
一度限りのプレイ体験や、予測不能な物語生成が可能になることで、従来とは根本的に異なったゲーム体験ができるようになり、ゲームの可能性は大きく広がるだろう。