Google DeepMind、“爆速”の新AIモデル「Gemini Diffusion」公開 文章・コード生成に拡散技術を応用

2025年5月20日、米Google DeepMindは開発者向けイベント「Google I/O 2025」において、新型AIモデル「Gemini Diffusion」を発表した。拡散モデルの手法を応用し、従来を大きく上回る速度で文章やコードを生成できるという。
拡散技術で大幅高速化 毎秒1500単語の生成性能を実現
Gemini Diffusionは、ユーザーの入力から出力までの一連の処理を「わずか0.84秒」で開始できるという。文章の生成速度は1479トークン(1トークン=1単語)/秒に達し、約1500単語を1秒間で出力する計算になる。
このモデルは、画像生成で一般的に使われる拡散モデルの技術を文章やコード生成に応用した点が特徴である。
従来の大規模言語モデル(LLM)では、1トークンごとに予測・出力・再入力を繰り返す必要があり、時間的な制約や出力の整合性に課題があった。
一方で、拡散モデルは、ランダムなノイズから出力を徐々に洗練させていくプロセスを採用しており、トークンを順番に出力する方式ではない。そのため、エラーが途中で生じても修正が可能であり、数式やコードを含む複雑な出力に強みを持つ。
DeepMindは、この新手法が「Gemini 2.0 Flash Lite」と概ね同等の基礎性能を持ちつつも、より速く、特定の編集タスクでは高い精度を発揮するとしている。
現在、同社は開発者向けにウェイティングリストへの登録フォームを公開中であり、注目が集まっていると思われる。
生成AIの常識が変わるか 拡散方式の導入がもたらす可能性と課題
Gemini Diffusionの登場は、生成AIの出力速度と品質の常識に一石を投じる可能性がある。
これまで自然言語処理の分野では、LLMによる逐次生成が主流であり、それに伴う遅延やエラー蓄積が避けがたい課題だったと考えられる。
一方、拡散モデルを採用することで、生成開始までの待機時間を短縮できるほか、文章の一貫性や複雑な構造の精度も高められる点は、開発者にとって大きな利点となるだろう。
特にコードレビューや数式処理など、構文的整合性が重視される分野においては、従来よりも正確なサポートが可能になると見込まれる。
ただし、拡散方式の導入は現段階では、万能ではないと考えられる。
全てのタスクで既存モデルを凌駕するわけではなく、タスク内容に応じた選択が求められる。事実、同社も今回のモデルでは「数学やコードを含む編集タスクにおいて優れた能力を発揮する」としている。
それでも、Google DeepMindがこのアプローチに踏み切った背景には、生成AIの次なる進化の方向性として、より高速かつ柔軟な手法への転換が不可欠との判断があるのではないかと考えられる。
Gemini Diffusionが今後どのように広がっていくか、他社の動向を含め、注視されるだろう。