2026年6月10日、米Googleは実験的なオープンモデル「DiffusionGemma」を発表した。従来の大規模言語モデル(LLM)が採用してきた逐次生成ではなく、文章を一括生成する拡散型アプローチを導入し、ローカル環境で最大4倍の高速なテキスト生成を実現するという。研究者や開発者向けにApache 2.0ライセンスで公開された。
文章を一括生成 DiffusionGemmaの実力
DiffusionGemmaは、GoogleのGemma 4シリーズとGeminiの研究成果をもとに開発された実験的なテキスト生成モデルである。最大の特徴は、従来のLLMのように単語を左から一つずつ予測する「逐次生成」ではなく、256トークン単位の文章ブロックを同時に生成する点にある。
この手法により、専用GPU上での推論速度は大幅に向上した。Googleによれば、NVIDIA H100では毎秒1000トークン超、GeForce RTX 5090でも毎秒700トークン超を実現し、従来比で最大4倍の高速化を達成したという。
モデルは26B規模のMixture of Experts(MoE)(※1)構成を採用する一方、推論時に有効化されるのは38億パラメータのみである。そのため、高性能な民生向けGPUでも運用しやすい設計となった。量子化した状態では18GBのVRAMで動作可能としている。
また、双方向アテンション(※2)を採用していることも特徴だ。生成中のすべてのトークンが相互に参照できるため、コード補完や文章の部分修正、数独のように将来の情報を考慮する必要があるタスクにも適している。GoogleはモデルをApache 2.0ライセンスで公開し、Hugging Faceなどを通じて研究者や開発者による検証を促している。
※1 Mixture of Experts(MoE):複数の専門モデルの中から必要なものだけを動作させる手法。高性能と計算効率の両立を図れる。
※2 双方向アテンション:文章の前後の文脈を同時に参照しながら処理する仕組み。未来の情報も踏まえた推論が可能となる。
ローカルAIの追い風となる一方、品質には課題も
DiffusionGemmaは、ローカルAIの活用を加速させる可能性を秘めている。これまで個人や企業がオンプレミス環境で生成AIを利用する場面では、応答速度の遅さが課題として指摘されることも少なくなかった。リアルタイム編集や対話型アプリケーションなどでは、待ち時間の短縮がユーザー体験を左右するため、高速化による恩恵は大きいと考えられる。
一方で、Googleは出力品質について標準的なGemma 4には及ばないと説明している。速度を優先した設計であることを踏まえると、高精度な回答や本番環境での安定運用を重視する用途では、引き続きGemma 4のような従来型モデルが選択される可能性もある。また、多数のリクエストを処理するクラウド環境では、高速化による効果が限定的になるとの見方もできる。
それでも、画像生成AIで主流となった拡散モデルの考え方がテキスト生成へ本格的に応用された意義は大きい。「AIは一文字ずつ生成するもの」という前提が見直されれば、ローカルAIの設計思想そのものが変化する可能性もある。DiffusionGemmaは実験的な取り組みではあるものの、生成AIの次世代アーキテクチャの方向性を占う試金石として注目を集めることになりそうだ。
関連記事:
Google、ノートPC上で動く軽量マルチモーダルAI「Gemma 4 12B」公開 ローカル完結型エージェント開発が加速