メインコンテンツへスキップ
最新ニュース 4分で読める

Google、逐次生成の常識を覆す「DiffusionGemma」発表 ローカルAIを最大4倍高速化する新手法とは

PlusWeb3 編集部
PlusWeb3 編集部 Web3・AI専門メディア

2026年6月10日、米Googleは実験的なオープンモデル「DiffusionGemma」を発表した。従来の大規模言語モデル(LLM)が採用してきた逐次生成ではなく、文章を一括生成する拡散型アプローチを導入し、ローカル環境で最大4倍の高速なテキスト生成を実現するという。研究者や開発者向けにApache 2.0ライセンスで公開された。

文章を一括生成 DiffusionGemmaの実力

DiffusionGemmaは、GoogleのGemma 4シリーズとGeminiの研究成果をもとに開発された実験的なテキスト生成モデルである。最大の特徴は、従来のLLMのように単語を左から一つずつ予測する「逐次生成」ではなく、256トークン単位の文章ブロックを同時に生成する点にある。

この手法により、専用GPU上での推論速度は大幅に向上した。Googleによれば、NVIDIA H100では毎秒1000トークン超、GeForce RTX 5090でも毎秒700トークン超を実現し、従来比で最大4倍の高速化を達成したという。

モデルは26B規模のMixture of Experts(MoE)(※1)構成を採用する一方、推論時に有効化されるのは38億パラメータのみである。そのため、高性能な民生向けGPUでも運用しやすい設計となった。量子化した状態では18GBのVRAMで動作可能としている。

また、双方向アテンション(※2)を採用していることも特徴だ。生成中のすべてのトークンが相互に参照できるため、コード補完や文章の部分修正、数独のように将来の情報を考慮する必要があるタスクにも適している。GoogleはモデルをApache 2.0ライセンスで公開し、Hugging Faceなどを通じて研究者や開発者による検証を促している。

※1 Mixture of Experts(MoE):複数の専門モデルの中から必要なものだけを動作させる手法。高性能と計算効率の両立を図れる。

※2 双方向アテンション:文章の前後の文脈を同時に参照しながら処理する仕組み。未来の情報も踏まえた推論が可能となる。

ローカルAIの追い風となる一方、品質には課題も

DiffusionGemmaは、ローカルAIの活用を加速させる可能性を秘めている。これまで個人や企業がオンプレミス環境で生成AIを利用する場面では、応答速度の遅さが課題として指摘されることも少なくなかった。リアルタイム編集や対話型アプリケーションなどでは、待ち時間の短縮がユーザー体験を左右するため、高速化による恩恵は大きいと考えられる。

一方で、Googleは出力品質について標準的なGemma 4には及ばないと説明している。速度を優先した設計であることを踏まえると、高精度な回答や本番環境での安定運用を重視する用途では、引き続きGemma 4のような従来型モデルが選択される可能性もある。また、多数のリクエストを処理するクラウド環境では、高速化による効果が限定的になるとの見方もできる。

それでも、画像生成AIで主流となった拡散モデルの考え方がテキスト生成へ本格的に応用された意義は大きい。「AIは一文字ずつ生成するもの」という前提が見直されれば、ローカルAIの設計思想そのものが変化する可能性もある。DiffusionGemmaは実験的な取り組みではあるものの、生成AIの次世代アーキテクチャの方向性を占う試金石として注目を集めることになりそうだ。

Google ニュースリリース

関連記事:

Google、ノートPC上で動く軽量マルチモーダルAI「Gemma 4 12B」公開 ローカル完結型エージェント開発が加速

Google、Gemma 4発表 AIエージェント実装を加速するオープンモデル

Share this article コピーしました
WRITTEN BY

PlusWeb3 編集部

Web3・AI専門メディア

PlusWeb3 編集部は、ブロックチェーン・Web3・AIの最新動向をわかりやすくお届けする専門メディアチームです。業界経験豊富な編集者とリサーチャーが、信頼性の高い情報を厳選してお届けします。

コピーしました

Web3・AI・ディープテック領域のキャリアに興味がありますか?

業界特化メディアを運営する専門エージェントが、企業のカルチャー・技術スタック・選考ポイントまで踏まえてキャリアをご提案します。相談は完全無料です。