Google、新AIモデル「Gemini 2.5 Flash」を発表 性能とコスト効率を両立へ

2025年4月17日(米国時間)、Googleは新たな生成AIモデル「Gemini 2.5 Flash」の初期バージョンのリリースを発表した。膨大なコンテキストウィンドウと柔軟な思考制御機能を備え、特に開発者に向けた高い費用対効果を打ち出している点が特徴である。
最大100万トークン対応の軽量モデル
「Gemini 2.5 Flash」は、同社がすでに展開している「Gemini 2.0 Flash」をベースに設計され、推論性能を大幅に高めたモデルである。このモデルは、ユーザーの問いに対して、より包括的かつ即応的な回答を返す構造を採用しており、従来モデルと比較して実用性を強化した。
テキストや画像に加え、動画や音声を含むマルチモーダルなプロンプトに対応することにより、幅広い開発シーンに適応できる汎用性を持つ。
特に注目されるのが、最大100万トークンまで処理可能なコンテキストウィンドウ(※1)であり、長く複雑な文脈を保持した上で、高精度な応答生成を可能にしている。なお、ナレッジカットオフは2025年1月となる。
また、 「Gemini 2.5 Flash」は、単なる性能向上だけでなく、運用コストの最適化にも焦点が当てられている。特筆すべきは「thinking budget(※2)」と呼ばれる新機能の導入だ。これは、開発者がAIにどの程度の推論力を使わせるかを事前に設定できる仕組みで、必要な場面にのみ計算リソースを割り当てられるというものだ。
これにより、トークン使用量に応じた料金は100万トークンあたり60セント(約85円)から3.50ドル(約500円)の範囲で抑えられ、過剰な推論によるコスト肥大を防ぐことが可能になるという。
※1 コンテキストウィンドウ:AIモデルが一度に読み取り・保持できる情報量のこと。数が大きいほど長文や複雑な文脈に対応できる。
※2 thinking budget:AIがどれほど思考(推論)を深めるかを制御する開発者向けの設定機能。無駄な計算資源の使用を抑え、コスト管理を効率化できる。
OpenAI「o4-mini」には及ばず 精度と効率の両立が課題か
Googleは、「Gemini 2.5 Flash」がチャットボット性能を比較評価する「Chatbot Arena」の「Hard Prompts」部門において、Gemini 2.5 Proに次ぐ評価を受け、高いパフォーマンスを示していると明らかにした。
一方で、「Humanity’s Last Exam」などの業界ベンチマークでは12%のスコアを記録し、「Claude 3.7 Sonnet」や「DeepSeek-R1」など主要な競合モデルを一部上回る結果を示しているものの、OpenAIの「o4-mini(軽量モデル)」には及ばなかったとされ、性能面での一貫性には課題が残る可能性がある。
米国のAI分野では、軽量かつ高速な推論を求める声が高まっており、マルチモーダル対応と大規模文脈処理が可能であるにもかかわらず、価格面での競争力も保持している点は、特に予算管理が厳しいスタートアップなどの企業にとって魅力的な選択肢となるだろう。
しかし、「thinking budget」の活用は高度な設計判断を要するため、設定を誤れば出力精度にばらつきが生じる懸念もある。
Googleが今後どのように精度向上と処理効率を両立させるかが鍵となりそうだ。