GoogleのGeminiに「思考レベル調整ダイヤル」搭載 背後にある推論モデルのコスト増問題

2025年4月17日、GoogleのDeepMindが最新のAIモデル「Gemini Flash 2.5」に新機能「思考レベル調整ダイヤル」を搭載したことを発表した。
この機能は、AIがどれだけ“考えるか”を制御し、過剰な推論による実行コストや環境負荷を抑えることを目的としたものだ。
「推論」によるAIの強化は有用である一方消費コストが高い傾向にあり、この問題が反映された形だ。
AIの「考えすぎ」問題に対処
AIの性能向上を目指す潮流はこれまで、大量のトレーニングデータの投入と人間によるフィードバック改善が主流であった。
しかし、MIT Technology Reviewによると、2024年末以降、大手AI企業は「推論」(※)という第三の軸に注目し始めたという。
推論モデルは問題に対し、より論理的で時間をかけたアプローチを試みる点が特徴であり、既存モデルを抜本的に作り直すことなく性能を底上げできる点が評価されてきた。
ただし、推論が高度になればなるほど、AIは多くの計算資源を消費するようになる。
DeepMindによれば、一部のタスクにおいて推論機能を最大限に活用した場合、1回の処理コストが200ドルを超えることもあるという。
これは通常の推論オフ時の約6倍に相当し、特に簡単なプロンプトへの応答でも必要以上に考えることでコスト増と効率低下を招く。
こうした課題に対応するのが、今回発表された「思考レベル調整ダイヤル」である。
これは、AIがどれだけ計算力を使って推論を行うかを細かく設定できる機能だ。
高度な思考を要する研究レポートやプログラミング支援にはダイヤルを上げ、簡単な問い合わせには最低限に抑えることで、柔軟かつ経済的な運用が可能になる。
※推論(reasoning):
AIが複数の情報や条件をもとに論理的に結論を導き出す能力。単なる記憶検索ではなく、思考プロセスを模倣する処理を指す。
高性能化と持続可能性のジレンマ
推論モデルは高いパフォーマンスを発揮する一方、コスト面では課題も大きい。
AIの思考の制御に失敗した場合、モデルがいわゆる「無限ループ」に陥ったり、非効率な思考を続ける事例がすでに多数報告されている。
Hugging Faceのエンジニア、ナサン・ハビブ氏は、「AIが考えすぎるケースは非常に多い」と指摘している。
企業は自社のAIをより賢く見せたいという焦りから、「釘もないのにハンマー(=思考モデル)を振り回している状態」だというのだ。
推論時間の増加はエネルギー消費の急拡大を招く。
現時点で、すでにAIの推論出力生成にかかるコストは、モデルのトレーニングフェーズを上回りつつある。
OpenAIも、今後は「非・思考型モデル」はリリースしないと宣言するなど、推論モデルはAI開発の主流と言える。
一方で、コストの高い推論モデルは、コストの増加や「考えすぎ」といった問題を引き起こしつつある。
今回Googleが思考レベルを調整可能にしたのは、こうした問題に対する一つの解決策と言えるだろう。
ただ、現在の主流が推論モデルである以上、今後もコスト増加の問題は避けられない。
各社の競争がどのような恩恵をもたらすのか、消費者は慎重に見極める必要がある。