米Googleはロボット向けAIモデル「Gemini Robotics ER 1.6」を発表した。
視覚と空間認識能力を強化し、Google検索の呼び出しやアナログ計器の読解にも対応する。
物理世界を読む推論能力が進化
2026年4月14日にGoogleが発表したGemini Robotics ER 1.6は、従来モデルより空間および物理的推論能力を高めたロボット用AIである。
物体の検出精度が向上し、個数を数える、最も少ない物体を特定する、特定のカップに入る大きさの物体を示すといった複雑な指示にも応答できるようになった。
周囲の状況を踏まえた判断にも対応する点が特徴だ。「ドアは開いているか」といった空間認識を伴う推論に加え、Google検索をネイティブに呼び出して情報を取得し、視覚・言語・行動モデルやサードパーティ製のユーザー定義関数と組み合わせながらタスクを実行できる。
複数のカメラ映像の関係を理解するマルチビュー推論機能も強化された。
新機能として加わったのが、アナログ計器の読解である。画像を拡大し、比率や間隔を推定して計測値を読み取る「Agentic Vision(※)」により、前世代のGemini Robotics-ER 1.5を大きく上回る性能を示したという。
さらにGoogleは、「液体を扱わない」「20kgを超える物体を持ち上げない」といった物理的な安全制約を順守する能力や、周囲の危険を識別する能力も向上したと説明している。
※Agentic Vision:視覚情報をもとに対象を拡大し、比率や間隔を推定しながら数値や状態を読み取る仕組み。Gemini Robotics ER 1.6では、アナログ計器の読解精度を高める中核技術として使われている。
実用化前進も安全設計が焦点に
今回の進化により、ロボットは命令を受けて動くだけでなく、現場の状況を見て判断する段階へ近づいたと言える。
特に、設備点検や施設内作業のように、計器の確認や空間把握が求められる領域では導入余地が広がる可能性がある。
検索機能や外部関数との連携も、現実の業務に合わせてロボットの役割を拡張する材料になりそうだ。
一方で、高度な推論能力がそのまま実用化の加速につながるとは限らない。物理世界で動作するロボットは、判断の正確さに加え、安全制約を安定して守れるかが導入の前提になるはずだ。
Google自身も安全上の危険の識別や重量・液体に関する制約順守を強調しており、性能競争だけでなく、安全性の設計と検証が重要な評価軸になると考えられる。
今後は、デジタル上の情報処理と現実空間での行動をどこまで自然に接続できるかが焦点となるだろう。
Googleが示した「物理世界について推論する能力」は、ロボット活用の範囲を広げる鍵になりうる半面、現場で信頼されるには一貫した判断と安全運用の積み上げが欠かせないと言える。
関連記事:
Google DeepMind、汎用ロボットAI「Gemini Robotics 1.5」発表 複雑作業に自律対応
