Google、次世代ロボットAI「Gemini Robotics」を発表 人間の言葉を理解し複雑作業をこなす新技術

GoogleのAi研究所DeepMindは、2025年3月12日、ロボットの能力を飛躍的に向上させる新AIモデル「Gemini Robotics」を発表した。このモデルは人間の自然言語指示を理解し、未経験の状況にも適応できる汎用性を備え、ロボット工学における重要な進歩となっている。
従来の2倍の性能と高度な環境適応能力を実現
Gemini Roboticsは多岐に渡るタスクにおいて、先行モデルを上回る性能を示し、平均では2倍の性能上昇を示した。
特に、事前学習で経験していない状況で効果的にタスクを遂行する能力に優れているという。紙を折る、物品を梱包するといった繊細な動きを要する作業も可能であり、人間との自然なコミュニケーションを通じて指示を理解し実行する。
このモデルには2つのバリエーションが用意されている。基本モデルの「Gemini Robotics」は様々なロボットハードウェアに対応した視覚-言語-行動(VLA)モデル(※)で、幅広い用途に適応する。
一方、「Gemini Robotics-ER」は空間理解と具現化推論に特化したモデルで、エンジニアが独自のプログラムを実行できる機能を備えているのが特徴だ。
安全性への配慮も強調している。
特にGemini Robotics-ERには衝突回避や安定性制御などの安全対策が組み込まれ、実世界での安全性を確保する仕組みを採用しているとのことである。
※視覚-言語-行動(VLA)モデル:カメラなどから得た視覚情報と言語指示を理解し、それに基づいて物理的な動作を決定・実行するAIシステム。ロボットが人間のように環境を理解し適切に行動するための基盤技術となる。
主要ロボットメーカーと協力し応用分野を拡大へ
Google DeepMindはこの技術を実用化するため、複数の大手ロボットメーカーとの提携を進めている。
ヒューマノイドロボットを開発するApptronikとは、Gemini 2.0技術を活用した新型ロボットの開発を共同で行っているほか、Agile RobotsやBoston Dynamicsといった企業とも協力し、実世界環境での検証を重ねていくと発表された。
この技術革新がもたらす影響は産業用途にとどまらない。
家庭内の雑用から工場での複雑な作業まで、人間の代わりにロボットが遂行できる作業の範囲が大幅に広がる可能性を秘めている。特に自然言語による指示で動作するため、専門知識のない一般ユーザーでも高度なロボットを操作できるようになることが期待される。
ロボットに特化したAIとして競合になりうるのはNvidiaだ。
Nvidiaは「NVIDIA Cosmos」という自動操縦、運転用のAIシステムを制作しており、「フィジカルAI」と呼び開発を進めている。今後、ロボティクス向けのAIの競争は激化すると予想され、それによってこの分野が発展していくと見込まれている。
参考 :