Google、次世代ロボットAI「Gemini Robotics」を発表　人間の言葉を理解し複雑作業をこなす新技術

2025-03-13

GoogleのAi研究所DeepMindは、2025年3月12日、ロボットの能力を飛躍的に向上させる新AIモデル「Gemini Robotics」を発表した。このモデルは人間の自然言語指示を理解し、未経験の状況にも適応できる汎用性を備え、ロボット工学における重要な進歩となっている。

従来の2倍の性能と高度な環境適応能力を実現

Gemini Roboticsは多岐に渡るタスクにおいて、先行モデルを上回る性能を示し、平均では2倍の性能上昇を示した。
特に、事前学習で経験していない状況で効果的にタスクを遂行する能力に優れているという。紙を折る、物品を梱包するといった繊細な動きを要する作業も可能であり、人間との自然なコミュニケーションを通じて指示を理解し実行する。

このモデルには2つのバリエーションが用意されている。基本モデルの「Gemini Robotics」は様々なロボットハードウェアに対応した視覚-言語-行動（VLA）モデル（※）で、幅広い用途に適応する。
一方、「Gemini Robotics-ER」は空間理解と具現化推論に特化したモデルで、エンジニアが独自のプログラムを実行できる機能を備えているのが特徴だ。

安全性への配慮も強調している。
特にGemini Robotics-ERには衝突回避や安定性制御などの安全対策が組み込まれ、実世界での安全性を確保する仕組みを採用しているとのことである。

※視覚-言語-行動（VLA）モデル：カメラなどから得た視覚情報と言語指示を理解し、それに基づいて物理的な動作を決定・実行するAIシステム。ロボットが人間のように環境を理解し適切に行動するための基盤技術となる。

主要ロボットメーカーと協力し応用分野を拡大へ

Google DeepMindはこの技術を実用化するため、複数の大手ロボットメーカーとの提携を進めている。
ヒューマノイドロボットを開発するApptronikとは、Gemini 2.0技術を活用した新型ロボットの開発を共同で行っているほか、Agile RobotsやBoston Dynamicsといった企業とも協力し、実世界環境での検証を重ねていくと発表された。

この技術革新がもたらす影響は産業用途にとどまらない。
家庭内の雑用から工場での複雑な作業まで、人間の代わりにロボットが遂行できる作業の範囲が大幅に広がる可能性を秘めている。特に自然言語による指示で動作するため、専門知識のない一般ユーザーでも高度なロボットを操作できるようになることが期待される。

ロボットに特化したAIとして競合になりうるのはNvidiaだ。
Nvidiaは「NVIDIA Cosmos」という自動操縦、運転用のAIシステムを制作しており、「フィジカルAI」と呼び開発を進めている。今後、ロボティクス向けのAIの競争は激化すると予想され、それによってこの分野が発展していくと見込まれている。

参考 :

NVIDIAが新しいAIの動画を公開　ロボットを操る「フィジカルAI」の拓く未来は

🚀 AI・Web3業界への転職を考えているあなたへ

「最先端技術に関わる仕事がしたい」「成長市場でキャリアを築きたい」そんな想いを抱いていませんか？

Plus Web3は、AI・Web3領域などテクノロジーに投資する企業の採用に特化したキャリア支援サービスです。

運営する株式会社プロタゴニストは、上場企業グループの安定した経営基盤のもと
10年以上のコンサルタント歴を持つ転職エージェントが
急成長する先端技術分野への転職を専門的にサポートしています。

こんな方におすすめです

▼成長産業であるAI・Web3業界で新しいキャリアを始めたい
▼「未経験だけど挑戦してみたい」という熱意がある
▼今のスキルを最先端技術分野でどう活かせるか相談したい
▼表に出ない優良企業の情報を知りたい

業界に精通したキャリアアドバイザーが、
あなたの経験・スキル・志向性を丁寧にヒアリングし、
最適な企業とポジションをマッチングします。

キャリア相談する