Microsoft、触覚認識ロボティクスAI「Rho-alpha」発表 人間に近い動作へ

2026年1月21日、米Microsoft Researchは、同社初となるロボティクス向けAIモデル「Rho-alpha(ρα)」を発表した。視覚や言語に加え、触覚認識を統合した点が特徴で、ロボットが物理世界でより高度な作業を行う基盤になるとされる。
Microsoft、触覚統合型ロボティクスAI「Rho-alpha」を発表
Rho-alphaは、Microsoftの小型言語モデル群「Phi」シリーズを基盤とするVision-Language-Action(VLA※)モデルを拡張し、触覚センシングを加えた「VLA+モデル」として開発された。自然言語による指示を、視覚情報と触覚フィードバックを統合して解釈し、ロボットの制御信号へ変換する仕組みを持つ。
特徴的なのは、両手を同時に使うバイマニュアル処理への対応である。これにより、物体を押さえながら操作する、力加減を調整しつつ持ち替えるといった、人間に近い動作が可能になるとされる。従来の視覚・言語中心のロボットAIでは困難だった工程への適用が視野に入る。
学習には、実世界での操作デモンストレーションデータに加え、シミュレーション環境で生成した軌道データ、Web規模の視覚言語データが用いられた。触覚データ不足を補うため、NVIDIAのIsaac Sim(※)などを活用した合成データ生成も組み込まれている。
Microsoftは現在、デュアルアーム構成やヒューマノイドロボットなど複数のプラットフォームで評価を進めている。関心を持つ組織向けにはEarly Access Programを提供し、将来的にはMicrosoft Foundry経由での展開も計画している。
※Vision-Language-Action(VLA):視覚情報、言語理解、行動生成を統合し、指示から実際の動作までを一貫して扱うAIモデルの枠組み。
※Isaac Sim:NVIDIAが提供するロボット開発向けシミュレーション基盤。仮想環境で大量の学習データを生成できる点が特徴。
触覚AIが拓く可能性と課題 人とロボット協調は進むか
Rho-alphaがもたらす最大のメリットは、ロボットが接触や力の変化を理解し、環境に応じて動作を調整できる点にある。これにより、製造、物流、医療補助など、これまで自動化が難しかった領域での活用が広がる可能性がある。また、人間と同じ空間で作業する協調型ロボットの実用性も高まると考えられる。
一方で、課題も明確だ。触覚センサーのコストや耐久性、現場ごとの差異をどう学習データに反映させるかは依然として難しい。高度な判断をAIに委ねるほど、安全性や責任分担を巡る議論も避けられないだろう。
それでも、Microsoftが研究成果を外部に開放し、実装を前提に進めている点は注目に値する。触覚を備えたロボティクスAIは、単なる自動化を超え、人と協調する知的な労働力へ進化する起点になる可能性がある。
関連記事:
ノートパソコンでもAIのロボ操作が可能になるか Hugging Face、新ロボティクスAI「SmolVLA」をリリース












