パナソニック、マルチモーダルAI「OmniFlow」発表　音・画像・文を相互変換

2025-06-05

2025年6月4日、パナソニックホールディングス株式会社と米パナソニックR＆Dカンパニーオブアメリカは、UCLAとの共同研究により、テキスト・画像・音声を相互変換できるマルチモーダル生成AI「OmniFlow」の開発を発表した。
米国の研究機関と共同開発されたが、日本企業が主導する形で実装・実証を進めている。

少ない学習データで高精度生成　OmniFlowの革新性とは

パナソニックHDとPRDCAは、AI・Computer Vision分野で権威ある国際会議CVPR 2025に採択された新技術「OmniFlow」を開発した。
最大の特徴は、テキスト・画像・音声という異なるデータ形式を任意に変換できる、「Any-to-Any型（※）マルチモーダル生成AI」である点だ。

従来、こうしたマルチモーダルAIの構築には、大量かつ網羅的なデータセットが不可欠であった。
しかし、OmniFlowは各モーダルに特化したAIモデルを柔軟に組み合わせるアーキテクチャを採用し、3種すべてのデータが揃っていなくても高精度な変換が可能となる。
この手法により、学習データの用意にかかるコストを大幅に削減できるという。

実験では「テキスト→画像」「テキスト→音声」生成タスクにおいて、既存のAny-to-Any手法やタスク特化型のスペシャリストモデルと比較し、OmniFlowが最良の性能を記録した。
また、必要なデータサイズも従来の最大60分の1に抑えられており、効率性と精度を両立した形だ。

現場最適型マルチモーダルAIへ　応用範囲と課題は

OmniFlowの意義は、単なる生成精度の高さだけではない。
パナソニックHDは、同技術を工場や住宅といった物理空間への応用に展開し、その環境に即したデータを効率的に生成できるAIとしての活用を想定している。
たとえば、現場のセンサーデータや音声指示から画像や説明文を自動生成することで、作業効率や安全性の向上に貢献できる可能性などが考えられる。

さらに、OmniFlowの汎用性は、BtoB領域の営業支援にも波及するだろう。
テキスト入力から提案資料用の画像やプレゼン音声を自動生成するなど、生成AIによる商談準備の自動化を後押しする技術基盤としても期待できる。

ただし、実用化には幾つかの課題も残ると思われる。
生成物の正確性や信頼性の担保、そして業界・業務ごとの要件に応じたカスタマイズ対応が必要であろう。また、AIが生成する音声や画像の倫理的妥当性をどう保証するかという問題も無視できない。

OmniFlowが描く「リアルな作業環境向けマルチモーダルAI」は、生成AIの汎用性と現場密着型の実用性を両立する次のステージとして、国際的な注目を集めている。
今後の応用や、商用展開の動向にも注視していきたい。

※Any-to-Any型：複数の異なるデータモダリティ（形式）を任意に変換可能とするAIモデル構成の概念。

🚀 AI・Web3業界への転職を考えているあなたへ

「最先端技術に関わる仕事がしたい」「成長市場でキャリアを築きたい」そんな想いを抱いていませんか？

Plus Web3は、AI・Web3領域などテクノロジーに投資する企業の採用に特化したキャリア支援サービスです。

運営する株式会社プロタゴニストは、上場企業グループの安定した経営基盤のもと
10年以上のコンサルタント歴を持つ転職エージェントが
急成長する先端技術分野への転職を専門的にサポートしています。

こんな方におすすめです

▼成長産業であるAI・Web3業界で新しいキャリアを始めたい
▼「未経験だけど挑戦してみたい」という熱意がある
▼今のスキルを最先端技術分野でどう活かせるか相談したい
▼表に出ない優良企業の情報を知りたい

業界に精通したキャリアアドバイザーが、
あなたの経験・スキル・志向性を丁寧にヒアリングし、
最適な企業とポジションをマッチングします。

キャリア相談する