パナソニックが異種データ変換AI「OmniFlow」を発表 音声・画像・テキストを相互に変換可能

2025年6月4日、パナソニック ホールディングス株式会社と米パナソニックR&Dカンパニーオブアメリカは、UCLAとの共同研究により、テキスト・画像・音声を相互変換できるマルチモーダル生成AI「OmniFlow」の開発を発表した。
米国の研究機関と共同開発されたが、日本企業が主導する形で実装・実証を進めている。
少ない学習データで高精度生成 OmniFlowの革新性とは
パナソニックHDとPRDCAは、AI・Computer Vision分野で権威ある国際会議CVPR 2025に採択された新技術「OmniFlow」を開発した。
最大の特徴は、テキスト・画像・音声という異なるデータ形式を任意に変換できる、「Any-to-Any型(※)マルチモーダル生成AI」である点だ。
従来、こうしたマルチモーダルAIの構築には、大量かつ網羅的なデータセットが不可欠であった。
しかし、OmniFlowは各モーダルに特化したAIモデルを柔軟に組み合わせるアーキテクチャを採用し、3種すべてのデータが揃っていなくても高精度な変換が可能となる。
この手法により、学習データの用意にかかるコストを大幅に削減できるという。
実験では「テキスト→画像」「テキスト→音声」生成タスクにおいて、既存のAny-to-Any手法やタスク特化型のスペシャリストモデルと比較し、OmniFlowが最良の性能を記録した。
また、必要なデータサイズも従来の最大60分の1に抑えられており、効率性と精度を両立した形だ。
現場最適型マルチモーダルAIへ 応用範囲と課題は
OmniFlowの意義は、単なる生成精度の高さだけではない。
パナソニックHDは、同技術を工場や住宅といった物理空間への応用に展開し、その環境に即したデータを効率的に生成できるAIとしての活用を想定している。
たとえば、現場のセンサーデータや音声指示から画像や説明文を自動生成することで、作業効率や安全性の向上に貢献できる可能性などが考えられる。
さらに、OmniFlowの汎用性は、BtoB領域の営業支援にも波及するだろう。
テキスト入力から提案資料用の画像やプレゼン音声を自動生成するなど、生成AIによる商談準備の自動化を後押しする技術基盤としても期待できる。
ただし、実用化には幾つかの課題も残ると思われる。
生成物の正確性や信頼性の担保、そして業界・業務ごとの要件に応じたカスタマイズ対応が必要であろう。また、AIが生成する音声や画像の倫理的妥当性をどう保証するかという問題も無視できない。
OmniFlowが描く「リアルな作業環境向けマルチモーダルAI」は、生成AIの汎用性と現場密着型の実用性を両立する次のステージとして、国際的な注目を集めている。
今後の応用や、商用展開の動向にも注視していきたい。
※Any-to-Any型:複数の異なるデータモダリティ(形式)を任意に変換可能とするAIモデル構成の概念。