パナソニックHD、拡散型マルチモーダルAI「LaViDa」を開発

2025年11月27日、パナソニックHDとPRDCAはUCLAと共同で、文章生成を高速化した拡散型マルチモーダルAI「LaViDa」を開発したと発表した。本技術はNeurIPS 2025での国際発表も予定されている。
拡散モデル採用で高速化 マルチモーダルAI「LaViDa」登場
LaViDaは、画像やテキストなど複数の情報を同時に扱えるマルチモーダルAI(※)である。
従来の自己回帰型モデルでは文章量が増えるにつれて生成時間が延びる課題があったが、拡散モデルを用いることで生成速度の可変化を実現し、既存手法と同等精度で約2倍の高速化を達成した。
技術的には、文章を構成する各トークンをランダムにマスクし、マスクトークンから元のトークンを復元するアンマスキング処理を組み合わせる。これにより、文章全体の構造を踏まえた生成が可能になる。
また、アテンション計算の効率化を目的として、入力画像や質問文のトークンと解答文トークンとの計算を分離する独自手法「Prefix-DLM」を導入した。
さらに、学習時に相補的なマスキングを活用することで、文章内の全トークンが均等に学習され、画像の説明文や特定フォーマットの文章生成にも対応できるようになっている。
評価実験では、自然画像のQ&Aや数学・科学の証明問題、チャートやグラフを含むドキュメント解析などで既存の自己回帰型手法を上回る性能を示した。
今回の成果は、AI・ML分野の国際トップカンファレンスNeurIPS 2025に採択され、米サンディエゴで開催される同会議で発表される。パナソニックHDは、社内の業務効率化やAIエージェント活用に向け、LaViDaの実装を進める計画である。
※マルチモーダルAI:画像、テキストなど複数の種類の情報を同時に扱えるAI。
業務効率化と精度向上の可能性 マルチモーダルAI活用の課題も
LaViDaの導入は、ドキュメントや資料の統一フォーマット化による社内AIエージェント活用の促進につながると考えられる。
特に、複雑なチャートやグラフを含む資料の自動解釈や、画像内容を特定の文章形式に変換する作業で効率化が期待できる。
一方で、拡散モデルは生成速度が可変であるものの、性能と速度のトレードオフが存在する。高速生成を重視すると一部の精度が低下する可能性があり、業務用途によって適切なパラメータ設定が求められる。
また、マルチモーダルAIを業務に導入する際は、学習データの偏りや誤生成のリスクにも注意が必要である。画像やテキストの形式が異なる場合、AIが誤った判断を下すケースも想定される。
今後は、LaViDaの応用範囲拡大と精度向上が鍵になるだろう。
業務効率化だけでなく、顧客対応やコンテンツ生成など、多様な現場での活用が進めば、マルチモーダルAI技術の社会実装に大きな影響を与える可能性がある。
関連記事:
パナソニックHD、一人称視点から動作を再構成・予測するAI「UniEgoMotion」を開発

パナソニック、マルチモーダルAI「OmniFlow」発表 音・画像・文を相互変換

Googleが新型AI「Gemini 3」を発表 次世代知能が日常と開発現場を変革












