パナソニック、新技術「SparseVLM」でAIの推論速度を約2倍に高速化

2025年7月4日、パナソニックホールディングスは視覚言語モデル(VLM)の推論を高速化する新技術「SparseVLM」を発表した。
プロンプトに関連する視覚情報だけを選別処理することで、従来比で約2倍の速度を実現する。
プロンプト関連情報に特化して処理 推論時間を48.7%高速化
SparseVLMは、視覚と言語の情報を統合的に処理するAIモデルであるVLM(※)に特化した軽量化技術である。
従来のVLMは、プロンプトと無関係な視覚情報まで網羅的に処理していたため、演算量が増大し、推論時間の長さが課題となっていた。
従来は視覚情報のうち似た情報を統合して処理する「トークンマージング」や、一定基準で不要な情報を排除する「カットオフ」などの方法が用いられてきた。
ただしこれらの方法には、プロンプトの内容を考慮していなかった点に限界があった。
パナソニックが開発したSparseVLMは、プロンプトに含まれるキーワードに基づいて画像内の関連領域を特定し、その領域に限定して視覚特徴を抽出・処理することで、効率的な推論を実現する。
実際の評価では、従来モデルと比較して89.3%の性能を維持しながら、48.3%高速化し、演算量(FLOPs)は71.9%削減された。
実用面では、推論時間を48.7%抑制することにより、約2倍の高速化を実現。約460ミリ秒かかっていた推論が220〜230ミリ秒にまで短縮されたという。
これにより、リアルタイム性が求められる場面での応答性が大幅に向上し、AIアシスタントなどのユーザー体験も向上すると期待されている。
技術開発は、米カリフォルニア大学バークレー校のカート・カウザー氏との共同研究の成果として発表された。
※視覚言語モデル(VLM):画像・動画などの視覚情報と、テキストなどの言語情報を統合的に理解し、複合的な推論を行うAIモデル。人間のように複数の情報源を横断的に処理する能力が特徴。
AI応答のリアルタイム化で新たな応用領域にも波及か
SparseVLMがもたらす最大の利点は、計算量・電力消費・発熱を抑制しつつ、リアルタイム性の高い推論を可能にする点にある。
これは遅延が致命的となる自動運転や産業ロボット、さらには家庭向けAI製品においても大きな意味を持つ。
パナソニックは、AIを在庫管理やレシピ提案に活用する冷蔵庫、幼児程度の認知機能をもつ「弱いロボット」ニコボ、BtoB領域では最適操業支援やサイバーセキュリティなど、多様な分野に展開してきた。
SparseVLMの実装により、これら既存製品の性能強化はもちろん、新規アプリケーションへの応用も期待される。
ただ、抽出対象の視覚情報が曖昧だった場合、プロンプト関連領域の誤認や情報欠損が発生しやすくなる点は懸念される。
さらに、他社の高度な生成AIとの比較において、純粋なパフォーマンスやスケーラビリティの観点ではまだ未知数な部分も残されている。
パナソニックは、今後もサイバーフィジカルシステムの中核としてAI技術を据え、研究から製品実装までを一貫して展開する構えである。