ソフトバンク系AI企業、「大規模視覚言語モデル」資料を無料公開 開発の全体像や課題を95ページで解説

2025年6月17日、ソフトバンク傘下でAI開発を手がけるSB Intuitions(東京都港区)は、「視覚と言語を統合して理解するAI」であるVLM(視覚言語モデル)の基礎や応用事例をまとめた全95ページの資料を無料公開した。
VLM開発の流れや知見を一般向けに体系化
SB Intuitionsは、VL(※)の仕組みや設計プロセスを解説した資料「大規模視覚言語モデルの開発」をWeb上で無料公開した。
これは、2025年5月に開催された人工知能学会全国大会(JSAI2025)における講演資料を一般向けに編集・再構成したものだ。
同社でVLM開発に携わる4名の研究者が共同執筆しており、VLMのトレンド、学習データの構築方法、モデルの訓練・評価手法、さらに実用化に向けた課題までを網羅している。
また、自社開発のVLM「Sarashina2-Vision」の構築過程で得た知見も盛り込まれており、実務レベルの技術課題や対応策が具体的に記されている点が特徴だ。
研究者や開発者だけでなく、VLMに関心を持つ事業者や政策立案者にも有用な内容となっている。
※視覚言語モデル(VLM): 画像や映像などの視覚情報と言語情報を同時に処理するAIモデル。ChatGPTのようなLLMとは異なり、視覚認識と自然言語理解を統合して推論する能力を持つ。
企業や教育機関への波及に期待 開発の透明性向上も
資料の無料公開は、VLM技術の民主化や産業界との連携強化を目的とした取り組みと見られる。
特に、AIの透明性や説明可能性が求められる中で、開発の内部構造をオープンにする姿勢は国内外の研究者から注目される可能性がある。
VLMは、画像や動画といった視覚情報と自然言語を統合的に扱えるAIとして、生成AIの次の中核技術と目されている。
近年では、医療、製造、セキュリティなど多様な領域での応用が進んでおり、実務現場での導入が加速している。
一方で、VLMの開発には大規模データや計算資源、アルゴリズム選定など複雑な要素が絡むため、他企業や研究機関が本格的に取り組むには依然として高いハードルがある。
今回のような知見の共有は、産官学の垣根を越えた協調を促進し、今後の国際競争力の向上にもつながると期待される。