ソフトバンク系AI企業、「大規模視覚言語モデル」資料を無料公開　開発の全体像や課題を95ページで解説

2025-06-18

2025年6月17日、ソフトバンク傘下でAI開発を手がけるSB Intuitions（東京都港区）は、「視覚と言語を統合して理解するAI」であるVLM（視覚言語モデル）の基礎や応用事例をまとめた全95ページの資料を無料公開した。

VLM開発の流れや知見を一般向けに体系化

SB Intuitionsは、VL（※）の仕組みや設計プロセスを解説した資料「大規模視覚言語モデルの開発」をWeb上で無料公開した。
これは、2025年5月に開催された人工知能学会全国大会（JSAI2025）における講演資料を一般向けに編集・再構成したものだ。

同社でVLM開発に携わる4名の研究者が共同執筆しており、VLMのトレンド、学習データの構築方法、モデルの訓練・評価手法、さらに実用化に向けた課題までを網羅している。

また、自社開発のVLM「Sarashina2-Vision」の構築過程で得た知見も盛り込まれており、実務レベルの技術課題や対応策が具体的に記されている点が特徴だ。
研究者や開発者だけでなく、VLMに関心を持つ事業者や政策立案者にも有用な内容となっている。

※視覚言語モデル（VLM）：画像や映像などの視覚情報と言語情報を同時に処理するAIモデル。ChatGPTのようなLLMとは異なり、視覚認識と自然言語理解を統合して推論する能力を持つ。

2025年度人工知能学会全国大会のチュートリアル講演の資料（全95ページのスライド）を公開しました📝

大規模視覚言語モデル（VLM）の基礎や現在の動向を解説しています。

詳しくはこちら👇️https://t.co/imKXiF2OCN

皆様のVLM開発・研究の一助となれば幸いです。 https://t.co/EOi2Ih6KrD pic.twitter.com/YRndVxTbWL
— SB Intuitions (@sbintuitions) June 17, 2025

企業や教育機関への波及に期待　開発の透明性向上も

資料の無料公開は、VLM技術の民主化や産業界との連携強化を目的とした取り組みと見られる。
特に、AIの透明性や説明可能性が求められる中で、開発の内部構造をオープンにする姿勢は国内外の研究者から注目される可能性がある。

VLMは、画像や動画といった視覚情報と自然言語を統合的に扱えるAIとして、生成AIの次の中核技術と目されている。
近年では、医療、製造、セキュリティなど多様な領域での応用が進んでおり、実務現場での導入が加速している。

一方で、VLMの開発には大規模データや計算資源、アルゴリズム選定など複雑な要素が絡むため、他企業や研究機関が本格的に取り組むには依然として高いハードルがある。
今回のような知見の共有は、産官学の垣根を越えた協調を促進し、今後の国際競争力の向上にもつながると期待される。

🚀 AI・Web3業界への転職を考えているあなたへ

「最先端技術に関わる仕事がしたい」「成長市場でキャリアを築きたい」そんな想いを抱いていませんか？

Plus Web3は、AI・Web3領域などテクノロジーに投資する企業の採用に特化したキャリア支援サービスです。

運営する株式会社プロタゴニストは、上場企業グループの安定した経営基盤のもと
10年以上のコンサルタント歴を持つ転職エージェントが
急成長する先端技術分野への転職を専門的にサポートしています。

こんな方におすすめです

▼成長産業であるAI・Web3業界で新しいキャリアを始めたい
▼「未経験だけど挑戦してみたい」という熱意がある
▼今のスキルを最先端技術分野でどう活かせるか相談したい
▼表に出ない優良企業の情報を知りたい

業界に精通したキャリアアドバイザーが、
あなたの経験・スキル・志向性を丁寧にヒアリングし、
最適な企業とポジションをマッチングします。

キャリア相談する