MENU
【中途】人材採用のご相談はこちら
業務委託・フリーランスのご登録

ソフトバンク系AI企業、「大規模視覚言語モデル」資料を無料公開 開発の全体像や課題を95ページで解説

Web3/AI領域に特化した転職エージェント「Plus Web3 Agent」

最先端のテクノロジー領域で働きたい人材と優良企業のマッチングを支援しています。
少しでも興味のある方は、お気軽に「無料キャリア相談」をご利用ください!

2025年6月17日、ソフトバンク傘下でAI開発を手がけるSB Intuitions(東京都港区)は、「視覚と言語を統合して理解するAI」であるVLM(視覚言語モデル)の基礎や応用事例をまとめた全95ページの資料を無料公開した。

目次

VLM開発の流れや知見を一般向けに体系化

SB Intuitionsは、VL(※)の仕組みや設計プロセスを解説した資料「大規模視覚言語モデルの開発」をWeb上で無料公開した。
これは、2025年5月に開催された人工知能学会全国大会(JSAI2025)における講演資料を一般向けに編集・再構成したものだ。

同社でVLM開発に携わる4名の研究者が共同執筆しており、VLMのトレンド、学習データの構築方法、モデルの訓練・評価手法、さらに実用化に向けた課題までを網羅している。

また、自社開発のVLM「Sarashina2-Vision」の構築過程で得た知見も盛り込まれており、実務レベルの技術課題や対応策が具体的に記されている点が特徴だ。
研究者や開発者だけでなく、VLMに関心を持つ事業者や政策立案者にも有用な内容となっている。

※視覚言語モデル(VLM): 画像や映像などの視覚情報と言語情報を同時に処理するAIモデル。ChatGPTのようなLLMとは異なり、視覚認識と自然言語理解を統合して推論する能力を持つ。

企業や教育機関への波及に期待 開発の透明性向上も

資料の無料公開は、VLM技術の民主化や産業界との連携強化を目的とした取り組みと見られる。
特に、AIの透明性や説明可能性が求められる中で、開発の内部構造をオープンにする姿勢は国内外の研究者から注目される可能性がある。

VLMは、画像や動画といった視覚情報と自然言語を統合的に扱えるAIとして、生成AIの次の中核技術と目されている。
近年では、医療、製造、セキュリティなど多様な領域での応用が進んでおり、実務現場での導入が加速している。

一方で、VLMの開発には大規模データや計算資源、アルゴリズム選定など複雑な要素が絡むため、他企業や研究機関が本格的に取り組むには依然として高いハードルがある。
今回のような知見の共有は、産官学の垣根を越えた協調を促進し、今後の国際競争力の向上にもつながると期待される。

Plus Web3は「先端テクノロジー領域(Web3/AI)に特化したキャリア支援サービス」


運営会社のプロタゴニストは、AI開発やブロックチェーン技術など、急成長する先端技術分野への転職をサポートする専門エージェントです。
経験者はもちろん、異業種からの転身を検討される方にも最適な機会をご紹介しています。

  • 成長産業であるAI業界やWeb3領域でのキャリアを検討している
  • 未経験からでもAI・Web3業界に挑戦できる道を探している
  • 自分のスキルを最先端技術分野でどう活かせるか知りたい

こんな方におすすめです

業界に精通したキャリアアドバイザーが、あなたの経験・スキル・志向性を丁寧にヒアリングし、最適な企業とポジションをマッチングします。
まずは無料キャリア相談で、あなたの可能性を広げるチャンスを掴みませんか?

Web3企業

AI企業

この記事が気に入ったら
フォローしてね!

Please Share
  • URLをコピーしました!
目次