メインコンテンツへスキップ
最新ニュース 3分で読める

ソフトバンクとAmpere、CPU活用で小規模AI推論を効率化 次世代AIインフラ構築へ

PlusWeb3 編集部
PlusWeb3 編集部 Web3・AI専門メディア

日本のソフトバンク株式会社は、米半導体設計企業Ampere Computing LLCと、CPUを活用したAI推論の効率化に向けた共同検証を開始したと発表した。
小規模AIモデルの運用最適化と電力効率向上を目指す取り組みである。

CPUでSLM推論を最適化

2026年2月17日に発表された共同検証では、ソフトバンクが開発中のオーケストレーターと、Ampere製CPUを組み合わせ、CPUをAI推論用計算資源として活用できることを確認した。
対象はAIエージェントで利用されるSmall Language Model(小規模言語モデル)やMoE(※)などの推論モデルである。

分散型計算環境を前提に、CPUのみのノードやCPUとGPUを併用したマルチノード構成で性能やスケーラビリティーを評価した。
処理負荷や用途に応じてモデルを柔軟に配置・管理できることが確認されたという。
今後は、複数モデルを動的に切り替えながらTPSを安定的に維持できるAI推論プラットフォームの実現に向け、取り組みを進めるとしている。

さらに、オープンソースのllama.cppをAmpere製CPU向けに最適化した「Ampere optimized llama.cpp」を実装する。
一般的なGPU中心構成と比較し、消費電力を抑えつつ同時実行数を増加できること、モデル読み込み時間の短縮や高速な切り替えが可能であることも明らかになった。

背景には、LLMだけでなく、特定用途向けの小規模モデル需要の拡大がある。
低遅延かつ常時稼働を前提とする業務自動化やネットワーク制御分野では、電力効率と安定性が重視されている。

※MoE:Mixture of Expertsの略。複数の専門モデルを組み合わせ、入力に応じて一部のみを動作させることで効率的に処理するモデル構造。

GPU依存からの分散戦略へ

今回の検証は、AI推論基盤がGPU中心から多様な計算資源へと広がる可能性を示唆する。
CPUを活用することで、電力コスト抑制や既存データセンター資源の有効活用が期待できる。
特にAIエージェントのように複数モデルを動的に切り替えるワークロードでは、TPSを安定的に維持できる設計思想が競争力を左右すると考えられる。

一方で、GPUは依然として大規模推論や高スループット処理に優位性を持つと言える。
CPU活用は用途を選ぶ戦略であり、すべての推論処理を置き換えるものではないと考えられる。
今後は、負荷特性に応じたハイブリッド構成と運用最適化が、AIインフラ設計の中核テーマになる可能性がある。

ソフトバンク株式会社 プレスリリース

関連記事:

ソフトバンク、Ampereを65億ドルで買収完了 AI計算基盤とArm陣営強化を加速

RELATED ARTICLEソフトバンク、Ampereを65億ドルで買収完了 AI計算基盤とArm陣営強化を加速2025年11月26日、ソフトバンクグループは米Ampere Computing…Read
Share this article コピーしました
WRITTEN BY

PlusWeb3 編集部

Web3・AI専門メディア

PlusWeb3 編集部は、ブロックチェーン・Web3・AIの最新動向をわかりやすくお届けする専門メディアチームです。業界経験豊富な編集者とリサーチャーが、信頼性の高い情報を厳選してお届けします。

記事を寄稿しませんか?

Web3・AI領域の専門家からの寄稿を募集中。掲載は編集部名義、内容は事前審査のうえ掲載可否をご連絡します。

この記事が役に立ったら、ニュースレターも登録しませんか?

Web3・AI業界の厳選ニュースを定期配信。いつでも解除可能。

スパムは送りません。プライバシーポリシーに基づいて管理します。

コピーしました

Web3・AI・DeepTech領域でのキャリアをお考えですか?

業界専門のコンサルタントが、あなたに最適なキャリアパスをご提案します。