ソフトバンクとAmpere、CPU活用で小規模AI推論を効率化　次世代AIインフラ構築へ

日本のソフトバンク株式会社は、米半導体設計企業Ampere Computing LLCと、CPUを活用したAI推論の効率化に向けた共同検証を開始したと発表した。
小規模AIモデルの運用最適化と電力効率向上を目指す取り組みである。

CPUでSLM推論を最適化

2026年2月17日に発表された共同検証では、ソフトバンクが開発中のオーケストレーターと、Ampere製CPUを組み合わせ、CPUをAI推論用計算資源として活用できることを確認した。
対象はAIエージェントで利用されるSmall Language Model（小規模言語モデル）やMoE（※）などの推論モデルである。

分散型計算環境を前提に、CPUのみのノードやCPUとGPUを併用したマルチノード構成で性能やスケーラビリティーを評価した。
処理負荷や用途に応じてモデルを柔軟に配置・管理できることが確認されたという。
今後は、複数モデルを動的に切り替えながらTPSを安定的に維持できるAI推論プラットフォームの実現に向け、取り組みを進めるとしている。

さらに、オープンソースのllama.cppをAmpere製CPU向けに最適化した「Ampere optimized llama.cpp」を実装する。
一般的なGPU中心構成と比較し、消費電力を抑えつつ同時実行数を増加できること、モデル読み込み時間の短縮や高速な切り替えが可能であることも明らかになった。

背景には、LLMだけでなく、特定用途向けの小規模モデル需要の拡大がある。
低遅延かつ常時稼働を前提とする業務自動化やネットワーク制御分野では、電力効率と安定性が重視されている。

※MoE：Mixture of Expertsの略。複数の専門モデルを組み合わせ、入力に応じて一部のみを動作させることで効率的に処理するモデル構造。

GPU依存からの分散戦略へ

今回の検証は、AI推論基盤がGPU中心から多様な計算資源へと広がる可能性を示唆する。
CPUを活用することで、電力コスト抑制や既存データセンター資源の有効活用が期待できる。
特にAIエージェントのように複数モデルを動的に切り替えるワークロードでは、TPSを安定的に維持できる設計思想が競争力を左右すると考えられる。

一方で、GPUは依然として大規模推論や高スループット処理に優位性を持つと言える。
CPU活用は用途を選ぶ戦略であり、すべての推論処理を置き換えるものではないと考えられる。
今後は、負荷特性に応じたハイブリッド構成と運用最適化が、AIインフラ設計の中核テーマになる可能性がある。

ソフトバンク株式会社プレスリリース

ソフトバンク、Ampereを65億ドルで買収完了　AI計算基盤とArm陣営強化を加速

ソフトバンクとAmpere、CPU活用で小規模AI推論を効率化　次世代AIインフラ構築へ

CPUでSLM推論を最適化

GPU依存からの分散戦略へ

PlusWeb3 編集部

記事を寄稿しませんか？

Web3・AI・DeepTech領域でのキャリアをお考えですか？

ソフトバンクとAmpere、CPU活用で小規模AI推論を効率化 次世代AIインフラ構築へ

CPUでSLM推論を最適化

GPU依存からの分散戦略へ

PlusWeb3 編集部

記事を寄稿しませんか？

この記事が役に立ったら、ニュースレターも登録しませんか？

関連する最新記事

ポケモン30周年が本格始動 特設ページ開設で年間プロジェクト展開へ

韓国がAI世界トップ3へ本格始動 99課題・326勧告で国家制度とインフラを再設計

Instagram、10代の自傷関連検索を保護者に通知 AI対話にも監視拡張へ

Web3・AI・DeepTech領域でのキャリアをお考えですか？

ソフトバンクとAmpere、CPU活用で小規模AI推論を効率化　次世代AIインフラ構築へ

ポケモン30周年が本格始動　特設ページ開設で年間プロジェクト展開へ

韓国がAI世界トップ3へ本格始動　99課題・326勧告で国家制度とインフラを再設計

Instagram、10代の自傷関連検索を保護者に通知　AI対話にも監視拡張へ