日本のソフトバンク株式会社は、米半導体設計企業Ampere Computing LLCと、CPUを活用したAI推論の効率化に向けた共同検証を開始したと発表した。
小規模AIモデルの運用最適化と電力効率向上を目指す取り組みである。
CPUでSLM推論を最適化
2026年2月17日に発表された共同検証では、ソフトバンクが開発中のオーケストレーターと、Ampere製CPUを組み合わせ、CPUをAI推論用計算資源として活用できることを確認した。
対象はAIエージェントで利用されるSmall Language Model(小規模言語モデル)やMoE(※)などの推論モデルである。
分散型計算環境を前提に、CPUのみのノードやCPUとGPUを併用したマルチノード構成で性能やスケーラビリティーを評価した。
処理負荷や用途に応じてモデルを柔軟に配置・管理できることが確認されたという。
今後は、複数モデルを動的に切り替えながらTPSを安定的に維持できるAI推論プラットフォームの実現に向け、取り組みを進めるとしている。
さらに、オープンソースのllama.cppをAmpere製CPU向けに最適化した「Ampere optimized llama.cpp」を実装する。
一般的なGPU中心構成と比較し、消費電力を抑えつつ同時実行数を増加できること、モデル読み込み時間の短縮や高速な切り替えが可能であることも明らかになった。
背景には、LLMだけでなく、特定用途向けの小規模モデル需要の拡大がある。
低遅延かつ常時稼働を前提とする業務自動化やネットワーク制御分野では、電力効率と安定性が重視されている。
※MoE:Mixture of Expertsの略。複数の専門モデルを組み合わせ、入力に応じて一部のみを動作させることで効率的に処理するモデル構造。
GPU依存からの分散戦略へ
今回の検証は、AI推論基盤がGPU中心から多様な計算資源へと広がる可能性を示唆する。
CPUを活用することで、電力コスト抑制や既存データセンター資源の有効活用が期待できる。
特にAIエージェントのように複数モデルを動的に切り替えるワークロードでは、TPSを安定的に維持できる設計思想が競争力を左右すると考えられる。
一方で、GPUは依然として大規模推論や高スループット処理に優位性を持つと言える。
CPU活用は用途を選ぶ戦略であり、すべての推論処理を置き換えるものではないと考えられる。
今後は、負荷特性に応じたハイブリッド構成と運用最適化が、AIインフラ設計の中核テーマになる可能性がある。
関連記事:
ソフトバンク、Ampereを65億ドルで買収完了 AI計算基盤とArm陣営強化を加速

