Stability AI、Stable Audio 2.5公開 音声生成AIで3分楽曲を2秒生成

現地時間2025年9月10日、英Stability AIは音声生成モデル「Stable Audio 2.5」を正式発表した。エンタープライズ向けの音声制作を主眼に開発されており、商用利用にも対応可能である。
3分楽曲を2秒で生成 構造的な音楽制作が可能に
Stability AIが発表した「Stable Audio 2.5」は、迅速な音楽制作と精度向上を目指した音声生成モデルである。
従来版から大幅に改良された本モデルはプロンプトに対する再現性が高く、イントロ・展開部・アウトロといった楽曲の構造的要素を保持した生成が可能となっている。
技術的には、敵対的相対論的対比学習(ARC)(※1)という手法を追加学習に導入している。
これにより、GPU環境下では最長3分の楽曲を2秒未満で生成できる高速化を実現した。
同機能はStability AIの公式サイト「StableAudio.com」のほか、APIやワークフローUIである「ComfyUI」など複数の経路から利用可能である。
また、テキストベースの生成だけでなく、既存の音源を用いた“続きの生成”も行える。
特定の位置から前の流れに合う楽曲を生成でき、編集や補完用途にも活用されている。なお、アップロードする音声は「著作権侵害のないもの」であることが義務付けられている。
※1 敵対的相対論的対比学習(ARC):複数の候補出力の中で、どれがより「現実的」かを相対的に学習する生成AIの学習手法の一つ。生成の精度と表現の一貫性を向上させる。
著作権リスクを排除し商用利用に対応 音楽制作の標準化も視野に
「Stable Audio 2.5」の商用性の高さは、学習データセットの透明性に裏打ちされている。初代から一貫して完全ライセンス取得済みのデータで構築されていることは、生成された音源の使用にあたって著作権上のリスクが極めて低いと言える。
これは特に、企業や制作会社にとって重要な条件となり得る。
エンタープライズ向けを意識した設計が随所に見られることも特筆すべき点だ。
UIやAPIでの統合性、生成スピード、構造保持性のレベルが高く、使いやすさへの配慮が窺えることは、広告映像やゲーム開発、SNS向けショート動画制作など、幅広い領域での利用を想定してのものだろう。
今後の展望としては、さらなるマルチモーダル統合(※2)やパーソナライズ生成の精度向上が求められると考えられる。
生成AIによる音楽制作は成熟期へと差し掛かりつつある。
「Stable Audio 2.5」は、その転換点を象徴する製品として位置付けられることになりそうだ。
※2 マルチモーダル統合:テキスト・画像・音声など異なる情報形式を同時に扱い、相互に連携させてAIが出力を生成する仕組み。直感的な指示に基づく複雑な出力が可能となる。
StableAudio.com:https://stableaudio.com/