Meta、指定した音だけを抜き出すAI「SAM Audio」公開 3つの入力方式に対応

2025年12月16日、米Metaは音声を直感的に分離できるAIモデル「SAM Audio」を公開した。
映像やテキスト、時間指定を組み合わせて音を切り出せる点が特徴で、音楽制作や動画編集の効率化に寄与する可能性がある。
Meta、音声を自在に切り分ける統合AI「SAM Audio」発表
Metaは、複雑に混ざり合った音声から特定の音だけを抽出できる新たなAIモデル「SAM Audio」を発表した。
同モデルは、同社の「Segment Anything」シリーズの一環として位置づけられる。
複雑な音声から様々な手段で任意の音声を抜き出せる点が特徴で、Metaはこの特徴を「初」と呼んでいる。
従来の音声編集は、ノイズ除去やボーカル抽出など用途別に異なるツールを使い分ける必要があった。
SAM Audioは、こうした断片化された領域を一つの統合モデルで扱う試みだ。
SAM Audioは三つの入力方法に対応する。「犬の鳴き声」「歌声」などと入力するテキスト指定、動画上で音源となる人物や物体をクリックする視覚指定、さらに音が鳴っている時間帯を指定するスパン指定だ。
これらは単独でも組み合わせても利用でき、直感的な入力方法を用いることで、専門知識がなくてもプロレベルの精密な音声分離を可能にする。
Metaは現在、このモデルを「Segment Anything Playground」で公開し、誰でも試用やダウンロードができる環境を整えている。
創作の民主化が進む一方、著作権管理の課題も浮上
SAM Audioがもたらす最大のメリットは、プロ向けだった高度な音声編集を誰もが扱える点にある。
楽曲制作では特定の楽器だけを抜き出したり、ポッドキャストでは不要な生活音を一括で除去したりと、制作工程の効率化が進むと考えられる。
映像制作や研究、アクセシビリティ分野への応用も視野に入る。
一方で、リスクも存在する。音声を容易に切り分けられることは、他人の声や演奏を無断で再利用しやすくなる側面を持つ。
特に音楽や映像分野では、著作権や二次利用の線引きがこれまで以上に問われる可能性がある。
Metaは「創造性を支援する基盤技術」と位置づけているが、実際の普及には利用ルールの整備が不可欠だろう。
今後、SAM Audioが業界標準として広がるのか、それとも規制と調整の中で限定的に使われるのか。音声編集の未来を占う試金石となりそうだ。
関連記事:
Meta、AI音声合成のElevenLabsと提携 InstagramとHorizonでAI音声を多言語展開へ












