メインコンテンツへスキップ
最新ニュース 3分で読める

Meta、指定した音だけを抜き出すAI「SAM Audio」公開 3つの入力方式に対応

PlusWeb3 編集部
PlusWeb3 編集部 Web3・AI専門メディア

2025年12月16日、米Metaは音声を直感的に分離できるAIモデル「SAM Audio」を公開した。
映像やテキスト、時間指定を組み合わせて音を切り出せる点が特徴で、音楽制作や動画編集の効率化に寄与する可能性がある。

Meta、音声を自在に切り分ける統合AI「SAM Audio」発表

Metaは、複雑に混ざり合った音声から特定の音だけを抽出できる新たなAIモデル「SAM Audio」を発表した。
同モデルは、同社の「Segment Anything」シリーズの一環として位置づけられる。
複雑な音声から様々な手段で任意の音声を抜き出せる点が特徴で、Metaはこの特徴を「初」と呼んでいる。

従来の音声編集は、ノイズ除去やボーカル抽出など用途別に異なるツールを使い分ける必要があった。
SAM Audioは、こうした断片化された領域を一つの統合モデルで扱う試みだ。

SAM Audioは三つの入力方法に対応する。「犬の鳴き声」「歌声」などと入力するテキスト指定、動画上で音源となる人物や物体をクリックする視覚指定、さらに音が鳴っている時間帯を指定するスパン指定だ。
これらは単独でも組み合わせても利用でき、直感的な入力方法を用いることで、専門知識がなくてもプロレベルの精密な音声分離を可能にする。

Metaは現在、このモデルを「Segment Anything Playground」で公開し、誰でも試用やダウンロードができる環境を整えている。

創作の民主化が進む一方、著作権管理の課題も浮上

SAM Audioがもたらす最大のメリットは、プロ向けだった高度な音声編集を誰もが扱える点にある。
楽曲制作では特定の楽器だけを抜き出したり、ポッドキャストでは不要な生活音を一括で除去したりと、制作工程の効率化が進むと考えられる。
映像制作や研究、アクセシビリティ分野への応用も視野に入る。

一方で、リスクも存在する。音声を容易に切り分けられることは、他人の声や演奏を無断で再利用しやすくなる側面を持つ。
特に音楽や映像分野では、著作権や二次利用の線引きがこれまで以上に問われる可能性がある。

Metaは「創造性を支援する基盤技術」と位置づけているが、実際の普及には利用ルールの整備が不可欠だろう。
今後、SAM Audioが業界標準として広がるのか、それとも規制と調整の中で限定的に使われるのか。音声編集の未来を占う試金石となりそうだ。

ニュースリリース

関連記事:

Meta、AI音声合成のElevenLabsと提携 InstagramとHorizonでAI音声を多言語展開へ

RELATED ARTICLEAI音声合成のElevenLabsとMetaが提携 InstagramとHorizonで多言語吹き替え2025年12月12日、AI音声技術を手がけるElevenLabsは米Metaと…Read
Share this article コピーしました
WRITTEN BY

PlusWeb3 編集部

Web3・AI専門メディア

PlusWeb3 編集部は、ブロックチェーン・Web3・AIの最新動向をわかりやすくお届けする専門メディアチームです。業界経験豊富な編集者とリサーチャーが、信頼性の高い情報を厳選してお届けします。

記事を寄稿しませんか?

Web3・AI領域の専門家からの寄稿を募集中。掲載は編集部名義、内容は事前審査のうえ掲載可否をご連絡します。

この記事が役に立ったら、ニュースレターも登録しませんか?

Web3・AI業界の厳選ニュースを定期配信。いつでも解除可能。

スパムは送りません。プライバシーポリシーに基づいて管理します。

コピーしました

Web3・AI・DeepTech領域でのキャリアをお考えですか?

業界専門のコンサルタントが、あなたに最適なキャリアパスをご提案します。