ElevenLabs、音声認識AI「Scribe」発表 日本語含む25言語で高精度を実現し競合を凌駕

米国のAIスタートアップElevenLabsが2025年2月26日、自社初となる音声認識モデル「Scribe」を発表した。Scribeは、日本語を含む99以上の言語をサポートし、業界最大手のGoogle GeminiやOpenAIのWhisperをベンチマークテストで上回っている。
以前からElevenLabsには注目と投資が集まっていたが、今回の発表により、音声文字起こし市場への本格参入を果たしたことになる。
参考 : NTTドコモ・ベンチャーズ、音声生成 AI企業「ElevenLabs」に出資
競合を上回る精度と多言語対応で差別化図る
ElevenLabsは音声合成技術で知られてきたが、今回のScribe発表により音声認識分野への進出を本格化させた。このモデルは、Gladia、Speechmatics、AssemblyAI、DeepgramといったAI音声認識分野で地位を確立している企業や、OpenAIのWhisperモデルとの競争を視野に入れている。
性能面では、FLEURSおよびCommon Voiceという業界標準のベンチマークテストで、ScribeはGoogle Gemini 2.0 FlashやWhisper Large V3を上回る結果を記録した。
特に単語の検出率は高く、サポートする99言語以上のうち25言語において単語誤り率が5%未満という高い精度を達成した。
英語では97%という高精度を示し、さらにフランス語、ドイツ語、ヒンディー語、日本語、スペイン語などの主要言語も高いレベルでサポートしている。
技術的な特徴としては、スマートスピーカーダイアライゼーション(※)機能を備え、複数の発言者を識別することが可能になっている点が挙げられる。また、精密な字幕作成のための単語レベルのタイムスタンプ機能や、観客の笑い声などの単語以外の音を自動でタグ付けする機能も搭載した。
現時点では事前録音された音声の処理のみをサポートするが、リアルタイム処理版も近日中にリリース予定とされている。
※スピーカーダイアライゼーション:音声内の異なる話者を自動的に識別・区別する技術。複数人の会話から誰がいつ話したかを特定し、文字起こしの際に発言者ごとに分けて表示することを可能にする。
価格設定と今後の展開に注目
Scribeの価格設定は音声文字起こしに対して1時間あたり0.40ドルと設定されているが、市場競争の激化に伴い、この価格は今後変動する可能性も示唆されている。
ElevenLabsは今後、Scribeモデルの継続的な強化を計画しており、音声認識技術の精度向上や機能拡張に注力するとしている。特にリアルタイム処理能力の実装は、ライブ配信やビデオ会議などでの活用可能性を広げる重要な機能となるだろう。
競争力のある価格設定と広範な言語サポート、そして高いパフォーマンスを武器に、ElevenLabsは音声AI市場における総合的なソリューション提供企業としての地位を固めつつある。
Plus Web3は「Web3領域に特化したキャリア支援サービス」

Plus Web3では、Web3で働きたい人材と、個人に合わせた優良企業をマッチングする求人サービスを行っています。
- Web3で働くことも考えている…
- Web3のインターン先はどこがいいか分からない…
- どんな知識やスキルがあれば良いのか分からない…
このような悩みを抱える人は、一度「無料キャリア相談」にお越しください。あなたにマッチした優良企業をご紹介いたします。