Hume AI、感情を調整できる音声生成モデル「Octave」を発表

2025年2月27日、ニューヨークのスタートアップ企業Hume AIは、ユーザーが指定した感情に応じて音声のトーンや抑揚を調整できる革新的な音声生成モデル「Octave」を発表した。現在、英語とスペイン語に対応しており、今後の言語拡張が予定されている。
Octaveの技術的特徴と市場での競争力
Octaveは、従来のテキスト読み上げ(TTS)システムとは一線を画す技術を搭載している。大規模言語モデル(LLM)を基盤とし、テキストだけでなく音声や感情データも学習することで、文脈を深く理解し、ユーザーが指定した感情に応じた自然な発話を実現している。例えば、皮肉なセリフや緊迫したシーンに適した声を生成することが可能だ。
また、Octaveはイントネーションや発話スピードの調整が可能であり、より細かい音声表現が求められる場面にも対応できる。感情の強弱や話し方のテンポを調整することで、従来のTTSシステムよりもリアルでダイナミックな音声を提供できることも特筆すべき点だ。
市場競争の面では、Hume AIは競合他社であるElevenLabsと比較して約半額の価格設定を実現している。さらに、180人のテストユーザーを対象としたブラインド比較試験では、音質、自然さ、指定した音声スタイルの再現度においてOctaveがElevenLabsを上回る結果を示している。これにより、コストパフォーマンスと技術力の両面で高い競争力を持つことが明らかになった。
倫理的配慮と今後の展望
Octaveは、Hume AIの「Projects」ページやAPIを通じて利用可能であり、開発者は最大50リクエスト/分、5,000文字/リクエストの制限内で使用できる。出力形式はMP3、WAV、PCMに対応しており、さまざまな用途に柔軟に対応可能だ。
オーディオブックやキャラクターボイス、映画・テレビのナレーションなど、幅広いコンテンツへの活用が見込まれる。
価格プランは、無料プラン($0/月、10,000文字)からEnterpriseプラン(カスタム契約、無制限利用)まで、多様なニーズに応じた選択肢が用意されている。特に無料プランがあるため、初めてのユーザーでも試しやすい。
さらに、Hume AIは教育機関向けの特別プランを提供する可能性も示唆しており、研究用途や学習目的での活用が広がることが期待される。企業向けには、カスタマイズ可能なプランも用意されており、商業利用に適した形で展開が進められる見込みだ。
倫理的配慮として、Hume AIは児童の声の再現や特定の個人の模倣を禁止するガイドラインを設けており、倫理的な使用を促進している。今後は、さらなる言語拡張や機能追加が計画されており、技術革新が期待される。
Plus Web3は「Web3領域に特化したキャリア支援サービス」

Plus Web3では、Web3で働きたい人材と、個人に合わせた優良企業をマッチングする求人サービスを行っています。
- Web3で働くことも考えている…
- Web3のインターン先はどこがいいか分からない…
- どんな知識やスキルがあれば良いのか分からない…
このような悩みを抱える人は、一度「無料キャリア相談」にお越しください。あなたにマッチした優良企業をご紹介いたします。