感情も声色も操るAI音声登場 イレブンラボ、日本語対応のTTS新モデル発表

2025年6月6日、米音声AI開発企業イレブンラボは、感情表現やトーン切り替えが可能な次世代TTSモデル「Eleven v3(alpha)」の提供を開始した。
日本語を含む70言語以上に対応しており、国内でも本格展開される。
声に「感情」「対話」「演技力」を備えた新モデルを提供開始
イレブンラボは、文字情報を自然な音声に変換するTTS技術の新モデル「Eleven v3(alpha)」を公開した。v3では、単なる読み上げを超え、感情・トーンの表現や対話モードを実現している点が大きな進化である。
このモデルは、従来のTTSでは難しかった「ささやき声」や「怒りを込めたセリフ」といった感情表現を音声タグで指示可能にした。
さらに、ストーリー内の登場人物に応じた話者の切り替えや、会話の文脈に応じた表現ができる「対話モード」も搭載。従来型AI音声では再現しきれなかった“演技”に近い音声生成を可能にしている。
日本語の読み上げ精度も向上しており、イントネーションや自然さの面で従来モデルを上回る仕上がりとなっている。対応言語数も70を超え、グローバルな展開にも対応している点が特徴だ。
音声AIの利活用拡大へ 日本市場でも多分野への波及期待
「Eleven v3」は、日本語を含む多言語対応に加え、方言や実況調の再現にも対応しており、日本市場における展開も本格化している。特に、関西弁のような地域性ある言語表現や、YouTubeやゲーム実況で求められる抑揚ある音声の生成も対応可能であるという。
これにより、コールセンターでの自動応答や、視覚障害者向けの情報提供、多言語観光案内、映像作品の吹き替えやナレーションなど、音声AIの活用領域は飛躍的に広がると見られる。
イレブンラボは2025年4月に「イレブンラボジャパン」を設立し、企業や自治体との連携も模索中だ。今後はリアルタイムでのストリーミング対応や外部APIの提供も計画しているため、日本企業による音声AI活用の裾野拡大が期待できる。
リアルな感情表現を備えたTTSが普及すれば、AIと人間の自然なコミュニケーションは一段と進化するだろう。
ただし、感情の過剰表現や誤用によるリスク、倫理的な音声合成のガイドライン整備も課題として浮上する。
表現力の高まりが歓迎される一方で、利用者側のリテラシーや責任ある運用が求められる時代に入ったと言える。感情表現が可能なだけに、偽情報やディープフェイク音声への悪用リスクも懸念されるため、活用には法的な議論も必要になるだろう。