2026年4月15日、米Googleは読み上げモデル「Gemini 3.1 Flash TTS」を発表した。音声の抑揚や話速を自然言語で制御できる「音声タグ」を導入し、開発者向けにGemini APIなどで提供を開始する。
音声タグで抑揚・話速を自在制御
今回発表された「Gemini 3.1 Flash TTS」は、テキストから音声を生成する従来のTTS(※)の枠を拡張し、話し方そのものを細かく設計できる点が特徴となる。テキスト内に自然言語で指示を埋め込む「音声タグ」により、トーンやアクセント、話速といった要素を直感的に制御可能となった。
さらに、シーン設定を行う「Scene direction」や話者ごとの音声プロファイル設定にも対応しており、対話形式やナレーションの文脈を一貫して表現できる。調整した内容はAPIコードとしてエクスポートできるため、複数プロジェクト間で同一の音声品質を再現しやすい設計だ。
対応言語は70以上に及び、グローバル市場での利用を前提に精度を最適化している。企業向けにはVertex AIやWorkspace内の動画生成ツールでも順次展開され、音声インターフェースの高度化を後押しすることになる。
※TTS(Text-to-Speech):テキスト情報を音声に変換する技術。従来は単調な読み上げが多かったが、近年はAIにより自然な抑揚表現が可能になっている。
音声表現の標準化進む一方、信頼性確保が鍵に
音声タグによる表現制御は、カスタマーサポートや教育、メディア制作など幅広い領域での活用を加速させると考えられる。特に多言語対応と話者設定の組み合わせにより、グローバル企業は地域ごとに最適化された音声体験を提供しやすくなるだろう。
一方で、生成音声の信頼性確保も重要な論点となる。Googleは全ての生成音声に不可視の透かし技術「SynthID(※)」を埋め込むことで、AI生成コンテンツの検出を可能にするとしている。これは誤情報対策やコンテンツの真正性担保に寄与する仕組みと言える。
ただし、音声のリアリティが高まるほど、なりすましやディープフェイクのリスクも無視できない。企業がこの技術を導入する際には、利用ガイドラインの整備や検証体制の構築が不可欠になるだろう。
Gemini 3.1 Flash TTSの提供により、音声生成は単なる補助機能からブランド体験を左右する基盤へと進化する可能性がある。
※SynthID:AIが生成した画像や音声などに不可視の識別情報を埋め込み、後から検出できるようにする技術。コンテンツの出所確認や不正利用防止に活用される。
関連記事: