Googleの人工知能開発部門である「Deepmind」は、人間と同じような声をディープラーニングで獲得。状況や感情に応じてトーンや「間」などを使い分けて、人間が自然と会話しているかのような音声を出力する技術「WaveNet」を開発しました。現在までに英語と中国語でかなりの完成度になっています。
これまでの人工発声機能は機械的な音になりやすく違和感がありました。しかし「WaveNet」は自然な発声に極めて近く、公開されている音声を聞いても全く違和感がありません。既存のTTS技術は基本的に細切れにされた大量の音声データベースの単語をつなぎ合わせるだけであるのに対し、WaveNetでは、サンプリングした人間の音声からディープラーニング技術によって音声波形を細かく細分化して解析することで自然な音を獲得しています。
サンプル音源はリンク先で確認できます。
・WaveNet: A Generative Model for Raw Audio
https://deepmind.com/blog/wavenet-generative-model-raw-audio/