Amazonは、テキストを自動読み上げする新サービス「Amazon polly」を公開しました。47の男性と女性の声で24の言語に変換、自動読み上げしてくれるサービスです。これまでの機械的な音声とは異なり、自然な声で発声する新しいサービスとなっています。
Pollyは毎月500万文字までは無料で処理することが可能で、それを超える文字数になると1文字につき$0.000004かかります。おおよそ予想されるテキスト量から計算すると、生成されるは音声1分あたり$0.004となります。記事が掲載されているブログ記事では約$0.018になり、Adventures of Huckleberry Finnの全文では約$2.40となります。
・Amazon Web Services ブログ
Amazon Polly – 文章から音声へ、47の声と24の言語
https://aws.amazon.com/jp/blogs/news/polly-text-to-speech-in-47-voices-and-24-languages/
(原文)https://aws.amazon.com/jp/blogs/aws/polly-text-to-speech-in-47-voices-and-24-languages/
コンソールでPollyを使うこと以外にも、モバイルなどで動的な変換をしたい場合には、単純にSynthesizeSpeech
API関数を文章かSSMLを付けて呼び出すだけです。出力された結果をユーザーに直接ストリームすることもでき、MP3かOggファイルを生成して必要に応じて再生することもできるとのこと。PollyはMP3かVorbis形式では高品質(最大22 kHzサンプリングレート)の音声を生成し、PCM形式では電話品質 (8 kHz)の音声を生成します。