ReadSpeakerが取り組んでいる新しい技術、音声合成にできる事をお見せするコーナーです。
歌声合成とは、テキストではなく、歌詞とメロディー(楽譜など)を入力することで歌声を合成する技術です。従来の一音一音を繋ぎ合わせる方式では無く、機械学習ベースの新しい方式により、滑らかで自然な歌声合成を実現しています。
ReadSpeakerの歌声合成では、楽譜のようなシンプルな入力で高いクオリティの歌声を合成することができます。
ビブラートやブレスといった歌唱表現なども声優の特徴を再現しており、これらの特徴も自動で反映されます。
雑音の大きい環境では、人間は自然と声を張り上げ、聞き取りやすい声へ変化します。
この現象はロンバード効果と呼ばれています。
ロンバード効果をシミュレートすることで、音声合成でも聞き取りやすさに効果がでることが確認されています。(※1)
騒音環境下での評価実験でも、通常の音声合成モデルに比べ、最大1.6倍(※2)の了解度向上が確認されました。
(※1)参考文献
M. Cooke, C. Mayo, C. Valentini-Botinhao, Y. Stylianou, B. Sauert and Y. Tang,
"Evaluating the intelligibility benefit of speech modifications in known noise conditions," Speech Communication, 55, 572-585, 2013.
C. Valentini-Botinhao, J. Yamagishi, S. King and Y. Stylianou, Combining perceptually-motivated spectral shaping with loudness and duration modification for intelligibility enhancement of HMM-based synthetic speech in noise," Proc. INTERSPEECH, 3567-3571, 2013.
(※2)当社調べ