End to End
歌声合成とは、テキストではなく、歌詞とメロディー(楽譜など)を⼊⼒することで歌声を合成する技術です。従来の⼀⾳⼀⾳を繋ぎ合わせる⽅式では無く、機械学習ベースの新しい⽅式により、滑らかで⾃然な歌声合成を実現しています。ReadSpeakerの歌声合成では、楽譜のようなシンプルな⼊⼒で⾼いクオリティの歌声を 合成することができます。ビブラートやブレスといった歌唱表現なども声優の特徴を再現しており、これらの特徴も⾃動で反映されます。
ReadSpeakerが取り組んでいる
新しい技術をご紹介します。
歌声合成とは、テキストではなく、歌詞とメロディー(楽譜など)を⼊⼒することで歌声を合成する技術です。従来の⼀⾳⼀⾳を繋ぎ合わせる⽅式では無く、機械学習ベースの新しい⽅式により、滑らかで⾃然な歌声合成を実現しています。ReadSpeakerの歌声合成では、楽譜のようなシンプルな⼊⼒で⾼いクオリティの歌声を 合成することができます。ビブラートやブレスといった歌唱表現なども声優の特徴を再現しており、これらの特徴も⾃動で反映されます。
最先端の機械学習技術「ディープラーニング」の導⼊により、全体的な品質が向上し、感情表現がより繊細で⾃然になりました。また従来の技術では難しかった相槌・語尾・⾔い回しなどの細かいニュアンスの表現⼒が⼤幅に向上しました。⼀般的にディープラーニングは⾼いマシンスペックを要求されますが、改良を重ね従来版と近いマシンスペックでの動作を可能にしました。
雑⾳の⼤きい環境では、⼈間は⾃然と声を張り上げ、聞き取りやすい声へ変化します。この現象はロンバード効果と呼ばれています。
ロンバード効果をシミュレートすることで、⾳声合成でも聞き取りやすさに効果がでることが確認されています。(※1)
騒⾳環境下での評価実験でも、通常の⾳声合成モデルに⽐べ、最⼤1.6倍(※2)の了解度向上が確認されました。
(※1)参考⽂献
M. Cooke, C. Mayo, C. Valentini-Botinhao, Y. Stylianou, B. Sauert and Y. Tang,
"Evaluating the intelligibility benefit of speech modifications in known noise conditions," Speech Communication, 55, 572-585, 2013.
C. Valentini-Botinhao, J. Yamagishi, S. King and Y. Stylianou, Combining perceptually-motivated spectral shaping with loudness and duration
modification for intelligibility enhancement of HMM-based synthetic speech in noise," Proc. INTERSPEECH, 3567-3571, 2013.