Read Speaker

ReadSpeaker Technology

ReadSpeakerが取り組んでいる
新しい技術をご紹介します。

End to End

歌声合成とは、テキストではなく、歌詞とメロディー(楽譜など)を⼊⼒することで歌声を合成する技術です。従来の⼀⾳⼀⾳を繋ぎ合わせる⽅式では無く、機械学習ベースの新しい⽅式により、滑らかで⾃然な歌声合成を実現しています。ReadSpeakerの歌声合成では、楽譜のようなシンプルな⼊⼒で⾼いクオリティの歌声を 合成することができます。ビブラートやブレスといった歌唱表現なども声優の特徴を再現しており、これらの特徴も⾃動で反映されます。

曲1)MOVEMENT [Original Demo Song]

曲2)桜咲く季節 [Original Demo Song]

※ 歌詞とメロディーのみを入力しており、発音補正やピッチ・リズム・ビブラートなどの調整は一切行っておりません。
※ BGMと馴染ませるためのEQ・コンプレッサー・リバーブなどの一般的なエフェクトは使用しております。

1) 名古屋工業大学の徳田恵一教授を中心として開発された新しい方式の歌声合成技術を利用しております。
2) 山梨大学の森勢将雅准教授が開発された音声分析合成システムWORLDを利用しております。

DNN⾳声合成

最先端の機械学習技術「ディープラーニング」の導⼊により、全体的な品質が向上し、感情表現がより繊細で⾃然になりました。また従来の技術では難しかった相槌・語尾・⾔い回しなどの細かいニュアンスの表現⼒が⼤幅に向上しました。⼀般的にディープラーニングは⾼いマシンスペックを要求されますが、改良を重ね従来版と近いマシンスペックでの動作を可能にしました。

VOICE SAMPLE

普

: Normal

DNN型

DNN型

喜

: Delighted

DNN型

DNN型

怒

: Angry

DNN型

DNN型

哀

: Sad

DNN型

DNN型

感情⾳声

⾳声合成では、機械的な声、平板な読み⽅が当たり前、
淡々と伝えるのに適し感情は持たせない。
ReadSpeakerは、こんな"業界の常識"に挑戦しています。

VOICE SAMPLE

普

: Normal

喜

: Delighted

怒

: Angry

哀

: Sad

ロンバード効果

雑⾳の⼤きい環境では、⼈間は⾃然と声を張り上げ、聞き取りやすい声へ変化します。この現象はロンバード効果と呼ばれています。
ロンバード効果をシミュレートすることで、⾳声合成でも聞き取りやすさに効果がでることが確認されています。(※1)
騒⾳環境下での評価実験でも、通常の⾳声合成モデルに⽐べ、最⼤1.6倍(※2)の了解度向上が確認されました。

(※1)参考⽂献
M. Cooke, C. Mayo, C. Valentini-Botinhao, Y. Stylianou, B. Sauert and Y. Tang,
"Evaluating the intelligibility benefit of speech modifications in known noise conditions," Speech Communication, 55, 572-585, 2013.
C. Valentini-Botinhao, J. Yamagishi, S. King and Y. Stylianou, Combining perceptually-motivated spectral shaping with loudness and duration
modification for intelligibility enhancement of HMM-based synthetic speech in noise," Proc. INTERSPEECH, 3567-3571, 2013.

騒音(人混み)

ご案内申し上げます。
ただいま、落雷の危険性が非常に高くなっています。
屋外にいらっしゃる皆様は直ちに、安全な場所に避難してください。