こんにちは。ReadSpeaker編集部です。

今回は音声合成についてお話したいと思います。

過去の回では音声合成の活用方法や未来についての題材が多かったですが、今回は音声合成とは何か?について解説しますので、ぜひこれを機に理解を深めていただけたら幸いです。

 

 

音声合成とは

音声合成(Text To Speech)とは、極端に言うと文字を音声に変換する技術です。コンピューター技術を使って人の音声(のようなもの)を人工的に作り出すことができます。音声合成はバーチャルアシスタント、自動顧客サービスシステム、教育用ソフトウェア、研修資料やウェブサイトの読み上げまで、さまざまなシーンで利用されています。もっと身近な例を挙げると、「次の信号を左に曲がります」などのカーナビ音声や、「黄色い線の内側にお下がりください」などの駅のアナウンス、お手持ちのスマートフォンや自宅のスマートスピーカーの音声アシスタント(Siriの音声など)を想像してもらえばわかりやすいと思います。

 

 

音声合成を使うと何が良いの?

わかりやすいのは人の声で収録した際のコストや時間の削減ができるということです。例えば研修用の資料でナレーション音声を収録した後に資料のほうで修正が発生した場合はどうでしょうか。再度収録が発生するので余計なコストが発生します。その点、音声合成を利用すれば好きなときに自由に音声を作成することで差し替えにもいつでも対応ができるようになります。他にも、駅やバスターミナルなどの案内放送の定型文など「あえて人が行う必要のないナレーション」を音声合成で行うことで現場のオペレーション効率も改善されることがあります。人の声でなくてもよいシーンで音声合成はその真価を発揮します。

 

 

音声合成の簡単な歴史

簡単ではありますが、音声合成の歴史をご紹介したいと思います。(専門用語もございますがここでは割愛します)

  • 1950年代後半:最初の音声合成システムが誕生。その後、物理学者であるJohn Larry Kelly Jr.がIBMのコンピューターを使い音声合成を行う。世界初の歌の音声合成に成功。
  • 1966年:線形予測符号化が登場。板倉文忠と斎藤周三のもとで開発が始まる。
  • 1975年:板倉によりラインスペクトルペア方式が開発される。同年、イタリア語の読み上げをアルゴリズムで行うスタンドアローン型の音声合成システム「MUSA(ミューザ)」を発表。3年後に発売されたバージョンでは、イタリア語で歌うことができるように。
  • 1970年頃:人間の声帯をもとにした初のシンセサイザーが開発される。
  • 1976年:視覚障害者用の読書機が完成。家庭に置くには高価だったが、図書館に設置されることが多かった。この時期に音声合成技術を使ったサービスが社会的にも少しづつ認知され始める。
  • 1980年代:音声合成を備えた初のアーケードゲーム「Stratovox 」がSun Electronics社より発売される。
  • 1980年代後半:スティーブ・ジョブズがTrillium Sound Research社のシステムであるNeXTを開発。ジョブズが90年代にこのプログラムをアップル社に統合。
  • 1980年代後半~90年代前半:音声合成は子音を柔らかくすることで、電子的な音を削り、より人間らしく聞こえるように。
  • 1995年:コーパスベース音声合成方式やマルコフモデル(HMM)による音声合成が発表
  • 1999年:マイクロソフト社がスクリーンリーダー「Narrator」を発表。
  • 2005年:音声合成の品質のばらつきが問題となったので、研究者の間で取り決めがなされ開発の標準化が進んだ。
  • 2013年 :Googleにより初の深層学習方式の音声合成が発表
  • 2016年 :DeepMindより深層学習による波形生成モデルWaveNetが発表
  • 2017年 :GoogleよりEnd-to-end方式による音声合成システムTacotronが発表
  • 2020年代:各社よりAIを学習を用いたハイエンド音声合成サービスが普及

 

 

AIを活用したDNN方式について

音声合成は人工知能(AI)と自然言語処理(NLP)の進歩により、以前よりも正確で自然な音声に変換できるようになりました。最先端の機械学習技術「ディープラーニング」の導⼊により、全体的な品質が向上し、感情表現がより繊細で⾃然になっただけでなく、従来の技術では難しかった相槌・語尾・⾔い回しなどの細かいニュアンスの表現⼒が⼤幅に向上。⼀般的にディープラーニングは⾼いマシンスペックを要求されますが、近年は改良を重ね従来版と近いマシンスペックでの動作が可能になっています。現在では、音声合成技術は格段と進化したので、視覚障害者向けのスクリーンリーダーなどのアクセシビリティ関連の利用もすごく増加しました。

こちらでもう少し詳しく解説しているページがありますのでご興味があればご覧ください。

 

 

音声合成の今後

AIとNLPが音声合成の精度や品質を向上させてくれるため、この先もっと肉声感を感じることができるようになると思います。それに合わせて用途も拡大することが期待されます。ウェブサイトや資料の読み上げから、メタバース内でのアシスタント音声、ゲーム内のNPC向け音声、オーディオブック、デジタル教科書まで日常のあらゆるシーンで音声合成が我々の生活をいまよりもっと支えてくれる存在になるはずです。