こんにちは、ReadSpeaker編集部です。
人工音声の進化とブランド価値の高まり
人間の声を模倣しようとする試みは、デジタルコンピューティングの夜明け以前から存在しています。
1770年代に遡ると、ハンガリーの学者ヴォルフガング・フォン・ケンペレンは、初期の合成音声を生み出す機械的な話し言葉の機械を製造しました。この機械のベローズやリード、ゴム製の発声カップは、SiriやAlexaのような洗練された音声とは程遠いものでしたが、それでも始まりでした。
しかし、現代のスマートスピーカーアプリにケンペレンの話し言葉の機械を活用することは難しいでしょう。今日の合成音声は、大規模に人間の話し言葉を模倣することで力を発揮します。デジタル合成音声は、人間の話し言葉の模倣であり、この拡張可能な展開はビジネスにとって主要な利点です。それは、すべてのオーディオチャネルに対して一貫したブランドボイスを提供することを意味します。
合成音声を理解するには、「合成」という修飾語から始めます。合成繊維や合成分子のように、これらは自然なものの製造版です。合成音声も同様であり、製造プロセスが品質において重要な違いを生むのです。
ブランドのためのパーソナル合成音声の開発
現代の合成音声で最も一般的なのはテキスト・トゥ・スピーチ(TTS)技術です。この技術は人間の声の録音から始まります。例えば、ReadSpeakerで作成するニューラルTTSでは、エンジニアはこれらの声の録音を使用して、テキストに対する正確な発音を予測するための深層ニューラルネットワーク(DNN)モデルをトレーニングします。トレーニングされたDNNモデルは、書かれた言葉を出典話者によく似た話し言葉に変換します。
合成音声のセールスファネル全体での利点
多くのイノベーションチームは顧客サービスを優先事項としています。これは、合成音声のコンセプトに組織を導く主な理由です。カスタムTTS音声なしには、音声主導のエンゲージメントプラットフォームで識別可能なブランド体験を提供することはできません。
しかし、利点は顧客サービスにとどまりません。音声ファーストのデジタルエンゲージメントは、セールスサイクル全体を支援することができます。
ウェブサイトやモバイルアプリにTTSを追加することは、視覚障害のある人々、読書障害のある訪問者、第二言語学習者、マルチタスクを行う人々、そして単に書かれた言葉よりもオーディオコンテンツを好むユーザーのアクセシビリティを向上させます。
ニューラル合成音声と従来の音声録音
TTSが広く利用可能になる前は、音声をスケールアップする唯一の方法は録音でした。これは、ラジオや放送テレビが主要な顧客エンゲージメントメディアだった時代にブランドが行っていたことです。録音された人間の声には依然として重要な役割がありますが、TTSが必要な用途もあります。
合成音声は、音声録音では提供できない機能を提供できます。例えば、自然言語生成(NLG)を使用する会話AIシステムでは、ユーザープロンプトに基づいて有益な応答を構成します。音声録音のみでは、オーディオ応答は事前計画されたもので固定されています。会話AIとTTSを使用すると、ボットはNLGモジュールが考え出すことができるものは何でも言うことができます。
パーソナライズ合成音声の未来
過去には、ヴォルフガング・フォン・ケンペレンの機械的な実験が利用可能な最良の合成音声でした。今日、私たちはニューラルテキスト・トゥ・スピーチを持っています。次は何でしょうか?TTS技術は急速なペースで前進しているため、間もなくわかるでしょう。しかし、いくつかの傾向はすでに明らかです。ビジネスユーザーにとって、合成音声は「持っていると良い」ものから「必要な」ものへと急速に進化しています。これは、2020年のパンデミックによるブランドと消費者間のリモートコミュニケーションへの突然のシフトによって大きく推進されています。
進化する深層ニューラルネットワークと音声テキストマークアップ言語は、感情的に表現力豊かなTTSの時代をもたらしています。初期のTTSが人間の声とロボットのハイブリッドのように聞こえたことを考えると、状況に応じた抑揚は、友好的でさえ慰めになる合成音声を作り出し、エンゲージメントごとにはるかに優れた顧客体験をもたらします。
消費者とのやり取りに新しい力強い方法を提供する会話AIですが、成功する戦略のためには、独自の合成音声が必要です。
ReadSpeakerであなただけのオリジナル音声をみつけてください。
「ReadSpeaker」では、パーソナライズしたあなたのためだけのオリジナル音声が作成可能です。
オリジナリティの高いブランディングにご興味のある方は、お気軽にお問い合わせください。