AIテクノロジーの進化にともない、倫理に関する議論は全世界で続いています。
ですが下記については議論の余地がありません。
・他人の物を許可なく使ってはいけない。
・約束していない事を勝手にしてはいけない。
・人々を傷つける製品を作ってはいけない。
ReadSpeakerではAI音声技術の最前線に立ち、音声合成の倫理的側面にも配慮しながら技術革新を進めてきました。
最近はAI業界での新技術が、倫理的側面をないがしろにしながら拡大している事に不安を感じています。
この記事では、テキスト読み上げ(音声合成)ビジネスにおけるAIの倫理について、当社の視点を共有したいと思います。
AI音声の本質
まず、AI音声が何であるかを明確にしたいと思います。
簡単に定義すると、AI音声はディープニューラルネットワークに基づいて構築された人間の音声合成モデルです。
ディープニューラルネットワーク(DNN)は、人間の脳を基にした機械学習アーキテクチャです。複数の層で構成された人工ニューロンの処理単位を使って、音声データから複雑なパターンを学習します。
適切なDNNを人間の音声にトレーニングすると、その音声を模倣する音声信号が生成されます。この結果をニューラル音声またはAI音声と呼びます。DNNが人工知能の一形態であるためです。
ここで重要なポイントは、すべてのAI音声には音声データの元になる声のモデルがいるということです。合成音声は非常に個人的な知的財産のひとつです。残念ながら最近のAIバブルにより、すべてのAI音声プロバイダーがこれらの権利を尊重しているわけではありません。
誰もが簡単に作成できるAI音声生成ツールのように、個人で自由に生成したAI音声をインターネットにアップロードする事は、声優(および音声の持ち主)の権利を侵害する事につながります。
B2BとB2CのAI音声生成ツールと声優の権利
アプリ等で簡単に合成音声を作成できるAI音声プロバイダーは主にB2Cモデルで運営しており、誰にでも販売する事ができます。
一方、私たちReadSpeakerはB2Bでのみ運営しています。私たちは趣味や娯楽目的で使用する個人ではなく、企業向けのサービスとして展開しています。
私たちのB2Bモデルは個人向けに販売するビジネスと違って、音声合成の元データとなる声優の権利を保護することを、慎重かつ重要に考えています。声優やAI音声を使用する企業との契約により、承認された目的のみに限定的に使用する事をお約束します。
AI音声合成の不倫理的な使用
AI音声が「倫理的」か「非倫理的」かを決定する要素は2つあります。
どのように構築されるかと、どのように使用されるかです。これらを倫理的危機のポイントとなる上流および下流の実践と呼びます。上流の倫理的違反はデータ収集に関連します。
ニューラル音声は、その音声データをどこから収集するかが非常に重要です。
ポッドキャストやオーディオブックは、利用可能なデータがたくさんあります。誰にも許可なく音声データを収集して、AI音声を作成することも可能です。それは明らかに非倫理的ですが、個人ユーザーがインターネットで無許可で使用している事が良くあります。
また音声合成企業が非倫理的かつ、場合によっては違法なデータ収集をする事があります。
それは個人利用ができるB2C AI音声生成ツールやアプリ、クローン音声サービスは、個人ユーザーが収集した音声データを元に自由に合成音声を作成できてしまいます。
これらのツールを使えば、数秒の音声データから誰もが音声をクローンできます。
私たちの声はソーシャルメディアにあふれています。スマートスピーカー、音声対応アプリ経由等で、多くのサーバーに私たちの音声データが保存されていることも少なくありません。言い換えれば私たちは声を使った詐欺に対して非常に脆弱です。
即席で作成したAI音声はハイクオリティではありませんが、政治的なディープフェイクやなりすまし詐欺へは使えるレベルなので、気を付ける必要があります。
下流の倫理的違反は、合成音声の許可されていない使用に関連します。合成音声の提供には主に3つの利害関係者がいます。
- 声優:音声データの提供者
- AI音声の作成者:ReadSpeakerのような合成音声プロバイダー
- 合成音声ユーザー:合成音声を聴衆に届ける組織
これらの利害関係者全員が、AI音声の適切な使用について合意すべきです。承認された契約外でAI音声を展開することは、深刻な被害を引き起こす可能性があり、各関係者に異なる影響を及ぼします。
AI音声の許可されていない使用が引き起こす被害
-
声優
商業的な合成音声データは、声優によって提供される事が一般的です。AI音声作成者が声優の音声をクローンし、その使用を厳密に管理しない場合、その声優は仕事を失う可能性があります。
「私の声は私自身であり、同時に私の生計手段でもあります。」
とある声優は語りました。
「もし誰かが私の声を盗んだら、それで終わりです。」
「私の声を奪えば、私の収入を奪うことになります。」
声優の権利を守らなければ、自分の声が成人向け動画やヘイトスピーチなど、自分が承認しないコンテンツに使用されるリスクにも直面します。それは収入の喪失だけでなく、道徳的な傷害を引き起こす可能性があります。声優が許可されていない場面にどれだけ脆弱であるかがわかるでしょう。
-
AI音声作成者
ReadSpeakerを含む倫理的なAI音声作成者も、制御されていないAI音声の氾濫によって被害を受けます。AI音声を倫理的に展開するには、多くの時間、費用、そして多くの警戒が必要です。規則を守らない企業は、声優を傷つけながら、そして潜在的には販売先の顧客をも傷つけ、アンフェアなビジネスを展開します。
-
合成音声ユーザー
これはAI音声を消費者に届ける組織です。企業はウェブアクセシビリティ向上や、eラーニングコンテンツ作成、列車の車内放送など、さまざまな目的でAI音声を使用するかもしれません。
どのように使用するかにかかわらず、そのAI音声はブランドアイデンティティの一部となります。その音声が違法または不正なコンテンツに使われたらどうでしょうか。その場合、提供者が上流の倫理的違反を犯していた場合、法的な危険にもさらされる可能性があります。
これらは倫理的な行動に値しません。私たちReadSpeakerはすべての意思決定を「倫理的概念」の元に判断しています。
私たちのゴールはあらゆる危機を防止しながら、最もハイクオリティな合成音声を提供することです。
ReadSpeakerは音声合成業界で25年以上にわたり培ってきた実績と、世界中の12,000以上の顧客に提供してきた経験に基づき、誠実で最善なサービスを提供する事をお約束します。