Voice Cloningとは
Voice Cloningとは、特定の人物の声の特徴をAIが学習
読み: ボイス・クローニング
特定の人物の声の特徴をAIが学習し、その声質やイントネーションを再現して任意のテキストを読み上げる技術。数秒の音声サンプルから声を複製できるモデルも登場している
かんたんに言うと
熟練のモノマネ芸人が本人の癖や息継ぎのタイミングまで完全にコピーして台本を読み上げるようなものである。ただし芸人と違って疲労を知らず多言語を流暢に操る。
機械的なTTSとは別物のディープラーニングによる声の再現技術
昔のカーナビのような機械的な音声合成を想像しているなら認識を改めたほうがいい。
現在のVoice Cloningはディープラーニングによって個人の声帯の震えや息遣いまで再現する。従来のTTSがテキストを単なる音の羅列に変換していたのに対し今の技術は声の質感を抽出する。
営業部門が顧客に送るパーソナライズ動画を想像してほしい。トップセールスの声で数千人の顧客一人ひとりの名前を呼びかける。これを人間が録音すれば喉が潰れるがAIなら数分で終わる。
ただどこまで感情を乗せられるかはモデルによって判断が分かれる。怒りや悲しみといった極端な感情表現はまだ不自然さが残るのが実情である。
ニューラルネットワークが解き明かす声の指紋
人間の声は複雑な音声波形の集まりである。ニューラルネットワークは数分から数時間のサンプリングデータからその人特有の周波数や抑揚のパターンを学習する。
現場でよくある勘違いが高音質のスタジオ録音が必要というもの。
実はスマートフォンで録音したノイズ混じりの音声でも実用に耐えうるクローンは作れてしまう。これが何を意味するかお分かりだろうか。
役員の声を勝手にサンプリングして偽の社内通達を作ることも技術的には容易だということ。人事部門が社内研修用のナレーションを社長の声で作ろうと企画するのはいいがその音声データの管理権限は誰が持つのか。非常に悩ましい。
ElevenLabsとDescriptが変えるコンテンツ制作の現場
実務で使えるツールは限られている。ElevenLabsは現時点で頭一つ抜けている。少量のデータからでも驚くほど自然なクローンを生成し多言語展開もスムーズである。
Descriptは動画編集の文脈で強力である。言い間違えた箇所をテキスト上で修正すれば自分の声で自然に修正後の音声が生成される。Murf AIも企業向けに使い勝手がいい。
経理部門が毎月の決算報告を動画で配信する際担当者が毎回マイクに向かう必要はなくなる。テキストを用意するだけでいつもの担当者の声で動画が完成する。
だがこれらのクラウドサービスに未発表の決算情報を食わせるリスクをどう評価するか。便利さの裏には常にデータ漏洩の影がちらつく。
多言語展開の恩恵とディープフェイクの脅威
Voice Cloning最大のメリットはスケーラビリティである。日本語で話した内容を本人の声質のまま英語や中国語で出力できる。海外展開を狙う企業にとってこれほど強力な武器はない。
しかし現場の落とし穴は思わぬところにある。
声のトーンが均一になりすぎて長時間の聴取には耐えられないケースが散見されるのである。法務部門がコンプライアンス研修の動画に導入した際声は社長だが感情がこもっておらず不気味だと社員から不評を買った事例がある。
どこまでをAIに任せどこからを人間の肉声にするか。この線引きは常に悩ましい。
声の生体認証を脅かすリスクとの向き合い方
導入を検討する際ばかりに目を奪われてはいけない。
最も警戒すべきはディープフェイクへの悪用である。金融機関の電話窓口で顧客の声色を模倣した詐欺が既に報告されている。声を生体認証のキーとして使っているシステムは根底から設計を見直す時期に来ている。
法務や情報セキュリティ担当者は生成された音声の著作権や肖像権さらには倫理的ガイドラインの策定に追われることになるだろう。
新しい技術を現場に投下すれば必ず予期せぬ摩擦が起きる。それをどうコントロールするか。実務家の腕が試されるのはまさにこの瞬間である。
同じ失敗を二度としないAIエージェント
今のAIは、聞けば何でも答えてくれます。
でも、セッションが切れた瞬間に前回の失敗を忘れます。
当社が開発しているAIは、過去の経緯を念頭に置いて、
聞かれる前に「それは前回うまくいきませんでした」と声をかけます。
人間にも同じ失敗をさせず、AI自身も繰り返しません。
古参の社員が横にいるように、黙っていても気づいてくれる。
それが、当社が考える本当のAI社員です。
