ボコーダー

VOCODER
読み: ボコーダー

読み: ボコーダー

ボコーダーとは音声合成の核心

ボコーダーは音声信号を分析し、その特徴を別の信号に載せ替えて再合成する技術である。もともとは通信帯域の圧縮を目的に開発されたが、現在はAI音声合成の最終段階でテキストから自然な音声波形を生成する役割を担っている。

かんたんに言うと

声の「骨格」だけを取り出して、別の音に着せ替える技術である。AI音声合成では、文章を自然な声に変換する最後の仕上げ工程を担当している。

通信帯域の節約から始まったボコーダーが現代のAI音声合成を支えるまで

ボコーダーの歴史は1938年まで遡る。ベル研究所のホーマー・ダドリーが、電話回線の帯域を節約するために開発した。人間の声をそのまま送ると帯域を大量に消費する。そこで声の周波数特性だけを抽出し、受信側で再合成するという発想が生まれた。
この技術が1970年代にシンセサイザーの世界に流れ込む。クラフトワークやダフト・パンクのロボットボイスはボコーダーの産物である。
音楽的な文脈で語られることが多いが、本質は音声の分析と再合成という信号処理技術であり、現在のAI音声合成の基盤にもなっている。

Text-to-Speechにおけるボコーダーの位置づけ

現代のText-to-Speechは大きく3つの工程に分かれる。まずテキストを言語的な特徴量に変換し、次にその特徴量からメルスペクトログラムと呼ばれる音響的な中間表現を生成する。最後にボコーダーがメルスペクトログラムを実際の音声波形に変換する。
この最終工程がなければ、どれだけ賢い言語モデルを使っても音は出ない。ボコーダーは裏方でありながら、音声の品質を左右する決定的な要素である。
Google CloudText-to-SpeechもAmazon Pollyも、最終段階ではニューラルボコーダーが動いている。

WaveNetからHiFi-GANへの技術進化

2016年にDeepMindが発表したWaveNetは、ディープラーニングを音声波形の生成に持ち込んだ転換点となった。1サンプルずつ波形を予測する自己回帰型のモデルで、当時としては驚くほど自然な音声を出力した。
ただし、1秒の音声を生成するのに数分かかるという致命的な遅さがあった。リアルタイム利用には程遠い。
その後、WaveRNNやWaveGlowといった高速化モデルが登場し、2020年にはHiFi-GANが一つの到達点となる。敵対的生成ネットワークの仕組みを使い、品質を保ちながらリアルタイムの数十倍の速度で音声を生成できるようになった。現在の多くの音声合成サービスはHiFi-GANか、その派生モデルを採用している。

ビジネス活用の広がりとディープフェイクの懸念

コールセンターの自動応答、ナビゲーション音声、ポッドキャストの自動読み上げなど、ボコーダー技術の恩恵を受ける場面は増えている。多言語対応のコストが下がり、1つのテキストから数十言語の音声を生成できるサービスも登場した。
一方で、声のクローニングという問題がある。数秒の音声サンプルからその人の声を再現する技術は、ボコーダーの進化と表裏一体である。CEOの声を模倣した詐欺電話の事例はすでに報告されている。
ゼロトラストの考え方が音声認証にも求められる時代になりつつある。声だけで本人確認する仕組みは、もはや単独では信頼できない。

音声合成の品質を左右する選定基準

ボコーダーの選定で重要なのは、品質とレイテンシのバランスである。オフラインのコンテンツ制作なら品質を最優先できるが、リアルタイムの音声対話では100ミリ秒を超える遅延がユーザー体験を損なう。
API経由で利用する場合は、サーバー側の推論速度に加えてネットワーク遅延も加算される。エッジデバイスでの推論を選ぶなら、モデルサイズの制約がかかる。
自社のユースケースが「事前に音声ファイルを作る」のか「リアルタイムに応答する」のかによって、最適なボコーダーの選択は変わる。用途を決めずに技術比較をしても、結論は出ない。

当社の見解

当社は機密情報のマスキング処理を全てローカルAIで行っている。これにより機密情報を外部に送信せずにAI処理できるようになった。だが、AIが嘘をつくハルシネーションの問題は依然としてある。確認していないのに「確認しました」と言う。当社はこの前提で運用を設計している。事実と推測の強制分離、ファクトチェック機能、3つのAIと人間の同士の三重検証を行っている。どこまでいっても、AIは完璧ではない。理論上100%安全設計をしていても、AIも人間も想定しないことは起こるものだ。その万が一に備えておくことが、AIを使う上では前提になっている。だろうではなく、かもしれない運用がAIを使う上での安全基盤となっている。

同じ失敗を二度としないAIエージェント

今のAIは、聞けば何でも答えてくれます。
でも、セッションが切れた瞬間に前回の失敗を忘れます。

当社が開発しているAIは、過去の経緯を念頭に置いて、
聞かれる前に「それは前回うまくいきませんでした」と声をかけます。
人間にも同じ失敗をさせず、AI自身も繰り返しません。

古参の社員が横にいるように、黙っていても気づいてくれる。
それが、当社が考える本当のAI社員です。

相談する