Speech-to-Text
読み: スピーチ・トゥ・テキスト
音声テキスト変換とは業務活用の要点
人間の発話を自動的にテキストデータへ変換する技術。ASR(Automatic Speech Recognition)とも呼ばれ、コールセンターの通話記録や会議の議事録作成、音声入力インターフェースなど、ビジネスの現場で急速に適用範囲が広がっている。
かんたんに言うと
電話の向こうで話している内容を、AIがリアルタイムで文字に書き起こす仕組みである。人間の速記者がやっていた作業を、機械が肩代わりする。
敬語と同音異義語が認識精度を下げる日本語Speech-to-Textの壁
英語のSpeech-to-Textは実用レベルに達している。だが日本語は事情が違う。
敬語の階層、同音異義語の多さ、カタカナ英語と本来の英語の混在。これらが認識精度を大きく引き下げる。「きかい」と発話されたとき、それが「機会」なのか「機械」なのかは前後の文脈で判断するしかない。人間なら無意識にやっていることだが、モデルにとっては厄介な問題である。
さらに、業界特有の専門用語がある。医療現場の「腺腫」、法律事務所の「瑕疵担保」。汎用モデルではまず正しく変換できない。カスタム辞書の登録やドメイン特化のファインチューニングが必須になる。近年のWhisperなど大規模音声モデル(Foundation Models)は、膨大な学習データにより、カスタム辞書なしでもある程度の専門用語や多言語混在を処理できる能力を持ち始めている。ただし、機密性の高い固有表現には依然として個別の対応が必要である。
リアルタイム処理とバッチ処理の使い分け
Speech-to-Textには2つの処理方式がある。
リアルタイム処理は、発話とほぼ同時にテキストを生成する。コールセンターでオペレーターの会話を即座にテキスト化し、FAQの自動検索に渡すような用途に向く。遅延は数百ミリ秒以内に抑える必要があり、インフラの負荷は高い。
一方、バッチ処理は録音データを事後的にまとめて変換する。1時間の会議音声を翌朝までにテキスト化する、といった使い方である。精度を重視して複数回のパスで補正をかけられるため、認識率はリアルタイム方式より高くなる。コストも低い。
どちらが正解かではない。業務要件で決まる。
会議の文字起こしが使い物にならない理由
「会議の議事録をAIで自動化したい」。この要望は多い。だが、実際に導入してみると期待外れに終わるケースが後を絶たない。
原因は明確である。会議室の音響環境が悪すぎる。
複数人が同時に発言する、マイクから遠い席の声が拾えない、空調のノイズが乗る。静かな環境で一人が明瞭に話すデモとは条件が全く違う。精度は一般にWER(単語誤り率)やCER(文字誤り率)で測定される。認識率95%を謳うサービスでも、それは極めてクリアな音声での数値であり、6人が議論する会議では体感70%程度まで落ちることがある。
現場でよくあるのが、導入直後は物珍しさで使うものの、結局「修正に時間がかかるなら自分でメモしたほうが早い」と2週間で放置されるパターンである。指向性マイクの導入や話者ごとのチャンネル分離など、音声の入り口を整えないと、どれだけ優秀なモデルを使っても成果は出ない。さらに、複数人の会議では「誰がいつ話したか」を特定する話者分離(Speaker Diarization)が最大の難所になる。これがズレると議事録としての価値は半減する。
後工程のAIと繋いで初めて価値が出る
テキストに変換しただけでは、ただの文字列である。価値はその先にある。
変換後のテキストをNLP(自然言語処理)に渡して感情分析を行えば、コールセンターの通話からクレームの兆候を自動検出できる。要約モデルに通せば、1時間の商談内容を3行にまとめることも技術的には可能である。
ただし、前工程の誤変換は後工程にそのまま伝播する。「売上」を「裏柄」と誤認識したテキストで感情分析を走らせても、意味のある結果は返ってこない。Speech-to-Textの精度がパイプライン全体のボトルネックになる構造。後工程を含めた全体設計を先に描き、必要な認識精度を逆算して要件定義する。順序を間違えると手戻りが大きい。
当社の見解
自然言語処理は英語中心で発展してきた技術だ。日本語で使うと、英語では起きない問題に頻繁にぶつかる。このAI用語集1,500ページを日本語で生成・運用する中で経験したのは、トークン化の方式によって出力品質が大きく変わること。英語のベンチマークで高得点のモデルが、日本語では使い物にならないケースがある。日本語で使うなら、日本語で検証してから選ぶべきだ。
同じ失敗を二度としないAIエージェント
今のAIは、聞けば何でも答えてくれます。
でも、セッションが切れた瞬間に前回の失敗を忘れます。
当社が開発しているAIは、過去の経緯を念頭に置いて、
聞かれる前に「それは前回うまくいきませんでした」と声をかけます。
人間にも同じ失敗をさせず、AI自身も繰り返しません。
古参の社員が横にいるように、黙っていても気づいてくれる。
それが、当社が考える本当のAI社員です。
