Embedding

EMBEDDING
読み: エンベディング

読み: エンベディング

エンベディングとは意味の数値化

Embeddingはテキストや画像をAIが処理できるベクトルと呼ばれる数値列に変換する技術。自然言語処理において単語や文章を多次元空間上の座標としてマッピングし、その距離で意味の近さを計算することで、企業独自のデータを用いた高精度なAIシステム構築の基盤となる。

かんたんに言うと

図書館の本を内容の似ている順に並べ替える作業に似ている。タイトルや著者名ではなく、本の中身のニュアンスを読み取り、恋愛小説と失恋エッセイを隣同士の棚に配置するようなものである。

テキストや画像をベクトルに変換してAIが意味を計算する仕組み

Embeddingはテキストや画像をベクトルと呼ばれる数値列に変換する技術。自然言語処理において、AIは文字をそのまま読んでいるわけではない。単語や文章を多次元空間上の座標としてマッピングし、その距離で意味の近さを計算している。
たとえば「りんご」と「みかん」は近い座標に配置され、「りんご」と「鉄骨」は遠く離れる。
この距離計算が、現在のAIの根幹を成している。
ただ、次元数が大きくなればなるほど、計算は重くなる。1536次元のベクトルを数百万件扱う場合、単純な総当たり計算ではシステムがフリーズする。現場では近似最近傍探索などのアルゴリズムを組み合わせて速度を稼ぐが、精度とのトレードオフは常に悩ましい。

法務や人事におけるセマンティック検索の実装

キーワードの一致に頼る従来の検索は、表記揺れに弱い。法務部門で過去の契約書を検索する際、「損害賠償」と「違約金」が同じ文脈で使われていても、単語が違えばヒットしない。ここでEmbeddingを用いたセマンティック検索が活きる。
OpenAI APIのtext-embedding-3-largeやAmazon Titan Text Embeddingsを使って社内文書をベクトル化し、PineconeやMilvusといったベクトルデータベースに格納する。これにより、意味が近い文書を瞬時に引き出せるようになる。
最近は人事部門でのスキルマッチングにも使われ始めた。職務経歴書のフリーテキストをベクトル化し、求める人物像のベクトルと照合する。
しかし、ツールを入れただけで魔法のように動くわけではない。

計算コストと文脈理解の壁

RAGを構築する際、Embeddingの精度がそのまま回答の質を左右する。検索段階で見当違いのドキュメントを拾えば、LLMは平気で嘘をつく。
ドキュメントのチャンク分割をどうするか。段落ごとにするか、文字数で区切るか。ここで判断が分かれる。
さらに、業界特有の専門用語が多い場合、汎用的なEmbeddingモデルでは意味を正しく捉えられないことがある。製造業のニッチな部品名や、社内特有の略語である。
これを解決するためにモデルのファインチューニングを試みる企業もあるが、計算コストと運用負荷が跳ね上がる。そこまでして独自のベクトル空間を作るべきか。多くの場合、メタデータを付与するハイブリッド検索で逃げる方が現実的である。

オンプレミスかクラウドサービスかの選択

機密性の高いデータを扱う場合、どこでベクトル化を行うかが争点になる。
OpenAI APIにデータを投げることを法務が許容しないケースは未だに多い。その場合、オンプレミス環境や閉域網で動かせるオープンソースのモデルを選ぶことになる。Hugging Faceで公開されているE5やBGEなどの軽量モデルをローカルサーバーで動かすアプローチ。
ただ、自前でインフラを維持するのは骨が折れる。GPUサーバーの調達から運用まで、情報システム部門の負担は計り知れない。
クラウドサービスのマネージドなベクトルデータベースを使うか、自社で泥臭く運用するか。
結局のところ、データが漏洩した際のリスクと、運用コストの天秤になる。どちらが正解かは、扱うデータの性質次第である。

当社の見解

当社はAI長期記憶システムを自社開発・運用している。開発のきっかけは、AIと経営戦略の壁打ちで出した結論がセッション切れで消えたことで絶望を感じた。1日かけて議論してきたことを振り返り、では事業計画書に落とし込むように指示を出したところ、「そのような記録はありません」と言われたことで、強烈な危機感を覚えこれは何としても解決しなければならない問題だと感じた。記憶がないAIは毎朝記憶喪失になる新入社員と同じだ。記憶があるAIは、前提条件を理解した上で本題に入れる。短いプロンプトで済むようになり、「前に言ったように実行して」と曖昧で短いプロンプトでも業務を遂行してくれる。同じことを繰り返し伝える回数も減り、開発業務でも同じミスを繰り返しにくくなり、人間の手戻りが減り、ストレスも減る。AIで本当に業務の質を上げるならば、記憶はマストである。

同じ失敗を二度としないAIエージェント

今のAIは、聞けば何でも答えてくれます。
でも、セッションが切れた瞬間に前回の失敗を忘れます。

当社が開発しているAIは、過去の経緯を念頭に置いて、
聞かれる前に「それは前回うまくいきませんでした」と声をかけます。
人間にも同じ失敗をさせず、AI自身も繰り返しません。

古参の社員が横にいるように、黙っていても気づいてくれる。
それが、当社が考える本当のAI社員です。

相談する