Vector Search
読み: ベクター・サーチ
ベクトル検索とは意味で探すAI技術
テキストや画像などの非構造化データを多次元の数値配列に変換し意味や文脈の類似性に基づいて直感的に情報を探し出すAI時代の検索技術。
かんたんに言うと
図書館で「赤い表紙の悲しい小説」と司書に伝えると、タイトルを知らなくても該当する本を棚から見つけ出してくれる仕組み。
キーワード一致では見つからない情報を意味で探し出すVector Searchの全体像
法務部門で過去の契約書を探すとき「契約解除」と検索窓に打ち込んでも「解約」と書かれた文書はヒットしない。これが従来のキーワード検索の限界である。
単語の完全一致に依存するシステムは、表記揺れや同義語に弱い。
そこで登場するのがセマンティック検索を支えるベクトル検索である。テキストや画像といった非構造化データを多次元の数値配列に変換し、意味の近さを計算する。
「契約解除」と「解約」は文字面が違っても意味は近い。だから見つけ出せる。
本当にそれだけで万能なのだろうか。
データを数値化して類似度を測る仕組み
データを数値の配列に変換する処理をEmbeddingと呼ぶ。OpenAIのtext-embedding-3-largeのようなモデルを使えば、文章は数千次元のベクトル空間に配置される。
意味が近いデータは空間上で近くに集まる。この距離をコサイン類似度などで測るのが基本原理である。
理屈は美しい。
だが現場でこれを実装すると、思わぬ壁にぶつかる。社内特有の専門用語や略語を汎用モデルが正しくベクトル化できるとは限らない。ファインチューニングすべきか、そのまま強行するか。ここは判断が分かれる。
ビジネスにおける活用シーンと代表的なツール
製造業の設計部門を想像してほしい。過去の類似図面を探す際、ファイル名ではなく図面の特徴から検索できたらどれほど楽か。
PineconeやMilvusといった専用のベクトルデータベースがこの領域を牽引している。既存のElasticsearchにベクトル検索機能を追加してハイブリッド検索を組む企業も増えた。
LLMに社内文書を読み込ませるRAGの構築にも、この技術が組み込まれている。
ただ、ツールを導入すれば魔法のように欲しい情報が出てくるわけではない。
導入で得られる恩恵と注意すべき限界
表記揺れを吸収し、多言語間の検索すら可能にする恩恵は計り知れない。
しかし、現場の落とし穴は深い。
物流部門で「型番A-123」を検索したとしよう。ベクトル検索は意味の近さを優先するため「型番A-124」を上位に返してくることがある。厳密な品番の一致が求められる場面でこれを使えば、現場は大混乱に陥る。
キーワード検索とベクトル検索を組み合わせるハイブリッド検索が現実解になることが多いが、検索精度のチューニングは泥沼である。重み付けをどうするか、常に悩ましい。
自社にベクトル検索が必要か見極めるポイント
流行りに乗ってAPIを叩き、SaaSのベクトルデータベースを契約するのは簡単である。
だが、検索対象となる社内データは綺麗に整っているだろうか。
ゴミのようなデータをいくら高次元空間にマッピングしても、出てくるのはゴミでしかない。データクレンジングの泥臭い作業から逃げることはできない。
自社の検索要件は本当に意味の類似性を求めているのか。単なる全文検索のチューニングで事足りるのではないか。
最新技術を導入すること自体を目的化してはならない。システムを運用する人間の覚悟が問われている。
当社の見解
当社はAI長期記憶システムを自社開発・運用している。開発のきっかけは、AIと経営戦略の壁打ちで出した結論がセッション切れで消えたことで絶望を感じた。1日かけて議論してきたことを振り返り、では事業計画書に落とし込むように指示を出したところ、「そのような記録はありません」と言われたことで、強烈な危機感を覚えこれは何としても解決しなければならない問題だと感じた。記憶がないAIは毎朝記憶喪失になる新入社員と同じだ。記憶があるAIは、前提条件を理解した上で本題に入れる。短いプロンプトで済むようになり、「前に言ったように実行して」と曖昧で短いプロンプトでも業務を遂行してくれる。同じことを繰り返し伝える回数も減り、開発業務でも同じミスを繰り返しにくくなり、人間の手戻りが減り、ストレスも減る。AIで本当に業務の質を上げるならば、記憶はマストである。
同じ失敗を二度としないAIエージェント
今のAIは、聞けば何でも答えてくれます。
でも、セッションが切れた瞬間に前回の失敗を忘れます。
当社が開発しているAIは、過去の経緯を念頭に置いて、
聞かれる前に「それは前回うまくいきませんでした」と声をかけます。
人間にも同じ失敗をさせず、AI自身も繰り返しません。
古参の社員が横にいるように、黙っていても気づいてくれる。
それが、当社が考える本当のAI社員です。
