Sparse Retrieval (BM25)とは
Sparse Retrieval (BM25)とは、Sparse Retrievalは、情報検索において
読み: スパースリトリーバルビーエムニジュウゴ
Sparse Retrievalは、情報検索において、文書やクエリを疎なベクトルで表現し、類似度を計算する手法群である。BM25(Best マーケティングオートメーション (MA)tching 25)は、その中でも代表的なアルゴリズムの一つであり、単語の出現頻度に基づいて関連性を評価する。大規模なテキストデータから関連性の高い文書を効率的に検索するために用いられる。
かんたんに言うと
Sparse Retrieval (BM25)は、文書と質問に含まれる単語の出現頻度を元に、どれだけ関連があるかを判断するシンプルな検索方法である。
BM25の仕組み
BM25は、文書中の単語の出現頻度(TF)と、文書全体における単語の出現頻度の逆数(IDF)を組み合わせてスコアを算出する。TFは、特定の単語が文書内でどれだけ頻繁に出現するかを示す。IDFは、その単語がどれだけ珍しいかを示す指標であり、一般的な単語よりも珍しい単語に高い重みを与える。これらの要素を組み合わせることで、BM25は文書とクエリの関連性を評価する。
Sparse Retrievalの利点
Sparse Retrievalの利点は、計算コストが比較的低いことと、実装が容易であることである。大規模なデータセットに対しても高速に検索を実行できるため、実用的な情報検索システムで広く利用されている。また、単語の出現頻度というシンプルな指標に基づいているため、結果の解釈が容易である。さらに、専門的な知識がなくても比較的容易に利用できる。
Sparse Retrievalの課題
Sparse Retrievalの課題は、単語の意味的な関連性を考慮できない点である。例えば、「車」と「自動車」のように、意味が類似している単語であっても、異なる単語として扱われる。そのため、クエリと文書で異なる単語が使われている場合、関連性を見逃す可能性がある。この課題を克服するために、単語の埋め込み表現を用いるDense Retrievalなどの手法が研究されている。
同じ失敗を二度としないAIエージェント
今のAIは、聞けば何でも答えてくれます。
でも、セッションが切れた瞬間に前回の失敗を忘れます。
当社が開発しているAIは、過去の経緯を念頭に置いて、
聞かれる前に「それは前回うまくいきませんでした」と声をかけます。
人間にも同じ失敗をさせず、AI自身も繰り返しません。
古参の社員が横にいるように、黙っていても気づいてくれる。
それが、当社が考える本当のAI社員です。
