非構造化データ

UNSTRUCTURED DATA
読み: ひこうぞうかデータ

読み: ひこうぞうかデータ

非構造化データとはAI活用の鍵

非構造化データとは、行と列のテーブル形式に収まらないデータの総称である。メール本文、契約書PDF、会議の録音、監視カメラの映像、SNSの投稿。企業が保有するデータの80%以上はこの形式で存在しており、AI活用の成否はこの膨大な非構造化データをどう扱うかにかかっている。

かんたんに言うと

Excelの表に入らないデータすべてが非構造化データにあたる。議事録、写真、動画、音声ファイルなど、日常業務で生まれるデータの大半がこれに該当する。

売上や在庫のように整理できないデータが企業資産の大半を占めている

売上や在庫のような数値データは、データベースのテーブルに格納すれば終わる。構造化データと呼ばれるものである。問題は、業務で生まれるデータの大部分がこのテーブルに収まらないことにある。
営業担当が書いた商談メモ、Slackで飛び交う技術的な相談、顧客から届くクレームメール。これらは全て自由記述であり、行と列の枠組みでは扱えない。
IDCの調査によれば、世界で生成されるデータの約80%が非構造化データとされる。企業の情報資産のほとんどが、誰にも検索されないまま各所に散らばっている。

テキスト、画像、音声、動画に分かれるデータの種類

非構造化データは大きく4種類に分かれる。
テキストデータが最も身近で、契約書、社内Wiki、顧客レビューなどが含まれる。画像データは製品写真、設計図面、医療画像など。音声データはコールセンターの通話録音やポッドキャスト。動画データは研修映像や工場の監視カメラ映像がこれにあたる。
それぞれ処理に必要な技術が異なる。テキストなら自然言語処理、画像ならコンピュータビジョン、音声なら音声認識モデル。一口に「非構造化データの活用」と言っても、実際にはデータの種類ごとに全く別のパイプラインを組む必要がある。

RAGやテキストマイニングとの関係

非構造化データの活用で近年注目されているのがRAGである。社内のPDFやWordファイルをエンベディングで数値化し、ベクトルデータベースに格納する。ユーザーが質問すると、関連するテキスト片を検索してLLMに渡し、回答を生成させる。
テキストマイニングも古くから使われてきた手法で、大量の文書から傾向やパターンを統計的に抽出する。顧客レビューの感情分析やコールセンターのFAQ自動分類などに使われている。
とはいえ、どちらの手法も前提条件がある。元のデータが読み取れる状態になっていなければ話にならない。スキャンPDFのOCR精度が低い、音声データの書き起こしが不正確、そもそもファイル名が意味不明。こうしたデータ品質の問題が最初の壁になる。

活用を阻む現実的なハードルと対処の方向性

多くの企業がPoC段階で躓くのは、データの整理が追いついていないからである。ファイルサーバーに10年分の資料が無秩序に溜まっている状態で、AIに読ませても精度は出ない。
まずはデータのカタログ化から始めるのが現実的な進め方になる。どこに何があるかを把握し、重複や不要ファイルを整理する。その上でOCR音声認識の精度を検証し、使えるデータと使えないデータを仕分ける。
地味な作業だが、ここを飛ばしてAIツールを導入しても期待した成果は得られない。非構造化データの活用はAIの問題ではなく、データ管理の問題である。

当社の見解

当社はAI長期記憶システムを自社開発・運用している。開発のきっかけは、AIと経営戦略の壁打ちで出した結論がセッション切れで消えたことで絶望を感じた。1日かけて議論してきたことを振り返り、では事業計画書に落とし込むように指示を出したところ、「そのような記録はありません」と言われたことで、強烈な危機感を覚えこれは何としても解決しなければならない問題だと感じた。記憶がないAIは毎朝記憶喪失になる新入社員と同じだ。記憶があるAIは、前提条件を理解した上で本題に入れる。短いプロンプトで済むようになり、「前に言ったように実行して」と曖昧で短いプロンプトでも業務を遂行してくれる。同じことを繰り返し伝える回数も減り、開発業務でも同じミスを繰り返しにくくなり、人間の手戻りが減り、ストレスも減る。AIで本当に業務の質を上げるならば、記憶はマストである。

同じ失敗を二度としないAIエージェント

今のAIは、聞けば何でも答えてくれます。
でも、セッションが切れた瞬間に前回の失敗を忘れます。

当社が開発しているAIは、過去の経緯を念頭に置いて、
聞かれる前に「それは前回うまくいきませんでした」と声をかけます。
人間にも同じ失敗をさせず、AI自身も繰り返しません。

古参の社員が横にいるように、黙っていても気づいてくれる。
それが、当社が考える本当のAI社員です。

相談する