データクレンジング(Data Cleansing)
読み: データクレンジング
データクレンジングとは品質改善の要点
データクレンジングとは、データベースやスプレッドシートに蓄積された情報から、重複・欠損・表記揺れ・誤入力などの「汚れ」を検出し、修正・統一する作業のこと。AIモデルの学習精度は入力データの品質に直結するため、前処理工程のなかでも特に影響が大きい。
かんたんに言うと
データクレンジングとは、会社のデータベースに溜まった「ゴミデータ」を掃除する作業のこと。住所の「東京都」と「東京」が混在している、同じ顧客が別々の名前で2件登録されている、といったズレを見つけて直す。
ゴミデータがAI精度を壊すデータクレンジングの重要性と実務
機械学習の世界には「Garbage In, Garbage Out」という格言がある。汚れたデータで学習させたモデルは、汚れた結果しか返さない。たとえば顧客情報に重複レコードが大量に含まれていれば、分類モデルの精度が落ちるだけでなく、営業施策の対象者数を過大に見積もるリスクにもつながる。
データクレンジングはAI活用の「地味だが最重要」な工程として位置づけられている。モデルのアルゴリズムを高度にしても、入力データの品質が低ければ意味がない。
名寄せと表記統一の実務
クレンジング作業で頻出するのが「名寄せ」と呼ばれる処理になる。同一顧客の情報が「株式会社ABC」「(株)ABC」「ABC株式会社」のように異なる表記で複数登録されているケースを統合する作業を指す。
郵便番号が7桁と3桁+4桁で混在している、電話番号にハイフンがあったりなかったりする、といった表記揺れも対象になる。これらを放置すると分析軸がブレるため、データガバナンスの基盤として定期的な実施が求められる。
自動化の範囲と人間の判断が必要な領域
表記揺れの統一や明らかな欠損値の補完は、ルールベースのスクリプトやクレンジングツールで自動化できる。しかし、「この2件は同一顧客なのか別人なのか」「この異常値は入力ミスなのか本当に極端な実績値なのか」といった判断は、業務知識を持った人間が介在する必要がある。
AIを使ってクレンジングの候補を自動抽出し、最終判断は担当者が行うという「半自動」の運用がバランスの取れたアプローチとして採用されるケースが増えている。
当社の見解
データパイプラインは「動けばいい」で作ると、3か月後に保守不能になる。当社のAI記憶システムは18ステップの夜間統合パイプラインを毎日自動実行している。最も痛い教訓は、データとデザインを分離しなかったことで起きた事故だ。1,500ページのコンテンツを一括更新した際、データとHTMLが混在していたために全ページが壊れた。以降、データはデータベースに、デザインはテンプレートに分離する設計に切り替えた。
同じ失敗を二度としないAIエージェント
今のAIは、聞けば何でも答えてくれます。
でも、セッションが切れた瞬間に前回の失敗を忘れます。
当社が開発しているAIは、過去の経緯を念頭に置いて、
聞かれる前に「それは前回うまくいきませんでした」と声をかけます。
人間にも同じ失敗をさせず、AI自身も繰り返しません。
古参の社員が横にいるように、黙っていても気づいてくれる。
それが、当社が考える本当のAI社員です。
