DWH

DWH
読み: ディーダブリューエイチ

読み: ディーダブリューエイチ

DWHとは分析特化のデータ基盤

DWHはData Warehouseの略で、社内の複数システムから集めた大量の構造化データを統合的に蓄積し、分析やレポーティングに活用するための専用データベースを指す。業務システムとは別に設計され、過去から現在に至るデータを時系列で保持する点が特徴である。

かんたんに言うと

会社中に散らばった台帳や報告書を、1つの巨大な図書館に集めて索引をつけ、経営陣が欲しい数字をすぐ引き出せるようにした仕組み。日々の業務を記録するノートとは別物である。

業務データベースとは設計思想が根本的に異なるDWH

日々の受発注や顧客対応を記録する業務用のデータベースは、書き込みの速度が命。1秒間に何千件もの注文を処理し、在庫をリアルタイムに更新する。こうしたシステムをOLTP(Online Transaction Processing)と呼ぶ。
DWHはこれと真逆の設計思想を持つ。大量のデータを一気に読み出して集計する「分析」に最適化されている。OLAP(Online Analytical Processing)と呼ばれる設計で、「過去3年間の地域別売上推移」といった横断的なクエリを高速に返す。
業務データベースに直接分析クエリを投げると、処理が重くなって注文受付が遅延する。この干渉を避けるためにDWHが存在する。夜間バッチで業務データをDWHに転送し、分析はDWH側で行うという棲み分けが基本形である。

<a href="/ai-glossary/data-lake/">データレイク</a>との違いと使い分け

DWHとデータレイクは混同されやすいが、設計思想が異なる。
DWHは構造化データを前提とする。テーブルの列定義が事前に決まっており、データを投入する前にスキーマを設計する。「Schema on Write」と呼ばれる方式で、データの品質が担保される代わりに、柔軟性が低い。
データレイクは構造化データも非構造化データも区別なく格納する。ログファイル、画像、音声、JSON。何でも放り込んでおいて、分析するときに初めてスキーマを定義する「Schema on Read」方式である。
実務では両方を使い分けるケースが多い。まずデータレイクに生データを溜め、そこからクレンジングと変換を経てDWHに整形済みデータを格納する。この流れをデータパイプラインと呼び、ETL(Extract/Transform/Load)ツールが担う。
「とりあえずデータレイクに全部入れておけばいい」という発想で始めると、数年後にはゴミ溜めになっている。データカタログの整備やアクセス権限の設計を最初から組み込まないと、誰も使わない巨大ストレージが出来上がるだけである。

主要なDWH製品とクラウド移行

オンプレミス時代のDWHはTeradataやOracle Exadataが代表格だった。高性能だが導入コストも運用コストも高く、大企業専用の技術という位置づけだった。
クラウドの普及でこの構図が変わった。Amazon Redshift、Google BigQuery、Snowflakeの3つが市場を牽引している。
Redshiftは2012年にAWSが投入した最初のクラウドDWHで、既存のAWSインフラとの統合に強い。BigQueryはGoogleのインフラ上で動くサーバーレスDWHで、事前のクラスタ設計が不要なため立ち上げが速い。Snowflakeはストレージとコンピュートの分離設計が特徴で、マルチクラウド対応を売りにしている。
クラウドDWHの最大の利点は、使った分だけ課金される従量制モデル。ただし、クエリの書き方が非効率だと請求額が跳ね上がる。BigQueryでフルスキャンを安易に走らせて月末の請求書に驚いた、という話は実務でよく聞く。

AIとDWHの交差点

機械学習のモデルを訓練するにはデータが要る。そのデータがDWHに集約されているなら、DWHがLLMや予測モデルのデータソースになる。BigQuery MLのように、SQL文の延長で機械学習モデルを構築できるサービスも出てきた。
自然言語でDWHに問い合わせるText-to-SQLも注目されている。経営層が「先月の関東地区の売上を教えて」とチャットで聞くと、AIがSQLに変換してDWHから結果を引き出す。BIツールのダッシュボードを開かずとも、欲しい数字にたどり着ける。
とはいえ、AIが生成したSQLが正しい保証はない。集計条件の解釈を間違えれば、経営判断を誤らせるデータが返ってくる。人間によるクエリのレビューを省略するのは、まだ時期尚早だろう。

当社の見解

当社はツール選定において実用性を第一方針にしている。カタログスペックやベンチマークスコアではなく、実務で1週間使い倒して初めて判断する。フレームワークを増やすほど管理コストが増える経験もした。フックを増やしすぎてAIが情報過多でパニックになったこともある。足し算だけでなく、引き算の判断が選定の質を決める。検証せずに導入したツールは、ほぼ例外なく3か月以内に使わなくなった。

同じ失敗を二度としないAIエージェント

今のAIは、聞けば何でも答えてくれます。
でも、セッションが切れた瞬間に前回の失敗を忘れます。

当社が開発しているAIは、過去の経緯を念頭に置いて、
聞かれる前に「それは前回うまくいきませんでした」と声をかけます。
人間にも同じ失敗をさせず、AI自身も繰り返しません。

古参の社員が横にいるように、黙っていても気づいてくれる。
それが、当社が考える本当のAI社員です。

相談する