回帰分析
読み: カイキブンセキ
回帰分析とは予測モデルの基礎手法
回帰分析は、ある変数と別の変数の関係を数式でモデル化する統計手法である。広告費と売上、気温とアイスの販売数のように「何かが変われば何かが動く」関係を定量的に捉えるために使われる。機械学習の多くのアルゴリズムも、突き詰めれば回帰分析の延長線上にある。
かんたんに言うと
散らばったデータの点に、最もフィットする線を引く手法。その線を延長すれば、まだ見ていない未来の数字を予測できる。
中学数学の一次関数から始まる回帰分析の線形回帰と最小二乗法
最もシンプルな形は線形回帰と呼ばれる。y = ax + bの直線を引いて、データ全体の傾向を1本の式で表現する。aが傾き、bが切片。中学数学の一次関数と同じ構造である。
ただし現実のデータは直線上にきれいに並ばない。各データ点と直線の距離を二乗して合計し、その合計が最も小さくなる線を選ぶ。最小二乗法と呼ばれるこの計算が、回帰分析の心臓部にあたる。
Excelでも散布図にトレンドラインを追加すれば線形回帰は動く。統計ソフトを使わなくても体験できるので、数字に苦手意識がある人はまずそこから触ってみるといい。
ロジスティック回帰と分類への応用
線形回帰は「いくらになるか」を予測する。一方、「どちらに分類されるか」を予測するのがロジスティック回帰である。メールがスパムかどうか、顧客が解約するかどうか。答えがYesかNoの二択になる問題に使う。
出力値を0から1の範囲に押し込めるシグモイド関数を通すことで、確率として解釈できるようにする。「この顧客が来月解約する確率は72%」といった数字が出てくるのはこの仕組みによるものである。
名前に「回帰」とついているが、やっていることは分類。ここで混乱する人は多い。歴史的な経緯で名前がそうなっただけで、用途は明確に分類タスクに向いている。
機械学習における回帰分析の位置づけ
ディープラーニングやランダムフォレストのような手法も、回帰問題を解いているケースは多い。住宅価格の予測、需要予測、在庫の最適化。裏側で動いているのは、入力と出力の関係をモデル化するという回帰分析の発想そのものである。
とはいえ、複雑なモデルが常に正解とは限らない。説明変数が5つしかないデータにニューラルネットワークを持ち出す必要はない。線形回帰で十分な精度が出るなら、そちらのほうが解釈しやすく、ビジネス上の意思決定に使いやすい。
現場でよくある失敗は、精度を追い求めてブラックボックス化したモデルを作り、経営層に「なぜその数字になるのか」を説明できなくなるパターンである。
ビジネスでの活用と落とし穴
マーケティングでは広告費とROIの関係分析、営業では商談スコアリング、人事では離職予測。回帰分析の活用範囲は広い。
ただし「相関と因果は違う」という統計学の大原則を忘れてはいけない。アイスの売上と水難事故の件数は強い正の相関を示すが、アイスが水難事故を引き起こしているわけではない。背後に「気温」という共通の原因がある。
回帰分析の結果を見て「Aを増やせばBが上がる」と短絡的に判断すると、的外れな施策に予算を投じることになる。数字が出たら、まずその因果関係を疑う癖をつけてほしい。
当社の見解
技術の選定で最も避けるべきは「流行っているから」という理由で導入することだ。当社は複数のAIツール・フレームワークを実際に検証した上で、自社の用途に合うものだけを採用している。検証せずに導入したツールは、ほぼ例外なく3か月以内に使わなくなった。実装指示した人間側が実装したことも忘れて、気が付けば動いていない機能があった、ということも起きる。さらに、MCPやフックやルールを増やしすぎてAIが情報過多で機能しなくなった経験もある。どんなにルールや機能を付け足しても機能しなければ意味がない。足し算より引き算。1週間の検証期間が、3か月の手戻りを防ぐ。
同じ失敗を二度としないAIエージェント
今のAIは、聞けば何でも答えてくれます。
でも、セッションが切れた瞬間に前回の失敗を忘れます。
当社が開発しているAIは、過去の経緯を念頭に置いて、
聞かれる前に「それは前回うまくいきませんでした」と声をかけます。
人間にも同じ失敗をさせず、AI自身も繰り返しません。
古参の社員が横にいるように、黙っていても気づいてくれる。
それが、当社が考える本当のAI社員です。
