主成分分析

PRINCIPAL COMPONENT ANALYSIS
読み: シュセイブンブンセキ

読み: シュセイブンブンセキ

主成分分析とはデータ次元圧縮の基礎

主成分分析(PCA)とは、多くの変数を持つデータから情報の損失を最小限に抑えつつ、少数の新しい軸に圧縮する統計手法のこと。高次元データの可視化、特徴量の圧縮、ノイズの除去に活用される。機械学習の前処理として広く使われている基盤技術である。

かんたんに言うと

100科目の成績を「理系力」と「文系力」の2軸に要約するような処理。個々の科目の点数は失われるが、生徒の全体像を把握するには十分な情報が残る。

変数が多すぎて見えないデータを圧縮する主成分分析の出発点

データ分析の現場では、変数の数が膨大になることが珍しくない。ECサイトの顧客データなら、年齢、性別、購買回数、平均購入額、最終購入日、閲覧カテゴリ数、カート放棄率。変数が増えるほどデータの「次元」は高くなる。
次元が高くなると、データの可視化が困難になる。3次元まではグラフに描けるが、50次元のデータを人間が直感的に把握する方法はない。
主成分分析は、元の変数の情報をなるべく保ちながら、2つか3つの新しい合成変数に圧縮する。この合成変数が「主成分」と呼ばれるものである。数学的にはデータの分散が最大になる方向を軸として抽出する処理にあたる。

固有値と寄与率で読み解く分析結果

主成分分析を実行すると、各主成分の固有値と寄与率が出力される。
固有値はその主成分がどれだけの情報量を持っているかを示す。寄与率は全体の情報量に対する割合で、第1主成分の寄与率が60%、第2主成分が20%なら、2つ合わせて元データの80%の情報を説明できる。
累積寄与率が80%から90%に達する主成分数を採用するのが一般的な目安だが、業務の目的によって判断は変わる。可視化が目的なら2つに絞るし、機械学習の特徴量として使うなら累積寄与率95%まで残すこともある。
ここで見落としがちなのが、主成分の解釈である。数学的に最適な軸が、ビジネス的に意味のある軸になるとは限らない。「この第1主成分は何を表しているのか」を言語化できなければ、分析結果を意思決定に活かすのは難しい。

機械学習の前処理としてPCAが選ばれる理由

特徴量が数百から数千に及ぶデータセットでは、そのままディープラーニングモデルに投入すると計算コストが膨大になり、過学習のリスクも高まる。
PCAで次元を削減しておけば、学習時間の短縮とモデルの汎化性能の向上が見込める。特に古典的な機械学習モデル(ロジスティック回帰やSVMなど)では、特徴量の次元を適切に絞ることが精度に直結する。
ただし、PCAは線形変換であるため、非線形な構造を持つデータではt-SNEやUMAPといった非線形次元削減手法のほうが適している場合もある。画像データや自然言語のエンベディングはこちらのケースにあたることが多い。

実装はPython数行で済むが、解釈には経験が要る

scikit-learnを使えば、PCAの実装はimportからfitまで5行程度で完了する。技術的なハードルは低い。
問題はその先にある。出てきた主成分をどう読み解くか。各変数の主成分への寄与度(ローディング)を確認し、「第1主成分は購買力に関連する変数の重みが大きい。第2主成分は行動の多様性を反映している」といった解釈を導く作業は、ドメイン知識なしにはできない。
Excelで実行するには限界があるため、Pythonのmatplotlibやseabornで主成分得点の散布図を描いて視覚的に確認するのが定番の進め方である。外れ値がクラスターから離れて孤立していたり、想定外のグループが浮かび上がったりと、可視化によって初めて気づく発見は少なくない。

当社の見解

技術の選定で最も避けるべきは「流行っているから」という理由で導入することだ。当社は複数のAIツール・フレームワークを実際に検証した上で、自社の用途に合うものだけを採用している。検証せずに導入したツールは、ほぼ例外なく3か月以内に使わなくなった。実装指示した人間側が実装したことも忘れて、気が付けば動いていない機能があった、ということも起きる。さらに、MCPやフックやルールを増やしすぎてAIが情報過多で機能しなくなった経験もある。どんなにルールや機能を付け足しても機能しなければ意味がない。足し算より引き算。1週間の検証期間が、3か月の手戻りを防ぐ。

同じ失敗を二度としないAIエージェント

今のAIは、聞けば何でも答えてくれます。
でも、セッションが切れた瞬間に前回の失敗を忘れます。

当社が開発しているAIは、過去の経緯を念頭に置いて、
聞かれる前に「それは前回うまくいきませんでした」と声をかけます。
人間にも同じ失敗をさせず、AI自身も繰り返しません。

古参の社員が横にいるように、黙っていても気づいてくれる。
それが、当社が考える本当のAI社員です。

相談する