Kubernetes
読み: クバネティス
クバネティスとはAI基盤の自動管理
KubernetesはAI開発や運用において膨大な計算資源を管理し、コンテナ化されたアプリケーションの展開やスケーリングを行うシステムである。コンテナオーケストレーションの事実上の標準として広く利用されている。
かんたんに言うと
巨大な物流センターの配車係である。荷物の量に応じてトラックや作業員を瞬時に手配し、事故が起きれば即座に迂回ルートを指示して配送網を維持する。
KubernetesがAIインフラの膨大な計算処理を支えるコンテナオーケストレーションの基本
Dockerで作ったコンテナを本番環境で数個動かす程度なら手作業で事足りる。だが物流の需要予測AIのように、全国の拠点から毎秒送られてくるデータを処理するとなれば話は別である。
トラフィックの急増に合わせてコンテナを増やし、不要になれば減らす。このオーケストレーションを担うのがKubernetesである。元々はGoogleが自社の巨大なインフラを管理するために開発した技術がベースになっている。
AIの推論APIは負荷の波が激しい。
ここでインフラが落ちれば、配送トラックのルーティングが止まり現場は大混乱に陥る。だからこそ拡張性と可用性を担保する仕組みが求められる。ただ、すべてのシステムにこれが必要かと言われると判断が分かれる。
膨大な計算処理を配分するKubernetesの仕組み
Kubernetesの構造は独特である。最小単位であるPodの中にコンテナが入り、そのPodがNodeと呼ばれる物理サーバーや仮想マシン上で動く。そして複数のNodeを束ねたものがClusterである。
Kubernetesは各Nodeの空き容量を監視し、重い推論処理を要求するPodをリソースに余裕のあるNodeへ的確に割り当てる。特定のNodeがダウンしても、別のNodeで即座にPodを立ち上げ直す。この自己修復機能は運用者にとって非常にありがたい。
だが、この仕組みを理解して適切に設定ファイルを書く作業は苦痛を伴う。YAMLファイルのインデントが一つずれただけでシステム全体が沈黙することもある。どこまで動的にスケールさせるかの閾値設定も、実運用では悩ましいポイントである。
開発現場における活用事例と代表的な関連ツール
自前でサーバーを調達してKubernetesを構築するのは狂気の沙汰である。現在ではAmazon EKSやGoogle Kubernetes Engine、Azure Kubernetes Serviceといったクラウドプロバイダーのマネージドサービスを使うのが常識になっている。
機械学習の文脈ではKubeflowの存在を無視できない。
データの前処理からモデルの学習、推論APIのデプロイまで、機械学習パイプライン全体をKubernetes上で動かすためのツールキットである。これを使えば、データサイエンティストがインフラを意識せずにモデル開発に専念できると言われている。
現実はそう甘くない。Kubeflow自体のバージョンアップで既存のパイプラインが突然動かなくなるトラブルは日常茶飯事である。新しいツールを導入すれば運用が楽になるという幻想は早く捨てたほうがいい。
自社導入で得られる恩恵と運用上の技術的ハードル
システムをマイクロサービス化し、特定のクラウドベンダーに依存しないベンダーロックイン回避を実現できるのは大きな恩恵である。オンプレミスとクラウドをまたいだハイブリッド環境でも同じようにAIを動かせる。
しかし、学習コストの高さは異常である。
ネットワーク、ストレージ、セキュリティの設定など、覚えるべき概念が多すぎる。専任のインフラエンジニアを確保できない企業が手を出せば、設定の不備から情報漏洩を引き起こすリスクすらある。
物流現場のAI導入において、本当にKubernetesが必要な規模なのか。単一の仮想マシンで十分なケースも多い。流行りの技術だからという理由で採用すると、運用フェーズで確実に後悔する。技術選定は常に引き算で考えるべきである。
当社の見解
当社はツール選定において実用性を第一方針にしている。カタログスペックやベンチマークスコアではなく、実務で1週間使い倒して初めて判断する。フレームワークを増やすほど管理コストが増える経験もした。フックを増やしすぎてAIが情報過多でパニックになったこともある。足し算だけでなく、引き算の判断が選定の質を決める。検証せずに導入したツールは、ほぼ例外なく3か月以内に使わなくなった。
同じ失敗を二度としないAIエージェント
今のAIは、聞けば何でも答えてくれます。
でも、セッションが切れた瞬間に前回の失敗を忘れます。
当社が開発しているAIは、過去の経緯を念頭に置いて、
聞かれる前に「それは前回うまくいきませんでした」と声をかけます。
人間にも同じ失敗をさせず、AI自身も繰り返しません。
古参の社員が横にいるように、黙っていても気づいてくれる。
それが、当社が考える本当のAI社員です。
