Amazon EC2
読み: アマゾンイーシーツー
EC2とはクラウド計算資源の基本
Amazon EC2はAWSが提供する仮想サーバーサービスで、数分でサーバーを立ち上げ、使った分だけ料金を払う従量課金モデルを採用している。AI開発ではGPU搭載インスタンスが大規模モデルの学習や推論に使われており、クラウド上のAI基盤として中心的な役割を担う。
かんたんに言うと
必要なときに必要なスペックのパソコンをネット上で借りられるサービスである。ハイスペックなGPUマシンも、ボタンひとつで調達できる。
需要に応じて伸縮するAmazon EC2の仮想サーバーとインスタンスの基本
EC2は「Elastic Compute Cloud」の略称である。Elasticという名前の通り、サーバーの台数やスペックを需要に応じて伸縮させられる点が物理サーバーとの決定的な違いとなる。
1台のEC2を「インスタンス」と呼ぶ。インスタンスにはCPU、メモリ、ストレージ、ネットワーク帯域が割り当てられ、Linuxでも Windowsでも好きなOSを載せられる。
起動に数分、停止もワンクリック。自社のサーバールームに物理マシンを置いていた時代と比べると、調達リードタイムが週単位から分単位に縮まった。
インスタンスタイプの選び方とAI向けGPUシリーズ
EC2のインスタンスタイプは用途別にファミリーが分かれている。汎用のM系、コンピュート最適化のC系、メモリ最適化のR系、そしてAI用途で重要になるのがGPU搭載のPシリーズとGシリーズである。
P5インスタンスにはNVIDIA H100が8基搭載されており、大規模モデルの学習に使われる。推論だけならG6インスタンスのL4 GPUでコストを抑えられる場合もある。
とはいえ、GPU搭載インスタンスは時間単価が高い。p5.48xlargeを1時間動かすだけで数十ドルかかる。「とりあえずGPUインスタンス」と選ぶのではなく、学習なのか推論なのか、バッチ処理なのかリアルタイムなのかで選定基準が変わる。
オンデマンドとリザーブドとスポットの料金体系
EC2の料金モデルは大きく3つに分かれる。
オンデマンドは使った秒数だけ課金される最もシンプルな形態で、検証やPoC段階ではこれが基本となる。リザーブドインスタンスは1年または3年の利用を確約する代わりに、オンデマンドと比較して最大72%の割引を受けられる。本番環境で常時稼働させるサーバーに向いている。
そして見逃せないのがスポットインスタンスである。AWSの余剰キャパシティを最大90%引きで使えるが、需要が増えると2分前の通知で強制終了される。ファインチューニングのような中断耐性のあるバッチジョブには有効だが、リアルタイム推論APIには向かない。
どれを選ぶかで月額コストが数倍変わるため、ワークロードの性質を見極めてから契約形態を決める必要がある。
AI開発における実際の使い方と運用の注意点
機械学習チームがEC2を使う典型的な流れはこうなる。まずSageMakerやJupyterLabの開発環境をGPUインスタンス上に立てて実験を繰り返す。モデルが固まったら、学習ジョブをスポットインスタンスで回してコストを圧縮する。完成したモデルの推論APIは、オートスケーリンググループを設定したオンデマンドまたはリザーブドインスタンスにデプロイする。
ありがちな失敗は、GPUインスタンスを止め忘れること。金曜の夜に実験用のp4d.24xlargeを止め忘れて月曜に出社したら、週末だけで数千ドルの請求が発生していた、という話は珍しくない。AWS Budgetsでアラートを設定しておくのが鉄則である。
当社の見解
当社はツール選定において実用性を第一方針にしている。カタログスペックやベンチマークスコアではなく、実務で1週間使い倒して初めて判断する。フレームワークを増やすほど管理コストが増える経験もした。フックを増やしすぎてAIが情報過多でパニックになったこともある。足し算だけでなく、引き算の判断が選定の質を決める。検証せずに導入したツールは、ほぼ例外なく3か月以内に使わなくなった。
同じ失敗を二度としないAIエージェント
今のAIは、聞けば何でも答えてくれます。
でも、セッションが切れた瞬間に前回の失敗を忘れます。
当社が開発しているAIは、過去の経緯を念頭に置いて、
聞かれる前に「それは前回うまくいきませんでした」と声をかけます。
人間にも同じ失敗をさせず、AI自身も繰り返しません。
古参の社員が横にいるように、黙っていても気づいてくれる。
それが、当社が考える本当のAI社員です。
