S3

S3
読み: エススリー

読み: エススリー

S3とはAIデータ基盤の要

S3はAWSが提供する容量無制限のオブジェクトストレージである。膨大な画像やテキストなどの非構造化データを安価かつ安全に保管できる。現代のAI開発や機械学習モデルの学習データを集約する中核的なデータ基盤として機能するクラウドサービスである。

かんたんに言うと

無限に箱を積み上げられる巨大な貸し倉庫である。どこに何を置いたかを示すタグ、数億個の荷物の中から一瞬で目当てのデータを取り出せる。

大量の非構造化データを扱うAI開発でS3が選ばれる理由

従来のオンプレミス環境で使われてきたファイルサーバーの階層構造は、AI開発の現場ではすぐに破綻する。ディレクトリを深く掘り下げる管理方式は、数百万件の画像や音声データを扱うにはあまりにも鈍重である。ここでAmazon S3のようなオブジェクトストレージの出番となる。S3はデータをファイルとフォルダではなく、オブジェクトとメタデータというフラットな構造で保存する。非構造化データをただ放り込むだけでいい。この単純さが、AWS上でAIモデルを構築する際の絶対的な前提条件になる。階層を辿るオーバーヘッドがないため、大量のデータを並列で読み込む処理に適しているのである。だが、何でもかんでもS3に突っ込めばいいというわけではない。用途を見誤ると後悔することになる。

企業におけるS3の具体的な活用例と主要なAI連携ツール

製造業の工場ラインで撮影された1日数十万枚の検品画像や、法務部が抱える過去20年分の契約書PDF。これらをS3に集約することで、初めてAIの学習データとしての価値が生まれる。S3に置いたデータは、Amazon SageMakerを使って直接機械学習トレーニングに回すことができる。いちいち別のサーバーにデータを移す手間はない。また、S3上のログデータに対してAmazon Athenaで直接SQLクエリを投げたり、Snowflakeの外部ステージとして連携させたりする構成も現場では定番である。AWS Lambdaをトリガーにして、S3にファイルが置かれた瞬間に前処理を走らせることもできる。ただ、ツール間の連携設定は意外と泥臭い。権限周りのエラーで丸一日溶かすエンジニアは後を絶たない。

S3をAIデータ基盤として採用するメリットと運用上の限界

イレブンナインと呼ばれる99.999999999%の耐久性と、事実上無制限の容量。これだけ聞くと万能に見えるが、S3は決して銀の弾丸ではない。最大の落とし穴はデータ転送コストである。S3へのデータ保存自体は安価だが、S3から外部へのデータ転送や、頻繁なAPIリクエストには課金が発生する。設計をミスると月末の請求書を見て青ざめることになる。ミリ秒単位のI/O性能が求められる処理にも向かない。リアルタイムの推論処理や、高速なランダムアクセスが必要なデータベースの領域には、素直にAmazon EC2にアタッチしたAmazon EBSを使うべきである。S3はあくまでバッチ処理や巨大なデータセットの読み込みに特化したストレージである。どこまでS3に任せるべきか、アーキテクトの判断が分かれるところである。

自社のAIプロジェクトにS3を導入すべきかを判断するための評価基準

結局のところ、自社のデータをS3に集約してデータレイクを構築すべきなのだろうか。判断の分水嶺は、データのサイロ化をどこまで許容できるかにある。各部門のファイルサーバーに散らばったデータをAIに食わせるには、どうしても中央集権的なストレージが必要になる。だが、機密データを一箇所に集める以上、セキュリティの担保は絶対条件である。IAMによる厳密なアクセス制御と、AWS CloudTrailによるAPIコールの監視をセットで設計できない組織に、S3をデータレイクとして運用する資格はない。バケットの公開設定を誤り、顧客データをインターネットに晒す事故は今でも起きている。技術的なハードルよりも、運用ルールの徹底という人間側の問題の方が、よほど悩ましいのが現実である。

当社の見解

当社は機密情報のマスキング処理を全てローカルAIで行っている。これにより機密情報を外部に送信せずにAI処理できるようになった。だが、AIが嘘をつくハルシネーションの問題は依然としてある。確認していないのに「確認しました」と言う。当社はこの前提で運用を設計している。事実と推測の強制分離、ファクトチェック機能、3つのAIと人間の同士の三重検証を行っている。どこまでいっても、AIは完璧ではない。理論上100%安全設計をしていても、AIも人間も想定しないことは起こるものだ。その万が一に備えておくことが、AIを使う上では前提になっている。だろうではなく、かもしれない運用がAIを使う上での安全基盤となっている。

同じ失敗を二度としないAIエージェント

今のAIは、聞けば何でも答えてくれます。
でも、セッションが切れた瞬間に前回の失敗を忘れます。

当社が開発しているAIは、過去の経緯を念頭に置いて、
聞かれる前に「それは前回うまくいきませんでした」と声をかけます。
人間にも同じ失敗をさせず、AI自身も繰り返しません。

古参の社員が横にいるように、黙っていても気づいてくれる。
それが、当社が考える本当のAI社員です。

相談する