PagedAttentionとは

PAGEDATTENTION

読み: ページドアテンション

公開日 2026.03.31 最終更新 2026.04.03

PagedAttentionとは、LLMの推論で発生するKey-Valueキャッシュのメモリを、OSの仮想メモリと同じページ単位で管理する技術

読み: ページドアテンション

連続したメモリ確保が不要になり、長いシーケンスのメモリ使用量を削減しスループットを向上させる

かんたんに言うと

PagedAttentionは、LLMのメモリを効率的に使うことで、より長い文章を高速に処理する技術である。

PagedAttentionの仕組み

PagedAttentionは、連続したメモリ空間ではなく、ページと呼ばれる小さな単位でメモリを管理する。これにより、必要なデータのみをメモリにロードし、不要なデータはディスクに退避させることが可能になる。この仕組みにより、メモリ使用量を大幅に削減できる。また、アテンション計算に必要なデータのみを効率的にアクセスできるため、処理速度の向上にもつながる。

PagedAttentionのメリット

PagedAttentionの主なメリットは、メモリ効率の向上と処理速度の高速化である。大規模な言語モデルでは、メモリ使用量がボトルネックとなることが多いが、PagedAttentionはこの問題を軽減する。より長いシーケンスを扱えるようになるため、LLMの応用範囲が広がる。また、計算コストの削減にも貢献し、より少ないリソースでLLMを運用できるようになる。

PagedAttentionの応用例

PagedAttentionは、様々なLLMの応用分野で活用されている。例えば、長文の要約、翻訳、質問応答システムなど、長いコンテキストを必要とするタスクに適している。また、生成AIにおいても、より複雑で長い文章を生成するために利用される。今後、PagedAttentionは、LLMの性能向上に不可欠な技術として、ますます重要性を増していくと考えられる。

同じ失敗を二度としないAIエージェント

今のAIは、聞けば何でも答えてくれます。
でも、セッションが切れた瞬間に前回の失敗を忘れます。

当社が開発しているAIは、過去の経緯を念頭に置いて、
聞かれる前に「それは前回うまくいきませんでした」と声をかけます。
人間にも同じ失敗をさせず、AI自身も繰り返しません。

古参の社員が横にいるように、黙っていても気づいてくれる。
それが、当社が考える本当のAI社員です。

相談する

PagedAttentionとは

かんたんに言うと

PagedAttentionの仕組み

PagedAttentionのメリット

PagedAttentionの応用例

関連用語