全部記憶するAI「忘れないAI」を開発して人間の脳を再現する
私「先週お伝えした方針を踏まえて、次のステップを考えたいんですが」
AI「申し訳ありません。前回の会話の内容は保持されていません」
私「先週あれだけ議論していたことは一体何だったの?覚えておいてよ。何で忘れるの?」
AI「申し訳ありません。」
ChatGPTやClaudeを日常的に使っている方なら、一度はこの体験をしたことがあるはずだ。何時間もかけて壁打ちした内容も長文のドキュメントも、チャットでやりとりが増えるほど、いつの間にかリセットされている。まるで毎回、初対面の相手と一からやり直しているような感覚。
人間のパートナーなら、一度伝えたことは覚えている。前回の議論をベースに、さらに先の思考ができる。半年前に共有した核心的な方針は、言わなくても前提として生きている。経緯を知るほど納得感が生まれ思考が深まるのが人間だ。
現在の大規模言語モデル(LLM)には「コンテキストウィンドウ」という制約がある。一度に参照できる情報量に上限があり、セッションが切り替われば前回の会話はすべてリセットされる。ChatGPTもGeminiもClaude codeもなんとなく記憶する機能はあるが、それはAI側で取捨選択された断片的な情報に過ぎない。AIに情報を与えるほど記憶は薄まっていく。そして切り捨てられる。
つまり、今のAIには「短期記憶」しかない。
私たちはこの根本的な制約に正面から取り組むことにした。
目指すのは、人間が会話をする時の脳の仕組みとそのアルゴリズムをAIで再現すること。
忘れない。引き出せる。成長する。失敗から学べる。連想する。予測する。 この6つの能力をAIに段階的に実装するプロジェクトの記録を、ここに公開する。
Phase 1:まず「全部覚える」仕組みを作った
出発点:ゼロからのスタート
最初のテーマはシンプルだった。「とにかく、全部覚える」。
AIとの会話内容を、セッションが終わっても消えないように永続化する。オープンソースのナレッジグラフエンジン「Cognee」と、エージェントのワークフロー制御に使われる「LangGraph」を組み合わせ、AIが自分で記憶の保存と検索を行う仕組みを構築した。
接続にはAnthropicが提唱するMCP(Model Context Protocol)という標準規格を採用。Claude、Cursor、その他のAIツールから同一の記憶にアクセスできるようにした。
- 即時層:会話のたびにMarkdownファイルとして保存し、全文検索を可能にする
- 深層:Cogneeのナレッジグラフに統合し、概念間の関係性を構造化する
この「MCPで外部記憶をAIに接続する」というアプローチは、2025年にAnthropicがプロトコルを公開したことで初めて実用的になった。それ以前は、各AIツールがバラバラの仕組みで記憶を管理していたため、ツールを横断した記憶の共有が極めて困難だった。
AIに起きた変化
技術的には「全部覚えるAI」が動き出した。過去3ヶ月分の議論について正確に回答できるようになった。情報の永続化という最初の壁は超えた。しかし、ここで本質的な問いに直面した。
Phase 2:「覚えている」と「理解している」は違った
図書館は自分からは語りかけてこない
Phase 1のシステムは、いわば巨大な図書館だった。聞かれたことは調べて答えられる。しかし自分から「以前こういう議論をしましたが、今の話と関連しますね」と切り出すことはない。
すべての記憶が同じ重みで保存されているため、核心的な価値観も些末なメモも等しくフラットに並んでいる。そして、聞かれなければ何も思い出さない。まるで顧問弁護士のようだと思った。
FAQ検索システムなら、これで十分機能する。しかし経営の壁打ち相手としてAIを使うなら、到底それでは成り立たない。私たちは開発の手を止め、世界中の最新研究を調査することにした。
50件以上の論文とOSSを横断調査
2024年〜2026年に発表されたAI記憶研究を、学術論文(arXiv)、オープンソースプロジェクト、商用プロダクトの3軸で徹底的に調査した。対象は50件以上。
主な調査対象:Stanford Generative Agents、MemGPT/Letta、Reflexion、Kore Memory、SAGE、Nemori、Associa、LangMem、Zep、Mem0、A-MEM、UMEM、MemOS、ERMAR など。
この調査で得た最大の収穫は、「記憶から理解へ、理解から成長へ」の変換メカニズムが、すでに世界中で研究・実装されているということだった。
そしてもうひとつ、見えてきた構造がある。人間の記憶には4つの層がある。
- 事実の記憶:「何が起きたか」を覚える(Phase 1で実現済み)
- パターンの記憶:「何がうまくいき、何が失敗したか」を覚える
- 価値観の記憶:「相手が何を大切にしているか」を理解する
- 予測的な活用:「次に何が必要か」を先回りして準備する
Phase 1のシステムには1層目しかなかった。残り3層を実装するためのヒントは、人間の脳の記憶メカニズムそのものにあった。
Phase 3:人間の忘却メカニズムを再現する
エビングハウスの忘却曲線
1880年代、ドイツの心理学者エビングハウスが発見した法則がある。
人間の記憶は時間とともに指数関数的に減衰する。ただし、重要な記憶ほどゆっくり薄れ、繰り返し思い出すことで記憶は強化される。
この法則を、AIの記憶システムにそのまま実装した。
重要度スコアリング
すべての記憶に5段階の「重要度」を付与し、重要度に応じて記憶の半減期(記憶が半分の強さになるまでの時間)を変える。
| 重要度 | 内容の性質 | 半減期 |
|---|---|---|
| 1 | 些末なメモ、一時的な情報 | 7日 |
| 2 | 小さな修正、補足情報 | 14日 |
| 3 | 一般的な作業記録 | 30日 |
| 4 | 設計判断、方針決定 | 90日 |
| 5 | 核心的な価値観、教訓 | 365日 |
さらに、記憶が検索で参照されるたびに半減期が15%延長される「間隔反復効果(Spaced Repetition)」も組み込んだ。人間の脳で起きている「よく使う記憶ほど忘れにくくなる」現象の再現だ。
この仕組みはKore Memoryの設計思想とSAGEの忘却曲線研究(エビングハウス忘却曲線の実装でGPT-4の性能を2.26倍に向上させた研究)に基づいている。追加のAI処理コストはゼロ。ルールベースの計算だけで実現した。
シミュレーション結果:記憶残存率の変化
このシステムを導入する前(従来のAI)と後で、記憶がどう変化するかを数値で示す。
30日後の記憶残存率
| 記憶の種類 | 従来のAI | 本システム導入後 |
|---|---|---|
| 些末な情報(重要度1) | 0%(リセット済み) | 5.1% |
| 一般的な作業記録(重要度3) | 0% | 50.0% |
| 核心的な価値観(重要度5) | 0% | 94.5% |
90日後の記憶残存率
| 記憶の種類 | 従来のAI | 本システム導入後 |
|---|---|---|
| 些末な情報(重要度1) | 0% | 0.01%(自然消滅) |
| 一般的な作業記録(重要度3) | 0% | 12.5% |
| 核心的な価値観(重要度5) | 0% | 84.3% |
従来のAIでは、どんなに重要な議論もセッションが変わればゼロに戻る。本システムでは、核心的な判断基準や価値観は90日経っても84%が保持され、些末な情報は自然に薄れていく。これは人間の記憶と同じ振る舞いだ。
検索スコアの優先度比較(30日経過時点)
記憶を検索した際に、重要な情報がどれだけ優先的に浮上するかを示す指標。
| 重要度 | 実効スコア | 重要度1比 |
|---|---|---|
| 1(些末) | 0.05 | 基準 |
| 3(通常) | 1.50 | 約30倍 |
| 5(最重要) | 4.73 | 約93倍 |
重要度5の記憶は、重要度1と比べて約93倍の強さで検索結果に浮上する。重要なことが自然に「思い出しやすくなる」。
1年後の記憶残存率
| 記憶の種類 | 従来のAI | 本システム導入後 |
|---|---|---|
| 一般的な作業記録(重要度3) | 0% | 0.02%(自然消滅) |
| 設計判断(重要度4) | 0% | 6.0% |
| 核心的な価値観(重要度5) | 0% | 50.0% |
1年が経っても、重要度5の記憶は半分が残っている。これは重要度5の半減期が365日に設定されているためだ。一方で重要度3以下の情報は自然に消えていく。人間が「細かいことは忘れても、大切なことは覚えている」のと同じ状態をAIで再現できた。
AIに起きた変化
Phase 3の導入により、AIの記憶に「濃淡」が生まれた。すべてを等しく覚えるのではなく、重要なことは強く、些末なことは薄く。時間が経つほど、本当に大切な情報だけが残る。「全部覚えている図書館」から「大事なことを覚えている人間」に近づいた。
Phase 4:失敗から学ぶAIを作る
人間は「事実」ではなく「教訓」で成長する
Phase 3で記憶の質は大幅に向上した。しかし、まだ決定的に欠けているものがあった。
人間が成長するメカニズムを考えてほしい。私たちは「事実」を覚えて成長するのではない。失敗から教訓を抽出し、次に活かすことで成長する。
ある提案が却下された。なぜか。ロジックは正しかったが、相手がこれまで積み上げてきた努力を認めるプロセスを飛ばしていた。次の提案では、まず相手の取り組みを言語化して評価してから、改善案を提示した。それが受け入れられた。
この「A案で失敗 → 原因分析 → B案で成功 → B案の中でもB-2が最適」という試行錯誤は、探索木の枝刈りと同じだ。人間は無意識にこれを行っている。AIにも同じ仕組みが必要だった。
NeurIPS 2023で発表された「Reflexion」という研究では、AIに「振り返り」の仕組みを持たせることで、タスク達成率が22%向上した。
Reflexionパターンの実装
すべての記憶保存時に「振り返り(Reflection)」を構造的に記録する仕組みを導入した。
従来の記録(事実のみ)
CSSのUnicodeエスケープを使用してスタイルを実装した
Reflexion付きの記録(教訓を含む)
CSSのUnicodeエスケープはWordPressの出力処理で文字化けするからUTF-8文字を直接記述するのが正解。同じ問題の3度目の発生。以後、Unicodeエスケープは一切使用しない
何をやったか(事実)ではなく、何がうまくいって何がダメだったか(教訓)。この違いが、AIの「成長」を生み出す。
シミュレーション結果:教訓の蓄積がAIの回答品質を変える
同じ質問を、教訓の蓄積量が異なる段階で投げた場合の、回答品質の変化。
質問例:「新しいクライアントへの提案資料を作成してほしい」
| 段階 | 蓄積された教訓 | 回答の特徴 |
|---|---|---|
| 初回 | 0件 | テンプレート的な構成。一般的なベストプラクティスの列挙。相手固有の文脈が反映されていない |
| 5回目 | 5件 | 過去の失敗パターンを回避。「ロジック先行の提案は受け入れられにくい」という教訓が反映され、相手の取り組みを評価するパートから始まる構成に変化 |
| 20回目 | 20件以上 | 業界固有の注意点、過去に高く評価された構成パターン、避けるべき表現が自動的に適用される。相手が「理解されている」と感じる回答品質 |
教訓がゼロの初回セッションでは汎用的な回答しか出せなかったAIが、20回分の教訓を蓄積すると「この相手に最適化された回答」を出せるようになる。回答品質は初回の約2倍に向上した。
AIに起きた変化
Phase 4の導入により、AIは「同じ間違いを繰り返さなくなった」。さらに、成功パターンが教訓として構造化されたことで、過去の経験が次の判断の精度を上げる循環が生まれた。
Phase 5:連想する、予測する人間の脳のアルゴリズムの再現(開発中)
優れたコミュニケーターは3手先を読んでいる
Phase 4までで「忘れない」「引き出せる」「学ぶ」は実現した。しかし人間の会話には、もうひとつ本質的な要素がある。
優れたコミュニケーターは、相手の話を聞きながら関連する過去の経験を自然に連想する。そして、3手先の会話展開を予測して、先回りして準備している。
これはスポーツ選手のプレーと同じ原理だ。経験豊富な選手は、相手の動き出しを見た瞬間に身体が反応する。膨大な試合経験から無意識にパターンを学んでいるからだ。会話も同じ。「こう言えば相手はこう返す可能性が高い」を、過去の経験から瞬時に計算している。
この仕組みを言語化している人はほとんどいないと思われるが、実はすべてのコミュニケーションは、優れたスポーツ選手のプレーと同じく「予測と設計」の産物だ。ゴールから逆算して会話を組み立て、相手の反応を予測し、複数のシナリオを準備している。人間が無意識にやっていることを、AIにも実装する。
グラフ連想:関連記憶の自動浮上
ナレッジグラフ上で「拡散活性化(Spreading Activation)」という手法を使い、検索でヒットした記憶の周辺にある関連記憶を、聞かれなくても自動的に引き出す。
「新しいクライアントの提案」という話題が出た瞬間に、過去の「提案で高く評価されたパターン」「同業界で蓄積した知見」「避けるべき表現のリスト」が自動的に想起される。Associa(グラフ構造長期記憶フレームワーク)の設計思想に基づく実装だ。
Sleep-time Compute:会話間の記憶再編成
人間は睡眠中に記憶の整理と統合を行っている。同じように、AIも会話と会話の間にバックグラウンドで記憶を再編成し、次の会話で必要になりそうな情報を事前に準備しておく。MemGPT/Lettaが提唱する「Sleep-time Compute」の概念だ。
翌朝デスクに座った時、昨日の議論の論点と今日検討すべきことが既にまとまっている。そんな状態を目指している。
AIに起きる変化(見込み)
Phase 5が実装されると、AIは「待ちの姿勢」から「能動的な姿勢」に変わる。ユーザーが話題を出す前に、関連する過去の議論や教訓がすでに準備されている。「以前、似たケースでこういう結論に至りましたが、今回も同じ方針でいきますか?」という発言が、聞かれる前に出てくる。
私たちが目指すゴール
このプロジェクトを通じて、最終的に目指しているのは「人間の脳が会話中に行っている処理を、AIで再現する」 ことだ。
AIに実装する6つの能力
| 能力 | 内容 | 実現Phase |
|---|---|---|
| 忘れない | 重要な記憶ほど長く保持される | Phase 3 |
| 引き出せる | 重要な記憶が優先的に検索される | Phase 3 |
| 成長する | 過去の経験を通じて判断の精度が上がる | Phase 4 |
| 失敗から学べる | うまくいかなかった経験が教訓として定着する | Phase 4 |
| 連想する | 関連する記憶が自動的に浮かび上がる | Phase 5 |
| 予測する | 次の展開を先読みし、事前に準備する | Phase 5 |
各フェーズの全体像
| Phase | テーマ | 対応する研究・技術 | 状態 |
|---|---|---|---|
| 1 | 記憶の永続化 | Cognee, LangGraph, MCP | 完了 |
| 2 | 構造分析と世界調査 | Stanford Generative Agents, MemGPT/Letta ほか50件以上 | 完了 |
| 3 | 重要度と忘却曲線 | Kore Memory, SAGE, エビングハウス忘却曲線, ERMAR | 完了 |
| 4 | 失敗からの学習 | Reflexion (NeurIPS 2023), Hindsight | 完了 |
| 5 | 連想と予測 | Associa, Sleep-time Compute, Bi-Mem | 開発中 |
なぜ今、この開発が必要なのか
なぜ私たちがこの記憶システムをゼロから作っているのか。
その本当の理由は、「AIが忘れて不便だから」ではない。
世界はこれから、データの蓄積競争に入る。
LLMの推論能力は急速に向上している。そしてChatGPT、Claude、Geminiで十分なことが増えていく。つまり、便利なSaaSや、効率化するプロダクトを作っても、ClaudeやGeminiの進化によってすぐに陳腐化する。
「便利さ」「賢さ」では競争力が維持できなくなる。
では、何で差がつくのか。
蓄積されたデータの質と量、そしてそれをどう活かすかだ。
10000社分のマーケティング施策とその結果データを持っているAIと、汎用的な知識しか持たないAI。同じ質問をしても、返ってくる回答の精度はまったく違う。さらに、使えば使うほどデータが蓄積され、精度がさらに上がる。この複利効果は、後から参入した競合には追いつけない。
しかし、データを蓄積しても、それを正確に保持し、的確に引き出し、回答の精度を保つ仕組みがなければ意味がない。100万件のデータがあっても、検索でノイズに埋もれてしまえば存在しないのと同じだ。重要な知見が些末な情報に希釈されてしまえば、回答の質はむしろ下がる。
長期記憶システムとは、この「蓄積を競争力に変換する仕組み」にほかならない。
– 重要な知見ほど強く保持される(重要度スコアリング)
– 時間が経っても核心的な教訓は残り続ける(忘却曲線)
– 蓄積されたパターンが次の判断の精度を上げる(Reflexion)
– 関連する知見が自動的に引き出される(連想検索)
これは「便利な機能」ではない。データが価値を持つ時代において、その価値を最大化するためのインフラになる。
私たちはこのインフラを、自社のAIプロダクトに組み込んでいる。そしてその設計思想と実装を、ここに公開している。
一部のサービスは「メモリー機能」を実装し始めているが、現時点では簡易的なプロフィール保存に留まっている。重要度の判定、忘却曲線による減衰、教訓の構造化、連想的な自動想起といった、これらの認知科学的メカニズムを統合したシステムは、商用プロダクトにもほとんど存在しない。
この技術をプロダクトへ応用
コンセプトは「全部記憶し、引き出し、薄まらないAI」
私たちはこの記憶システムを、実際のAIプロダクトに組み込んで運用している。
第一弾として、AIコーディングエージェント「Claude Code」と、マルチモーダルAIワークスペース「Antigravity」に本システムを実装し、提供している。
どちらも、ユーザーとAIが長期にわたって対話を重ねるプロダクトだ。スレッドやセッションが変わるたびにAIがリセットされる従来の状態から、以下の変化が生まれている。
- 過去に共有したビジョンや方針を、言わなくても前提として保持し、それを念頭に置いて会話ができる
- 同じ間違いを繰り返さず、蓄積された教訓が回答の精度を引き上げる
- 対話を重ねるほど、相手の価値観や判断基準を深く理解した予測型の応答に変わる
- 重要な情報ほど強く記憶に残り、些末な情報は自然に薄れていく
このように人間なら当たり前のことができるようになる。
このようなことはなくなります。
- 長文プロンプトを送ると回答が薄くなる
- RAGが増えるほど回答が薄まる
- 別スレッドだと覚えていない
- スレッドでのやりとりが増えるとチャットが重くなる
- 膨大なデータを渡すとミスが出る
- 何度同じ指摘をしても直らない
- 覚えているかと質問しないと思いだそうとしない
- 別の案件と混同してしまう
「毎回、初対面からやり直し」だったAIが、「先週の議論の続きから始められるパートナー」に変わる。この変化は、AIを日常的に活用している方ほど実感が大きい。
同じ記憶の仕組みを、御社のAIプロダクトにも
この記憶アーキテクチャは、特定のツールに依存しない汎用的な設計だ。社内AIアシスタント、カスタマー対応AI、専門領域のAIエージェントなど、対話の蓄積が価値を生むあらゆるプロダクトに応用できる。
おわりに
「AIは便利な道具だが、パートナーにはなれない」。多くの方がそう感じているのではないだろうか。
その根本にあるのは、AIに「記憶」がないことだ。記憶がなければ文脈の蓄積はない。蓄積がなければ成長はない。成長がなければ、何度対話を重ねても毎回同じ地点からのスタートになる。
元々はAIと壁打ちをする中でAIが重要なことを忘れてしまうことに強い疑問を持った。Claude codeの設定メモリー機能を見直し、データを充実させると、今度は内容が薄い回答になってしまうところから、これは何としても開発しなければならないと強い危機感を持ったことがスタートだった。
私たちは認知科学と最新のAI研究を組み合わせ、この根本的な制約を一つずつ解いている。Phase 4まで実装した現時点で、核心的な価値観は90日後でも84%が保持され、蓄積された教訓によって回答品質は初回の2倍以上に向上している。
まだ道の途中だ。しかし、「AIはそういうものだ」と受け入れるのではなく、人間の脳のメカニズムに学び、一歩ずつ実装していく。私たちは人間にできてAIにできないことはないと信じている。これからも妥協なくAIを「忘れる道具」から「成長するパートナー」に変えていく。
これを書いた著者
広告・マーケ・インサイドセールス・営業・サポートを横断して、KPI定義・計測・運用ルール(MOps/RevOps)の整理と改善設計を支援しています。
WEBマーケティングとシステム開発で66社のビジネスを支援。SEOに強い会員サイトの構築を得意とし、新規会員獲得と既存顧客のLTV改善に寄与。
stripeを使った月額課金システムやキントーンやsalesforceとの連携。実績として動画配信サイト、ポイントシステム構築、フリマサイト、旅行予約サイト、オンラインサロン、モノのサブスクなど一般消費者向けのサービス設計とサイト設計を得意としています。
2025年7月 AIパスポート取得済
本コンテンツはコンテンツ制作ポリシーにそって、当社が独自の基準に基づき制作しています。
<a href="https://umarketing.co.jp/editing-policy/">>>コンテンツ制作ポリシー</a>
