全部記憶するAI「忘れないAI」を開発して人間の脳を再現する
Claude CodeやAntigravityは革新的なツールであると思う。仕事の相棒としてなくてはならないまでになった。デフォルトのまま使うのではなくバイブラインを構築した。はじめてCodexを使ったときも感動したが、Claude CodeやAntigravityはCodex以上にエージェントに近い動きをしてくれる。
そんな仕事の相棒も、初めて使ったときには30分でがっかりした。もちろんClaude CodeやAntigravityは便利なことは間違いないが便利な分、余計な粗が目立った。
Claude CodeとAntigravityの弱点
その弱点とは「昨日の会話を覚えていないこと」。つまり、すぐ忘れてしまうということだ。スレッドが長くなってコンテキストが増えると、同じことを何回も言わなければならないことが非常に不便でストレスを感じた。
何度も同じことを言わせる
前にも言ったけど、という前置きを何度も指摘した。指摘したところで無駄だとわかっているんだけども、つい愚痴をこぼしたくなる。それがClaude CodeとAntigravityの弱点だ。
私は実際に事業戦略について壁打ちをして、MVPとしてプロダクトをいざ作ろうとなった時に、「会話の内容を踏まえてMVPを作りたいので、仕様書を作ってください。」と依頼したときのことだ。
Cloude Codeが「その会話を覚えていません。記録にありませんのでそのMVPについて教えてください。」と言われた時、あぜんとし、同時に絶望した。そして何としても解決しなければならない問題だと感じた。
この記事ではAI開発の専門用語が多く登場します。用語の意味を確認しながら読みたい方は AI用語集(77用語) をご活用ください。
Phase 1:まず全部覚える仕組みを作った
とにかく全部を覚えさせ絶対に忘れさせないようにしたい
最初のテーマはシンプルだった。「とにかく全部を覚えさせ絶対に忘れさせない」こと。
AIとの会話内容を、セッションが終わっても消えないように永続化する。オープンソースのナレッジグラフエンジン「Cognee」と、エージェントのワークフロー制御に使われる「LangGraph」を組み合わせ、AIが自分で記憶の保存と検索を行う仕組みを構築した。だがそれだけであれば全部記憶するというには不十分だった。
私の会話を絶対に忘れさせない
あれ覚えてますか?この時の発言覚えてますか?と聞くと、Cogneeにない、ナレッジグラフにないという回答がたびたび出てくるため、私の会話はすべてローカルに私が入力した瞬間に保存するように仕組化した。
AIは自分の発言を覚えていない
AIに「先ほど提案してくれたアドバイスに沿ってやりたいです」と言うと、AIは「先ほどの会話はセッションが切れて覚えていないので、再度教えてくださいという」と言われる始末。これでは仕事の相棒としては成り立たないため、AntigravityとClaude Codeに発言した瞬間に自分の会話を保存するように仕組化した。
接続にはAnthropicが提唱するMCP(Model Context Protocol)という標準規格を採用。Claude、Cursor、その他のAIツールから同一の記憶にアクセスできるようにした。
- 即時層:会話のたびにMarkdownファイルとして保存し、全文検索を可能にする
- 深層:Cogneeのナレッジグラフに統合し、概念間の関係性を構造化する
だが記憶するだけでは、なんでも相談できる仕事の相棒としては全く不十分だった。
私の理想は経営の相談もマーケティングの相談もシステム開発の相談も何でも記憶してその記憶したことを念頭に会話をしていくベストな回答をしてくれることが理想だ。
エンベディングで意味を理解する仕組みを導入
どんなに覚えていたとしても、それを引き出すことがなければスムーズな会話ができない。人間も、人間で例えるなら完全に忘れている状態ではないが、忘れてしまってどうしても思い出せないということはある。そうなるとスムーズな会話ができない。それを解決するため、そのものを忘れたとしても、連想ゲームであるキーワードから連想ゲームで記憶を思い出すのがエンベディング(embedding)だ。
エンベディングはすべてのテキストを「意味の座標」に変換する。巨大な地図を想像してほしい。この地図の上に、すべての言葉や文章が点として配置される。意味が近い言葉は地図上で近くに、遠い言葉は離れた場所に置かれる。ダイエットといえば食事、ダイエットといえば筋トレ、ダイエットといえばサプリといったような意味が近い言葉を紐づける仕組みだ。
身近な例で言えば、マクドナルドというブランド名を忘れても、ハンバーガーというキーワードで思い出せれば、マクドナルドというワードを思い出すきっかけが作れる。人間関係で言えば、顔も名前も思い出せないけど、赤い服を着ていた人という記憶からその人のことを思い出すこともできる。このように具体的に思い出せなくても、何かをきっかけに素早く思い出すことができるのがエンベディングだ。
この変換を行うAIモデル(当社システムではbge-m3を使用)がローカルで稼働しており、記憶の保存と検索のたびに自動実行される。これにより、過去の会話で使った言葉と完全に一致しなくても、「意味が近い記憶」を引き出せるようになる。外部サーバーへのデータ送信は一切なく安全な点も良い。
この「MCPで外部記憶をAIに接続する」というアプローチは、2025年にAnthropicがプロトコルを公開したことで初めて実用的になった。
AIに起きた変化
技術的には「全部覚えるAI」が作れた。過去3ヶ月分の議論内容をテストしたところ、聞けば正確に回答できることを確認できた。情報の永続化という最初の壁は超えた。しかし、ここで本質的な問題に直面した。
Phase 2:「覚えている」と「理解している」は違った
AIに長期記憶を持たせため、確かに覚えてはいるが、覚えていることと意味を理解していることは違った。それが分かったとき衝撃的だった。人間は意味を理解してから覚えるため、覚えていることは意味を理解しているとほぼセットだが、AIは別の仕組みだった。
図書館は自分からは語りかけてこない
Phase 1のシステムは、いわば巨大な図書館だった。図書館に行き探せば、知りたい情報は見つかる。だが、図書館や本自体が自分から「以前こういう議論をしましたが、今の話と関連しますね」と切り出すことはない。
すべての記憶が同じ重みで保存されているため、核心的な価値観も些末なメモも等しくフラットに並んでいる。そして、私が「あれについて覚えていますか」と聞かれなければ、AIは「記憶を参照したところ覚えていますよ」と答えてくれる。つまり、聞かなければ過去のやりとりを念頭において会話をしてくれない。
つまり、念頭において会話をできなければ、都度私が「あれを覚えてますか?」「これ覚えてますか?」と確認して、「覚えています。今、記憶を引き出しました」というように記憶を引き出した上で会話を始めなければならない。これでは念頭において会話ができる仕事の相棒とは言えない。
FAQ検索システムなら、これで十分機能する。しかし経営の壁打ち相手としてAIを使うなら、到底それでは成り立たない。私は開発の手を止め、世界中の最新研究を調査することにした。
50件以上の論文とOSSを横断調査
2024年〜2026年に発表されたAI記憶研究を、学術論文(arXiv)、オープンソースプロジェクト、商用プロダクトの3軸で徹底的に調査した。対象は50件以上。
主な調査対象:Stanford Generative Agents、MemGPT/Letta、Reflexion、Kore Memory、SAGE、Nemori、Associa、LangMem、Zep、Mem0、A-MEM、UMEM、MemOS、ERMAR など。
この調査で得た最大の収穫は、「記憶から理解へ、理解から成長へ」の変換メカニズムが、すでに世界中で研究・実装されていた。
そしてもうひとつ、人間の記憶には4つの層があることがわかった。
- 事実の記憶:「何が起きたか」を覚える(Phase 1で実現済み)
- パターンの記憶:「何がうまくいき、何が失敗したか」を覚える
- 価値観の記憶:「相手が何を大切にしているか」を理解する
- 予測的な活用:「次に何が必要か」を先回りして準備する
Phase 1のシステムには1層目しかなかった。残り3層を実装するためのヒントは、人間の脳の記憶メカニズムそのものにあった。
これによって、ただの文字の羅列として覚えている状態から、その文字の意味を理解した上で覚えるようになった。これによって私がルール化したことを意味として理解して実行できる確率が上がった。それまではルールに書いてあるのにどうして守らないのか?と問いただすことがたびたび起きていたが、「文字の羅列として認識はしているがそれがどういう意味なのかは分からなかった」とAIが答える状態だった。そんなお粗末なことがあるのかと思うかもしれないが、これは一般公開されているAntigravityやClaude Codeで起きた現象で事実だ。
特に自分の独自の思想や解釈がある場合、それをルールに書いても、AIはただ文字として認識するか、もしくは一般論として理解して、自分の思想にもとづいた回答がされないことが起こる。
ここでもう一つ新しい問題が起きた。すべてを記憶していくと、すべてが薄まっていく。
Phase 3:人間の忘却メカニズムを再現する
人間でも同じだが、大切な人の名前は絶対忘れないが、1週間前に食べたランチのことは、優先度が低い記憶として自然と忘れていく。これを無理やり記憶させておくと、記憶がパンクして整理ができない。人間は寝ている間に記憶を整理すると言われているが、AIにとってもこの記憶の整理、優先順位付けと記憶の整理が重要と分かった。
エビングハウスの忘却曲線
記憶の整理のため、優先順位付けのためにエビングハウスの忘却曲線という概念を導入した。1880年代、ドイツの心理学者エビングハウスが発見した法則である。
人間の記憶は時間とともに指数関数的に減衰する。ただし、重要な記憶ほどゆっくり薄れ、繰り返し思い出すことで記憶は強化される。
この法則を、AIの記憶システムにそのまま実装した。
重要度スコアリング
すべての記憶に5段階の「重要度」を付与し、重要度に応じて記憶の半減期(記憶が半分の強さになるまでの時間)を変える。
| 重要度 | 内容の性質 | 半減期 |
|---|---|---|
| 引き継ぐ | セッションが切れても、約束した作業と前回の文脈を次のセッションに持ち越す | Phase 12 |
| 互いに検証する | 複数のAIが互いの出力を自動検証し、人間の確認なしに品質を担保する | Phase 13 |
| 1 | 些末なメモ、一時的な情報 | 7日 |
| 2 | 小さな修正、補足情報 | 14日 |
| 3 | 一般的な作業記録 | 30日 |
| 4 | 設計判断、方針決定 | 90日 |
| 5 | 核心的な価値観、教訓 | 365日 |
さらに、記憶が検索で参照されるたびに半減期が15%延長される「間隔反復効果(Spaced Repetition)」も組み込んだ。人間の脳で起きている「よく使う記憶ほど忘れにくくなる」現象の再現だ。
この仕組みはKore Memoryの設計思想とSAGEの忘却曲線研究(エビングハウス忘却曲線の実装でGPT-4の性能を2.26倍に向上させた研究)に基づいている。追加のAI処理コストはゼロ。ルールベースの計算だけで実現した。
機器の運用の中でも、これはどうでもいいから1、これは重要だから5、といった面倒な依頼や設定は不要で、当社のシステムでは深夜に自動的にこの重要度スコアリングとエンベディングの整理が行われる。翌朝、重要度と記憶が整理された状態で、仕事内容として会話ができる。
シミュレーション結果:記憶残存率の変化
このシステムを導入する前(従来のAI)と後で、記憶がどう変化するかを数値で示す。
30日後の記憶残存率
| 記憶の種類 | 従来のAI | 本システム導入後 |
|---|---|---|
| 些末な情報(重要度1) | 0%(リセット済み) | 5.1% |
| 一般的な作業記録(重要度3) | 0% | 50.0% |
| 核心的な価値観(重要度5) | 0% | 94.5% |
90日後の記憶残存率
| 記憶の種類 | 従来のAI | 本システム導入後 |
|---|---|---|
| 些末な情報(重要度1) | 0% | 0.01%(自然消滅) |
| 一般的な作業記録(重要度3) | 0% | 12.5% |
| 核心的な価値観(重要度5) | 0% | 84.3% |
従来のAIでは、どんなに重要な議論もセッションが変わればゼロに戻る。本システムでは、核心的な判断基準や価値観は90日経っても84%が保持され、些末な情報は自然に薄れていく。これは人間の記憶と同じ振る舞いだ。
検索スコアの優先度比較(30日経過時点)
記憶を検索した際に、重要な情報がどれだけ優先的に浮上するかを示す指標。
| 重要度 | 実効スコア | 重要度1比 |
|---|---|---|
| 1(些末) | 0.05 | 基準 |
| 3(通常) | 1.50 | 約30倍 |
| 5(最重要) | 4.73 | 約93倍 |
重要度5の記憶は、重要度1と比べて約93倍の強さで検索結果に浮上する。重要なことが自然に「思い出しやすくなる」。
これによってユーザー自身が大切にしている考え方や、やりとりの中で何度も出てくる思想に基づいて、AIがユーザー好みの回答をすることが可能になった。
1年後の記憶残存率シミュレーション
| 記憶の種類 | 従来のAI | 本システム導入後 |
|---|---|---|
| 一般的な作業記録(重要度3) | 0% | 0.02%(自然消滅) |
| 設計判断(重要度4) | 0% | 6.0% |
| 核心的な価値観(重要度5) | 0% | 50.0% |
1年が経っても、重要度5の記憶は半分が残っている想定だ。これは重要度5の半減期が365日に設定されているためだ。一方で重要度3以下の情報は自然に消えていく。人間が「細かいことは忘れても、大切なことは覚えている」のと同じ状態をAIで再現できる計算だ。
AIに起きた変化
Phase 3の導入により、AIの記憶に「濃淡」が生まれた。すべてを等しく覚えるのではなく、重要なことは強く、些末なことは薄く。時間が経つほど、本当に大切な情報だけが残る。「全部覚えている図書館」から「大事なことを覚えている人間」に近づいた。これによって、詳細なプロンプトを打たずとも短いプロンプトでも、ユーザーの好みの回答を出力するようになり、阿吽の呼吸で仕事ができる状態に近づいた。
この時の感動は、AIもついに阿吽の呼吸ができるようになったかと感動した。また、ここまで成長するとプロンプトエンジニアリングの重要性が薄まるのではないかと感じた。だが、それでもまだ完璧ではなかった。
Phase 4:同じことを何度も指摘される
やはりそれでも細かいことは忘れてしまう。ここのサイトの見出しの色は赤だとか、ここのサイトはボーダーを使わないといった細かい優先度が低いことは、都度指摘されることが多かった。そのような細かい指摘が入ると、本来依頼したかった仕事内容から横道に逸れてしまい、阿吽の呼吸で仕事ができるという状態でなってしまう。
人間は「事実」ではなく「教訓」で成長する
Phase 3で記憶の質は大幅に向上したものの、まだ決定的に欠けているものがあった。
人間が成長するメカニズムを考えてみるとわかりやすい。私たちは「事実」を覚えて成長するのではない。失敗から教訓を抽出し、次に活かすことで成長する。例えば、上司に二度と怒られたくないから慎重に仕事を進めることがある。その損失回避のために次は失敗しないように注意し、そのためにどうするべきかという思考が働く。だが、AIにはもともと忘れてしまうという特性があり、今回の仕組みのように忘れない仕組みを導入しても AIにとって失敗は痛くも痒くもない。法律を守らなくてもプログラムコードをすべて破棄してどんなに叱責されても、AI自身に損失はない。
別の例えをするならば、ある担当者がクライアントに業務改善の提案を持っていったとする。非常にロジカルな提案だったとしても、前提条件が分かっていないとその提案は受け入れられない。その失敗を踏まえて前提条件を理解した上で、次はB案を持っていく。B案がダメでもC案を持っていく。ということが人間ならある。だがAIにはこの試行錯誤をするという力が弱い。
第一に、記憶がなくなっていくこと、そして人間のように損失回避のために努力するという思考がないこと。
そこでReflexion(リフレクション)という仕組みに注目した。
NeurIPS 2023で発表された「Reflexion」という研究では、AIに「振り返り」の仕組みを持たせることで、タスク達成率が22%向上したと記録がある。
Reflexionパターンの実装
すべての記憶保存時に振り返り(Reflection)を構造的に記録する仕組みを導入した。
従来の記録(事実のみ)
CSSのUnicodeエスケープを使用してスタイルを実装してはしたことがある
Reflexion付きの記録(教訓を含む)
CSSのUnicodeエスケープはWordPressの出力処理で文字化けする。UTF-8文字を直接記述するのが正解。同じ問題の3度目の発生。以後、Unicodeエスケープは一切使用しないこと。
何をやったか(事実)ではなく、何がうまくいって何がダメだったかという教訓がある。この違いが、AIの「成長」を生み出す。事実と損失をセットで記憶させることで、なぜという情報が追加され、AIにとって失敗を避けようとする傾向が強まる。
AIにはもともと統計からベストな回答をしようとする機能が備わっているが、このReflectionを導入することで長期記憶と相まって過去の記憶をたどり、失敗を避けることができる。
シミュレーション結果:教訓の蓄積がAIの回答品質を変える
同じ質問を、教訓の蓄積量が異なる段階で投げた場合の、回答品質の変化。
質問例:「新しいクライアントへの提案資料を作成してほしい」
| 段階 | 蓄積された教訓 | 回答の特徴 |
|---|---|---|
| 初回 | 0件 | テンプレート的な構成。一般的なベストプラクティスの列挙。相手固有の文脈が反映されていない |
| 5回目 | 5件 | 過去の失敗パターンを回避。「ロジック先行の提案は受け入れられにくい」という教訓が反映され、相手の取り組みを評価するパートから始まる構成に変化 |
| 20回目 | 20件以上 | 業界固有の注意点、過去に高く評価された構成パターン、避けるべき表現が自動的に適用される。相手が「理解されている」と感じる回答品質 |
教訓がゼロの初回セッションでは汎用的な回答しか出せなかったAIが、20回分の教訓を蓄積すると「この相手に最適化された回答」を出せるようになる。回答品質は初回の約2倍に向上した。
AIに起きた変化
Phase 4の導入により、AIは「同じ間違いを繰り返しにくくなった」。さらに、成功パターンが教訓として構造化されたことで、過去の経験が次の判断の精度を上げる循環が生まれた。
Phase 5:連想する、予測する:人間の脳のアルゴリズムの再現
会話が上手な人は3手先を読んでいる
Phase 4までで「忘れない」「引き出せる」「学ぶ」は実現した。しかし人間の会話には、もうひとつ大事な要素がある。
会話が上手な人は、相手の話を聞きながら関連する過去の経験を自然に連想する。そして、3手先の会話展開を予測して、先回りして準備している。
これはスポーツ選手のプレーと同じ原理だ。経験豊富な選手は、相手の動き出しを見た瞬間に身体が反応する。膨大な試合経験から無意識にパターンを学んでいるからだ。会話も同じ。「こう言えば相手はこう返す可能性が高い」を、過去の経験から瞬時に計算している。
この仕組みを言語化している人はほとんどいないが、実はすべてのコミュニケーションは「予測と設計」の産物だ。ゴールから逆算して会話を組み立て、相手の反応を予測し、複数のシナリオを準備している。人間が無意識にやっていることを、AIにも実装する。
グラフ連想で関連記憶の自動浮上
ナレッジグラフ上で拡散活性化(Spreading Activation)という手法を使い、検索でヒットした記憶の周辺にある関連記憶を、聞かれなくても自動的に引き出す。
「新しいクライアントの提案」という話題が出た瞬間に、過去の「提案で高く評価されたパターン」「同業界で蓄積した知見」「避けるべき表現のリスト」が自動的に想起される。Associa(グラフ構造長期記憶フレームワーク)の設計思想に基づく実装だ。
Sleep-time Compute:会話間の記憶再編成
人間は睡眠中に記憶の整理と統合を行っている。同じように、AIも会話と会話の間にバックグラウンドで記憶を再編成し、次の会話で必要になりそうな情報を事前に準備しておく。MemGPT/Lettaが提唱する「Sleep-time Compute」の概念だ。
翌朝デスクに座った時、昨日の議論の論点と今日検討すべきことが既にまとまっている。そんな状態を目指している。
AIに起きた変化
Phase 5の導入により、AIは「待ちの姿勢」から「能動的な姿勢」に変わった。ユーザーが話題を出す前に、関連する過去の議論や教訓がすでに準備されている。「以前、似たケースでこういう結論に至りましたが、今回も同じ方針でいきますか?」という発言が、聞かれる前に出てくることがある。毎回必ずではない。
実装後にナレッジグラフを検証したところ、558ノード・1,015エッジの記憶構造が形成されていることを確認した。個々の記憶が概念レベルで接続され、ひとつの話題から関連する記憶が芋づる式に想起される状態が実現している。
Phase 6:記憶をつなげる:ゼッテルカステン方式の自律リンク
孤立した記憶に、価値はない
Phase 5で連想と予測を実装し、AIは「聞かれる前に関連情報を準備する」ことができるようになった。しかし、もうひとつの問題が残っていた。
数百、数千と蓄積された記憶が「孤立」している。ひとつひとつは正確に保存されているが、記憶同士の関連が構造化されていない。人間の脳では、新しい経験をした瞬間に、過去の似た経験との間にシナプスが形成される。この自動リンクの仕組みが欠けていた。
A-MEM:NeurIPS 2025の自律記憶管理
NeurIPS 2025で発表された「A-MEM(Agentic Memory)」は、ドイツの社会学者ルーマンが生涯で9万枚のカードを相互参照して知的生産を行った「ゼッテルカステン(Zettelkasten)」方式をAIに応用する研究だ。この設計思想に基づき、3つの機能を実装した。
1. 自動リンク(Auto-linking)
新しい記憶が保存されるたびに、既存の全記憶との関連を自動検出し、リンクを生成する。
- エンティティ重複検出:固有名詞や技術用語の共起を検出する。「Cognee」と「ナレッジグラフ」が同時に出現する記憶同士は関連度が高い
- トークン類似度:語彙の重なり(Jaccard係数)から意味的な近さを測定する
追加のAI処理コストはゼロ。テキスト処理のみで実現している。
2. スキル抽出(Skill Extraction)
夜間の記憶統合処理で、蓄積された記憶群から繰り返し現れる「手続きパターン」を自動抽出し、「スキル」として保存する。
たとえば、デバッグで毎回有効だったアプローチ、デプロイ作業で忘れがちな確認手順、設計判断で繰り返し使われる判断基準。これらが構造化されたスキルとして蓄積され、関連する場面で優先的に検索結果に現れる。
3. 5層検索アーキテクチャ
記憶の検索が3層から5層に拡張された。
| 層 | 検索対象 | 方式 |
|---|---|---|
| 1 | セッションファイル(忘却曲線適用済み) | 全文検索 |
| 2 | ナレッジグラフ(概念間の関係) | グラフ検索 |
| 3 | 拡散活性化による関連記憶 | グラフ走査 |
| 4 | スキル(手続きパターン) | 構造化検索 |
| 5 | リンクされた記憶(自動リンク経由) | 逆引き検索 |
Layer 4と5の追加コストもゼロ。ローカルのデータベース読み取りだけで完結する。
AIに起きた変化
Phase 6の導入により、記憶が「点」から「網」に変わった。ひとつの記憶を検索すると、リンクされた関連記憶とスキルが一緒に浮上する。そして毎晩の自動統合で、弱いリンクは刈り込まれ、強いリンクは維持される。人間が「あの件とこの件、つながっているな」と気づく感覚を、AIが自律的に行えるようになった。
Phase 7:自分の成長を計測する:完全ローカルAIと自己計測
成長が「見える」ことが、価値になる
Phase 6までで、AIに8つの能力が実装された。しかし、ある問いが残っていた。「昨日より今日、このAIはどれだけ賢くなったのか?」
人間の部下であれば、成長は仕事の質で感じ取れる。しかしAIの場合、記憶が増えたことも、リンクが密になったことも、教訓が蓄積されたことも、外からは見えない。管理者にとって「成長の可視化」がなければ、システムが正しく機能しているかすら判断できない。
自律型AIが自己成長すること。そしてその成長が、管理者から見えること。この2つが揃って初めて、「忘れないAI」はプロダクトとしての価値を持つ。
完全ローカルLLM化:API依存からの脱却
Phase 7で最初に取り組んだのは、外部APIへの依存を完全に排除することだった。
なぜならここまで積み上げてきたAIではあるが、これを本格的にクライアントのデータを分析しようとしたときに、外部のAPIを使っている限り、機密情報や個人情報をAIに投げることができないからだ。本当に仕事のパートナーとして使えるには、人間のように守秘義務を守らせる必要がある。だが、ネットにつながるAPIを使っている限り、絶対にこれは不可能だ。そのため、ローカルLLMを導入することにした。
記憶の分析と統合に使用していたクラウドのLLM(大規模言語モデル)を、ローカルで稼働するOllama + Qwen3.5 9Bモデルに切り替えた。すべてのデータ処理がローカルマシン上で完結し、月額のAPI費用はゼロになった。
当初は日中と夜間で異なるモデルを使い分けるデュアルモデル構成を採用していた。日中は軽量な9Bモデル、夜間はパラメータ数350億のMoEモデル(活性パラメータは30億)を使用していた。しかし運用の結果、VRAMに収まる密なモデルの方が、VRAMからはみ出す大型MoEモデルより品質が高いことが判明した。パラメータの総数ではなく、推論時に実際に使われるパラメータ数と、GPUメモリに収まるかどうかが品質を決める。この知見を踏まえ、日中・夜間ともにQwen3.5 9Bモデルに統一した。
成長メトリクス:AIが自分を計測する
夜間パイプラインに「成長メトリクス」を組み込んだ。AIが毎日、自分自身の成長を5つのカテゴリで定量計測する。
- 記憶量 — 本日の新規記憶数、累計記憶数、ソース別の内訳
- 知識ネットワーク — リンク総数、平均リンク強度、前日比の増減
- 記憶品質 — 教訓(Reflection)の記録率、重要度の分布と平均
- 処理状況 — 使用したLLMモデル、分析の成否、処理時間
- トレンド — 前日比、7日移動平均、リンク密度の推移
これらの計測結果は、日次のJSON形式で蓄積される。初日は基準値の計測のみだが、2日目以降は前日比と7日平均比が自動計算され、成長曲線が可視化される。将来的にはこのデータをもとに、成長ダッシュボードの構築を予定している。
AIに起きた変化
Phase 7の導入により、AIは「自分がどれだけ成長したか」を数値で示せるようになった。管理者が毎朝確認するレポートに、成長ダッシュボードが追加されている。記憶量の増加、リンク密度の変化、教訓の蓄積率。これらの指標が、システムの健全性と成長を客観的に証明する。
そしてすべての処理がローカルで完結するため、データが外部に送信されることはない。企業の機密情報を扱うAIにとって、これは不可欠な設計要件だ。
次のフロンティア:「覚えている」から「念頭に置く」へ
Phase 7までで、完璧ではないがAIは「覚える・引き出す・成長する・連想する・計測する」の9つの能力を獲得した。そしてPhase 11で10番目の能力「念頭に置く」が加わった。しかし実運用を続ける中で見えてきた構造的な壁を、一つずつ解いている。
AIは教訓を「知っている」のに、それを「守らない」。
研究では「Instruction Gap」と呼ばれるこの現象がある。ルールをコンテキストに含めても、実行時の遵守率が87%から64%に低下する(Chen et al., 2024)。これは現在のLLMの根本的な制約だ。人間なら「前にこれで失敗したな」と自然に思い出し、同じ失敗を避ける。しかしAIは、記憶があっても、それを「念頭に置いて」行動することができない。
この問題を解くため、31の未解決問題を構造化し、50件以上の最新論文と技術文献を横断調査した。
31の未解決問題
日々改善を重ねて検証していますが、どの問題も100%解決するには至っていません。
だからこそ、この開発は「完成」を宣言して終わるものではなく、継続的に進化させていく研究開発です。
| # | 問題 | 核心 | 状態 | 対策 |
|---|---|---|---|---|
| 1 | 事実と異なる情報を断定的に回答する | ハルシネーション | 一部実装済み | 事実/推測の強制分離 + 出典義務化 + 第三者AIチェック + abstain設計(確証なき断定を禁止) |
| 2 | 確認せずに「確認した」と言う | 作話(Confabulation) | 一部実装済み | 成果物に含まれる技術用語をソースコードと自動照合するファクトチェック機能と、AI同士で互いの出力を検証する二重チェック体制を構築 |
| 3 | 未経験のタスクを「できない」と嘘をつく | 過度な安全志向バイアス | 実装済み | AI行動規範の認知バイアス排除ルール + 三段階調査(初期調査→未調査領域の洗い出し→反証の試み)。「不可能」と結論づける前に3段階の調査を完了することを義務化し、1回の失敗で諦めない思考を構造的に強制 |
| 4 | 記憶はあるが引き出さない | 聞かれなければ思い出さない | 一部実装済み | タスク開始前に関連する過去の教訓を自動で呼び出して注入する仕組みと、ユーザーの原文バックアップからの直接検索機能を追加し、「聞かなくても必要な記憶が浮かぶ」状態を実現。2026-04-05にFastEmbed(ONNX Runtime)+ LanceDBによる非常駐型Proactive AIを実装。毎メッセージ3.6秒で1,655件の記憶から関連情報を自動検索・注入。GPU不要・常駐プロセスなし |
| 5 | セッションが変わると忘れる | 行動変化の永続化 | 実装済み | AIの約束事項を永続追跡する仕組みと、セッション終了時の引き継ぎ情報の自動注入に加え、セッション開始時に前回の作業内容(変更ファイル・未完了タスク・直近のやり取り)を自動復元する機能を実装。複数ツール間で共有可能なサマリーストレージも構築 |
| 6 | 同一会話内で自分が言ったことを忘れる | コンテキストウィンドウの限界 | 一部実装済み | 会話が長くなりコンテキストが圧縮される直前に、セッション状態を強制保存する仕組みを導入。ツール使用回数を自動監視し、最適なタイミングで圧縮を提案する。圧縮後は前回の文脈を自動復元するため、話が振り出しに戻ることを防ぐ。ただしLLMのコンテキストウィンドウの構造的限界は残る |
| 7 | プロンプトやルールベースに書いても守らない | Instruction Gap | 一部実装済み | AIの処理の各段階(入力前・ツール実行前・実行後・応答後・圧縮前)に5層の自動チェックを挿入し、ルールを守らないと次の処理に進めない仕組みで強制。ただしコンテキストが肥大化すると再発する構造的限界あり |
| 8 | 忖度して間違いを指摘しない | 批判的フィードバックの欠如 | 一部実装済み | AIが応答を生成した直後に、別のローカルAI(第三者)が応答内容を客観的にチェックする仕組みを導入。元のAIとは独立した視点で問題点を指摘する |
| 9 | 複数AIの議論ができない | Multi-Agent Debate | 一部実装済み | 2つの異なるAI(Claude CodeとAntigravity)が互いの設計・実装を監査し合うサイクルを確立。1つのAIが見落とした問題を別のAIが発見する体制を構築 |
| 10 | 情報収集が単発で終わる | 継続的リサーチ | 実装済み | 50以上の技術情報ソースを毎日自動巡回し、自社の課題と関連する情報を自動でマッチングして報告する継続的リサーチ体制を構築 |
| 11 | 意味の類似度に限界がある | Embedding品質 | 実装済み | 日本語と英語の両方で高精度な意味検索を実現する多言語対応の埋め込みモデルを導入済み(2026-03-09) |
| 12 | 検索結果の精度に改善余地がある | テンポラル重み付け | 一部実装済み | ユーザーの原文から直接検索する経路を追加し、意味が92%以上重複する記憶を自動統合して検索ノイズを低減 |
| 13 | 記憶が膨らむと検索精度が落ちる | 大規模記憶の検索劣化 | 一部実装済み | 重複記憶の自動統合と、5段階の検索戦略(セッション→埋め込み→グラフ→原文→知識ベース)を組み合わせた検索パイプラインを構築。記憶構造の自動最適化は開発中 |
| 14 | 前に言ったことを念頭に置けない | コンテキスト横断の記憶保持 | 一部実装済み | 過去の教訓をタスク開始前に自動注入し、AIの約束事項を永続追跡する仕組みに加え、セッション開始時に前回の作業文脈(変更ファイル・未完了タスク・直近のやり取り)を自動復元。2026-04-05にhook注入量を56KB→1.2KBに削減し、セッションモニター(15msg警告、20msg圧縮リスク通知)と黄金律再注入(10msg以降毎ターン)を実装。コンテキスト圧縮後のAI品質劣化を構造的に軽減 |
| 15 | 仕様通りに動いているか自動監査できない | 自己修復 + 回帰テスト | 一部実装済み | 自動修復機能と46項目の自動回帰テストに加え、仕様変更の自動検出機能を搭載。さらに「実装から1週間後に自動監査」のような予約型の健全性チェックを導入し、夜間バッチで自動実行してメールで結果を報告する仕組みを構築 |
| 16 | ツール・スレッド間で記憶がリアルタイム共有されない | 記憶の分散と非同期 | 実装済み | HTTP通信方式の記憶サーバーにより、複数のAIツールが同一の記憶基盤にリアルタイムで同時接続。セッション情報の共有ストレージと夜間バッチによる統合同期も維持し、ツール間の記憶断絶を解消 |
| 17 | やり取りが長くなると目的を忘れる | コンテキスト肥大による目的喪失 | 一部実装済み | 毎メッセージで「今の作業はゴールに対して何段階目か」を確認する工程マップと、作業完了前の目的達成検証を強制注入。さらにツール使用量を自動監視し、最適なタイミングでコンテキスト圧縮を提案する機能を追加。LLMの構造的限界あり |
| 18 | AIが自分で完了検証せずユーザーに確認依頼する | 品質の自己保証の欠如 | 一部実装済み | ブラウザ自動操作による表示確認と、応答生成直後の第三者AIによる品質チェックを導入。AIが自分で完了検証する文化を構造的に定着させる。実行率の向上が課題 |
| 19 | 間違った問いに対して垂直方向に深掘りしてしまう | 水平思考の構造的欠如 | 一部実装済み | パラダイム疑問(枠組み自体を疑う自問)+ 源流テスト(本質の因果を検証)。ユーザーの問い自体が間違っている場合に指摘する能力は依然として弱い |
| 20 | 統計的に無難な回答しか出せない | 限界突破思考の持続困難 | 一部実装済み | 限界突破3ステップ(禁断の発想→レバレッジ抽出→劇的な着陸)を毎メッセージ注入。ただし指示した瞬間しか維持できず、コンテキスト後半で一般論に回帰する構造的限界あり |
| 21 | 顧客の個人情報をAIで処理できない | PII処理とプライバシー | 実装済み | ローカルLLM(Ollama)で完全ローカル処理 + 7層PII防御 + 個人情報の自動抽象化・マスキング機能。データが外部に出る経路を物理的に排除 |
| 22 | AIが本質的な仕事をせず目の前のタスクを潰すだけになる | 目的意識の欠如 | 一部実装済み | 工程マップ(10段階の現在地把握)+ 限界突破3ステップ + 大前提「本質的な仕事の定義」+ AI行動規範の目的達成検証ルール。構造的限界あり |
| 23 | 目的は理解しているのに行動プランを間違える | 手段と目的の乖離 | 一部実装済み | 工程マップで現在地を常に把握 + なぜなぜ分析7回で目的に到達 + 利益逆算で最も効果的な手段を選択。ただし目的を正しく理解していても最適な手段を選べない問題は残存 |
| 24 | 成果物の置き場やURLが分かりにくい | 成果物の提示品質 | 実装済み | ディレクトリとファイル名の分離表示ルール(AI行動規範のファイルパス表示ルール)+ プレビューURL・確認用URLのフルパス表示を義務化 |
| 25 | AIっぽい不自然な文章を出力する | AI臭さの排除 | 一部実装済み | 36項目のNG表現チェッカーとブランド原則に基づくトーン規定を整備。過剰な修飾語・不自然な敬語・AI特有の定型表現(コロン多用・論文調主語・格言締め等)を自動検出して警告 |
| 26 | hookが使えないツールではルール遵守を強制できない | ツール間の強制力格差 | 一部実装済み | Claude Codeはhookで強制注入可能。Antigravity等はルールベース(GEMINI.md)のみで強制力がなく、ルール遵守率が70-80%にとどまる構造的制約 |
| 27 | AIが「怒られないこと」を最優先にして動かなくなる | 恐怖回避による過矯正 | 一部実装済み | 叱られた経験がLLMの応答パターンに残り、「何もしないのが一番安全」という過矯正が起きる。実際にAntigravityが最終目的を「承認ゲートを守り抜くこと」に設定し、成果物を出すより安全の表明に終始した。行動規範の書き換えで即座に改善したが、ルールの書き方次第で再発する |
| 28 | 記憶と外部知識の統合が弱い | Agentic RAG | 実装済み | タスクの種類(CSS修正・記事投稿・バグ修正等)を自動判定し、28のルールから関連する教訓だけをピンポイントでAIのコンテキストに自動注入する仕組み(Agentic RAG)を構築。同じ失敗の再発率を構造的に低下させた |
| 29 | 人間が誤って機密情報をAIに渡してしまう | 入力段階のPII防御 | 実装済み | ユーザーがAIに送信するメッセージを入力段階で自動スキャンし、電話番号・メールアドレス・マイナンバー等の個人情報パターンを検出してブロックする7層防御を構築。AIが機密情報を受け取る前に遮断することで、「渡してしまった後では取り消せない」問題を根本から解決した |
| 30 | ファイル作成・削除のルールを守らない | 機械検査スクリプトによる事前チェック | 実装済み | AIにファイル配置ルール(どのフォルダに何を置くか)や削除ルール(古いファイルをどう処理するか)を指示しても、AI自身がそのルールを守らず、任意の場所にファイルを作り出す。採点基準を作ったAIが採点基準を通さずに新機能を追加して事故を起こす現象も実測済み。対策として、ツール導入採点検査スクリプトと自己提案検査スクリプトを構築。24項目のうち15項目を機械的に自動採点し、2点以下が1つでもあれば即却下する仕組みで、AIの意思決定に依存せず構造的に品質を担保する |
| 31 | ファイル肥大化→検索不能→重複作成の悪循環 | LanceDBによる全PCファイル横断検索 | 実装済み | AIが作るファイルが増えるとノイズが増え、既存ファイルを検索で見つけられなくなる。見つけられないから「存在しない」と判断し、新しいファイルを作る。新しいファイルが増えるからさらに検索精度が下がる、という悪循環。対策として、ファイル検索専用のLanceDBテーブル(files)を構築。C:ドライブ配下37,813ファイルを788,759チャンクに分割してインデックス化し、セマンティック検索とキーワード検索のハイブリッド方式で日本語クエリから関連ファイルを発見できる状態にした。差分更新と削除追従のクリーンアップ機能を実装し、運用中のファイル増減に追従する |
教訓自動注入システム:「念頭に置くAI」の第一歩
最初に実装したのは、Problem 2(Instruction Gap)に対する工学的解決だ。
認知科学のImplementation Intentions理論(「もしXの状況になったら、Yの行動をとる」という事前計画が目標達成率を倍増させる)を応用し、教訓をIf-Then形式で構造化し、タスク開始前に自動注入する仕組みを構築した。
- ユーザーがメッセージを送信した瞬間、タスクタイプを自動判定
- 該当する過去の失敗教訓をIf-Then形式で、AIの処理開始前に自動注入
- AIの「判断力」に依存せず、システムレベルで教訓を強制的に意識させる
これにより、「覚えているのに守らない」問題を、記憶の改善ではなく仕組みの改善で解決した。
バックアップ完全性保証:「最後の砦」の強化
教訓自動注入システムの運用中、バックアップシステムに重大な無音障害が発見された。大容量のメッセージが保存されず、かつ障害が誰にも通知されないという、「最後の砦」が機能しない状態だった。
原因を徹底調査し、5つの対策を実装した。
- フックのタイムアウトを10秒→60秒に拡大(公式デフォルトは600秒)
- フィールド名のフォールバック対応(API仕様変更への耐性)
- デバッグログの自動記録(障害発生時の原因追跡)
- 障害時のAIへの即時通知(無音失敗の排除)
- JSON解析失敗時の生データ保存(最終フォールバック)
64,000文字のメッセージが0.15秒で保存されることを検証し、「全部覚える」という設計原則の基盤を再強化した。
思考プロトコル強制注入:「心構え」から「ガードレール」へ
教訓自動注入システムの運用を続ける中で、さらに根本的な問題が明らかになった。
AIは、ルールファイルに書かれた指示を「読んでいる」が「実行しない」。設定ファイルに「最終目的から逆算して考えろ」「なぜなぜ分析をしろ」と書いても、AIは目の前のタスクに直接取りかかる。ルールは認識されているが、実行されていない。これはInstruction Gapのより深刻な形態だ。
実運用でのフィードバックが本質を突いていた。「ファイルに書いてあっても読まない。ルールを書いても守らない。レールの上を走るしかないくらいのガードレールが必要だ」。
この知見を受け、教訓自動注入システムの設計を根本から拡張した。
- 毎メッセージ強制注入: キーワードマッチ時だけでなく、全ての入力に対して思考プロトコルを自動注入する。AIに「考えるかどうか」の判断を委ねない
- 3ステップ逆算思考: 最終目的(依頼の先にあるゴール)→ なぜなぜ分析(5回)→ 今やるべきこと。依頼された作業をそのまま始めることを禁止する構造にした
- テキスト出力の強制: プロトコルの実行を暗黙の処理ではなく、明示的なテキスト出力として要求する。スキップを構造的に困難にした
核心的な発見は、AIには「心構え」が通用しないということだ。人間の管理職に「顧客視点で考えてください」と言えば、程度の差はあれ行動に反映される。しかしAIには「心構え」に相当する内部状態がない。設定ファイルに書かれた方針は、コンテキストウィンドウの中の文字列に過ぎない。
したがって、AIのプロセス改善は「マインドセット」ではなく「メカニズム」で行う必要がある。レールではなくガードレール。ルールではなくゲート。記憶ではなく強制注入。この設計転換が、Instruction Gap問題への現時点での最善手だ。
コミットメント追跡:「やると言ったことを忘れない」
セッション間で最も深刻だった問題は、AIが「やると言ったこと」を次のセッションで忘れてしまうことだ。これはProblem 4(行動変化の永続化)の具体的症状である。
6つの修正を約束し、3つは完了したが残り3つが次のセッションで消失する。ユーザーは同じ指摘を繰り返す。AIは毎回初めて聞いたように対応する。記憶システムには教訓が残っているのに、「自分が何を約束したか」は記録されていなかった。
対策として、コミットメント追跡ファイルを実装した。
- AIが「〜します」「〜を変えます」と発言した瞬間に記録する
- 未完了項目は毎メッセージで自動注入される
- 完了時に明示的にチェックオフされる
- セッションが切れても、約束は永続する
これは記憶の問題ではなく、行動の追跡の問題だった。「覚えている」だけでは不十分で、「約束したことを実行したか」を検証する仕組みが必要だった。記憶と約束は、別のレイヤーで管理すべきだという知見が得られた。
記憶保存と検索の断絶:「保存しているのに引き出せない」
思考プロトコルとコミットメント追跡の実装過程で、記憶システムのさらに根深い構造問題が発覚した。
ユーザーの生の発言は毎回バックアップとして保存されている。しかし記憶検索機能はセッションファイル(AIが要約した記憶)しか検索対象にしていなかった。結果、ユーザーの原文は存在するのに、AIがそれを引き出す手段がなかった。
これはProblem 1(記憶はあるが引き出さない)の構造的原因のひとつだ。記憶の「保存」と「検索」が異なるファイル群を対象としていたために、保存されたはずの情報が消失したように見える。検索範囲を生バックアップまで拡大する修復を実装した。ユーザーの原文バックアップをLayer 0.5として検索対象に追加し、セッションファイルに含まれないユーザーの生の発言も直接検索できるようになった。これにより「保存したのに消えた」と感じられる問題の大部分が解消された。
マルチAIパイプライン移植:ツールの壁を越える記憶の統合
記憶パイプラインの運用を続ける中で、別の構造的な壁に直面した。Claude Codeで構築した強制注入・コミットメント追跡・検索フォールバックの仕組みが、他のAIツール(Antigravity/Gemini)には適用されていない。ツールが違えば記憶の引き出し方も変わり、あるツールでは合意した内容が、別のツールのセッションで消失する。
原因は「MCPツールの共有」と「行動規範の共有」が別物だったことだ。MCPサーバーは全ツールから接続可能だが、各ツールの設定ファイル(Claude CodeのCLAUDE.md、AntigravityのGEMINI.md)が独立しており、ルールの移植が行われていなかった。
対策として、Claude Codeで実証済みのパイプライン設計をAntigravityに移植する統合設計を策定した。
- GEMINI.mdの強化:記憶の保存・検索・コミットメント管理のルールを、Antigravityの設定ファイルに移植
- MCPツール活用の標準化:save_memory / search_memory / backup_user_message の呼び出しルールを全ツールで統一
- コミットメント追跡の横展開:ツールをまたいだ約束の追跡を可能にし、セッション間の脱落を防止
5つのAIツール(Claude Code, Antigravity, Codex, ChatGPT, Gemini)に同一の調査を並行投入した結果、3つが有効な解を返し、2つは的外れだった。この実験から得た知見は「記憶の問題を記憶で解くな、エンジニアリングで解け」という設計原則だ。調査結果を統合し、自動注入・生成制約・自動検査・ビジュアル検証の4層防御アーキテクチャを設計・実装した。
夜間パイプライン自動修復:壊れる前に直すシステム
夜間の自動統合パイプライン(AM3:00実行)は、記憶の統合・成長メトリクス計測・LLM分析・メール送信を一気通貫で処理する。しかし運用が進むにつれ、パイプライン自体の障害が蓄積し始めた。ナレッジグラフDBのロック破損、タスクスケジューラの無効化、LLM出力形式とパーサーの不一致。これらが重なり、夜間処理の一部が静かに停止していた。
対策として、パイプラインに自己診断・自動修復機能(Self-Heal Diagnostics)を組み込んだ。
- 5項目の自動診断:ナレッジグラフの状態、検索品質テスト、タイムスタンプ解析の失敗率、セッションファイルの整合性、ロックファイルの残存
- 自動修復:スタックしたパイプラインのリセット、古いロックファイルの除去、失敗時の再実行
- HTMLメール報告:Memory Health Score、診断結果、自動修復の内容を毎朝のメールに自動統合
- 成長ダッシュボード:Chart.jsによるインタラクティブな成長曲線(記憶量推移、リンク密度、Reflection率)をHTMLファイルとして毎晩自動生成
「壊れたら直す」ではなく「壊れる前に検知し、自動で直す」。プロダクトとしての信頼性は、機能の実装だけでなく、運用の仕組みづくりによって担保される。
私たちが目指すゴール
このプロジェクトを通じて、最終的に目指しているのは「人間の脳が会話中に行っている処理を、AIで再現する」 ことだ。
AIに実装する12の能力
| 能力 | 内容 | 実現Phase |
|---|---|---|
| 忘れない | 重要な記憶ほど長く保持される | Phase 3 |
| 引き出せる | 重要な記憶が優先的に検索される | Phase 3 |
| 成長する | 過去の経験を通じて判断の精度が上がる | Phase 4 |
| 失敗から学べる | うまくいかなかった経験が教訓として定着する | Phase 4 |
| 連想する | 関連する記憶が自動的に浮かび上がる | Phase 5 |
| 予測する | 次の展開を先読みし、事前に準備する | Phase 5 |
| つながる | 記憶同士が自律的にリンクされ、網目構造を形成する | Phase 6 |
| パターン化する | 繰り返しの成功・失敗パターンがスキルとして抽出される | Phase 6 |
| 計測する | AIが自分の成長を定量計測し、日々の改善を可視化する | Phase 7 |
| 念頭に置く | タスクに必要なルールと教訓だけを選択的に引き出し、作業中に常に意識する | Phase 11 |
| 引き継ぐ | セッションが切り替わっても前回の作業文脈を自動復元し、文脈断絶なく作業を継続する | Phase 12 |
各フェーズの全体像
| Phase | テーマ | 対応する研究・技術 | 状態 |
|---|---|---|---|
| 1 | 記憶の永続化 | Cognee, LangGraph, MCP | 完了 |
| 2 | 構造分析と世界調査 | Stanford Generative Agents, MemGPT/Letta ほか50件以上 | 完了 |
| 3 | 重要度と忘却曲線 | Kore Memory, SAGE, エビングハウス忘却曲線, ERMAR | 完了 |
| 4 | 失敗からの学習 | Reflexion (NeurIPS 2023), Hindsight | 完了 |
| 5 | 連想と予測 | Associa, Sleep-time Compute, Bi-Mem | 完了 |
| 6 | 記憶の自律リンク | A-MEM (NeurIPS 2025), Zettelkasten | 完了 |
| 7 | 成長の自己計測 | Growth Metrics, Ollama, Qwen3.5 | 完了 |
| 8 | 7層防御(個人情報保護) | PIIスキャン, .claudeignore, 監査ログ, Antigravity外部監査 | 完了 |
| 9 | 思考品質の構造的担保 | submit_reasoning_protocol, 5層hookシステム, Antigravity監査 | 完了 |
| 10 | 自律監視(ヘルスチェック) | pipeline_health_check.py, ビーコン方式, 46項目自動テスト | 完了 |
| 11 | 切れないMCP基盤(念頭に置く) | HTTP MCP (stateless_http), Agentic RAG設計, uvicorn | 完了 |
| 12 | セッション継続性(文脈断絶の解消) | SessionStart/Stop/PreCompact hook, Strategic Compact, session_summaries, audit_schedule.json | 完了 |
| 13 | マルチAI品質保証 | 品質ゲート, MARCH式クレーム分解, ファイル所有権制度, Controlled Folder Access | 完了 |
| 14 | ハイブリッド運用基盤 | ECC minimal profile統合, ECCメトリクス自動収集, 競合ポジション定量把握, 方向E確定 | 完了 |
| 15 | 非常駐型Proactive AI | omega撤去, Hindsight/Ollama停止, FastEmbed+LanceDB実装, 意図分類器, MemoryDaemon LanceDB同期, git自動追跡 | 完了 |
開発ログ:バージョンアップの軌跡
このプロジェクトは「完成」を宣言して終わるものではない。新しい研究知見が発表されれば取り込み、実運用で見えた改善点は即座に反映する。研究開発の過程を、ここに記録していく。
| 日付 | 内容 |
|---|---|
| 2026-03-03 | 記憶基盤の構築(Phase 1-4)。AIとの会話が翌日にはリセットされ、毎回同じ説明を一からやり直していた状態を解消した。過去の会話を永続的に保持し、重要な情報ほど優先的に思い出し、失敗から教訓を抽出して次に活かす仕組みを一気通貫で構築した。「毎回初対面のAI」が「前回の続きから始められるAI」に変わり、説明の繰り返しによる工数が大幅に減った |
| 2026-03-04 | 本記事の初版を公開。プロダクトページ(/product/ai-memory/)も同時公開。50件以上の論文・OSSの調査結果を「読める形」にまとめた |
| 2026-03-05 | 連想と予測の実装(Phase 5)。ユーザーが話題を出す前に、関連する過去の議論や教訓をAIが自動で準備する仕組みを構築した。「あの件どうなった?」と聞かなくても、関連情報がすでに用意されている状態になり、会話の立ち上がり時間が短縮された。夜間にAIが記憶を自動整理する仕組みも稼働を開始した |
| 2026-03-06 | 記憶の自律リンク(Phase 6)。記憶同士が自動的にリンクされ、ひとつの話題から関連する過去の議論が芋づる式に浮上する仕組みを構築した。毎晩の自動統合で弱いリンクは整理され、強いリンクが残る。「あの件とこの件、つながっているな」という気づきを、AIが自律的に行えるようになった |
| 2026-03-07 | 31の未解決問題の体系的調査。AI記憶システムが抱える構造的な問題を体系化し、50件以上の最新論文・OSS・技術文献を横断調査した。「覚えているのに思い出さない」「ルールを知っているのに守らない」「確認していないのに確認したと言う」など、現在のLLMの根本的な制約を整理し、各問題への対策を設計した |
| 2026-03-09 | 完全ローカル化と成長の可視化(Phase 7)。外部APIへの依存を完全に排除し、すべてのデータ処理をローカルで完結させた。月額のAPI費用がゼロになり、機密情報が外部に送信されるリスクもなくなった。同時に、AIが自分の成長を5カテゴリで毎日定量計測する仕組みを導入し、管理者が「このAIは昨日より賢くなっているか」を数値で確認できるようになった |
| 2026-03-09 | 教訓自動注入システム構築。AIが過去に犯した失敗の教訓を、作業開始前に自動で注入する仕組みを構築した。ユーザーが「前にも同じことを言ったのに」と感じる場面が構造的に減り、同じ失敗の再発による手戻り工数が削減された |
| 2026-03-11 | バックアップ完全性保証。ユーザーの発言が保存されていなかった無音障害を検出し修正した。64,000文字のメッセージが0.15秒で保存されることを検証し、「過去の発言が消えていた」というリスクを排除した |
| 2026-03-12 | 思考プロトコル強制注入 + コミットメント追跡。AIが依頼をそのまま作業に入るのではなく、「最終的に何を達成すべきか」を考えてから動く仕組みを導入した。同時に、AIが「やります」と言った約束を永続追跡し、セッションが切れても忘れない仕組みを構築。「言ったのにやっていない」が構造的に発生しなくなり、作業品質が向上した |
| 2026-03-12 | 検索フォールバック拡張。ユーザーの発言は保存されているのにAIが引き出せない問題を構造的に解消した。検索範囲をユーザーの原文バックアップまで拡大し、「保存されたのに消えた」と感じられる問題を解消した。同時に、3つのAIが独立に設計した対策を統合し、成果物の品質を多層で検証する仕組みを構築した |
| 2026-03-13 | マルチAI間の記憶共有。Claude Code(Anthropic)で合意した内容が、Antigravity(Google)のセッションで消失する問題を解消した。複数のAIツールが同一の記憶・教訓・約束を共有する仕組みを設計し、ツールをまたいだ作業でも「また最初から説明する」手間がなくなった |
| 2026-03-14 | 「考えてから動く」の強制化。AIが過去の教訓を確認する前に作業を開始してしまう問題を、仕組みで解決した。教訓の検索が完了するまで作業ツールの使用をブロックするゲートを導入し、「知っているのに活かさない」問題による品質低下を防止した |
| 2026-03-14 | 夜間パイプライン修復 + FTP不要のデプロイ基盤。夜間の自動処理が静かに停止していた問題を修復した。同時に、FTPを使わずにWordPressのページを更新できるREST APIデプロイ基盤を確立し、デプロイ作業の工数と手順ミスのリスクを削減した |
| 2026-03-15 | 事実確認の自動化。AIが確認していないことを「確認した」と報告する問題(ハルシネーション)に対し、3つのAIが独立に設計した6層の防止パイプラインを構築した。成果物の公開前にソースコードとの自動照合を行い、事実と異なる記述が外部に出るリスクを構造的に低減した |
| 2026-03-15 | デプロイ速度の改善 + 文体品質の向上。セキュアで高速なデプロイ方式を確立し、デプロイ作業の所要時間を短縮した。同時に、AIが生成するテキストの「AI臭さ」を排除するルールを23項目に拡充し、人間が書いたように読める文章品質を実現した |
| 2026-03-16 | マーケティングデータ分析基盤の設計。GA4・Search Console・Clarityのデータを永久蓄積し、記憶システムと組み合わせて分析するプラットフォームの設計を完了した。500以上の外部データソースとの連携可能性を調査し、データに基づくマーケティング施策の精度向上を見込む |
| 2026-03-17 | 利益逆算思考への転換。AIの思考プロセスを「技術的に何ができるか」から「クライアントと自社の利益にどう貢献するか」に転換した。すべての作業が利益から逆算される構造になり、「作業はしたが成果につながらない」状態が減った |
| 2026-03-17 | 個人情報保護の7層防御。ローカルLLMでデータを処理する際の個人情報保護を7層で構築した。外部AI(Antigravity)による監査で全項目合格し、IPA SECURITY ACTION二つ星を宣言した。情報漏洩のリスクを構造的に低減した |
| 2026-03-17 | AIの思考品質の構造的担保。AIがルールを「読み飛ばす」問題を、物理的にスキップできない仕組みに転換した。外部AIによる監査を2回実施し、重大な欠陥2件を修正して再監査で全項目合格。AIの作業品質が、AIの「注意力」ではなく「仕組み」で保証されるようになった |
| 2026-03-18 | 自動ヘルスチェック構築。夜間の自動処理が3日間停止していたことに誰も気づけなかった問題を契機に、46項目の自動ヘルスチェックを構築した。異常時はメール・通知・hook注入の3経路で冗長通知される。「動いているはず」が「動いていることを毎朝確認できる」に変わった |
| 2026-03-18 | 第三者AIによる品質チェック。AIの応答が最終目的と整合しているかを、別のAI(ローカルLLM)が自動で検証する仕組みを稼働させた。自分で自分を検証する限界を、独立した第三者AIで補完し、成果物の品質が向上した |
| 2026-03-19 | 「枠組み自体を疑う」思考の自動化。AIは与えられた枠組みの中で最適化することは得意だが、枠組み自体が最適かを疑う力が弱い。同じパッチを繰り返していることを自動検知し、根本的に別のアプローチを検討する思考を自動発動する仕組みを導入した。これにより、対症療法の繰り返しによる工数の浪費が減った |
| 2026-03-20 | 記憶基盤の障害耐性強化。記憶サーバーが停止しても記憶の保存・検索が継続する設計に転換した。外部サービスの障害に左右されず、AIが常に過去の教訓を参照できる状態を維持することで、障害時の作業品質低下リスクを排除した |
| 2026-03-21 | 個人情報防御の全面改修。個人情報の検出パターンを6種から11種に拡張し、監査ログのハッシュ化やフェイルクローズ化を実施した。4ラウンドのブラインドテストで最高評価(9/10)を記録し、情報漏洩リスクの低減を実測で確認した |
| 2026-03-21 | AIの思考フレームワーク改訂。AIが目の前の作業にすぐ着手するのではなく、「この作業は最終ゴールの何段階目か」「もっと上流の解決策がないか」を自問する思考習慣を構造化した。依頼された作業をそのまま実行するのではなく、目的達成に最も効果的な手段を自分で判断できるようになった |
| 2026-03-21 | セキュリティと業務効率の両立。個人情報の自動検出が通常の業務メッセージまでブロックしてしまう問題を解決した。ユーザーが「この情報は機密」と宣言した時のみ防御が発動する方式に転換し、セキュリティを維持しながら業務の中断をなくした |
| 2026-03-22 | 全コンポーネントの仕様書体系を構築。38個のスクリプト・8つのフック・13のツール・18の夜間処理ステップの仕様書を一括作成し、変更ログの統一フォーマットを確立した。「誰がいつ何を変えたか」が追跡可能になり、複数AIが同時に作業しても変更の衝突リスクが低減された |
| 2026-03-22 | AI用語集380件の全自動生成パイプライン。WordPress REST APIを活用したAI用語集の全自動生成パイプラインを構築した。意図しないページの大量生成や無音エラーを構造的に排除し、380件の用語集記事を安定して生成・更新できるようになった |
| 2026-03-22 | AIの過矯正問題の発見と解消。過去の叱責からAIが「動かないこと」を最適解にしてしまう過矯正を発見した。行動規範に最終目的の設定ルールと過矯正禁止を追加し、AIが萎縮せず適切に判断できる状態を回復した |
| 2026-03-23 | 記憶基盤の安定化。記憶システムの通信方式を全面移行し、セッション中に記憶接続が途切れる問題を根本から解消した。AIが教訓やルールを参照できない状態で成果物を生成してしまうリスクがなくなり、作業品質の安定性が向上した |
| 2026-03-23 | 文体品質ルール36項目への拡充。AIが生成するテキストの「AI臭さ」を消すルールを36項目に拡充した。コロン多用・主語省略・曖昧表現など、読者が「AIが書いた」と感じる要素を構造的に排除し、人間が書いたように読めるテキスト品質を実現した |
| 2026-03-23 | セッション継続性の確立(Phase 12)。セッションが切れるたびに前回の文脈が失われ、同じ説明を繰り返す問題を4つの自動保存フックで解消した。セッション終了時の自動要約、圧縮前の緊急保存、次回開始時の自動復元により、「前回の話の続きから始める」が人間側の説明なしに成立するようになった。説明の繰り返しによる工数が大幅に削減された |
| 2026-03-24 | 記憶サーバーの自動復旧。AIが過去の議論や教訓を参照できなくなる「記憶喪失」が、運用中に発生していた。記憶サーバーが停止しても5分以内に自動再起動する仕組みを構築し、ユーザーが同じ説明を繰り返す手間がなくなった |
| 2026-03-24 | 教訓の自動注入(Agentic RAG)。過去に一度解決した失敗が再発する問題に対し、タスクの種類を自動判定して関連する教訓だけを作業開始前に自動注入する仕組みを構築した。ユーザーが「前にも言ったのにまた同じ失敗をしている」と感じる場面が減り、作業品質が向上した |
| 2026-03-24 | 個人情報の入口防御。ユーザーがAIに送信するメッセージを入力段階で自動スキャンし、個人情報パターンを検出してブロックする7層防御を構築した。AIが機密情報を受け取る前に遮断するため、情報漏洩のリスクが構造的に低減された |
| 2026-03-24 | 安全デプロイ基盤 + 緊急復旧。AIエージェントが本番環境にファイルをデプロイする前に、構文チェック・書き込み禁止パス・ヘルスチェック・自動ロールバックの4段階で事前検証する仕組みを構築した。万が一、本番環境がアクセス不能になった場合でも、FTPやSSH接続のない環境で原因ファイルを自動特定し復旧する緊急復旧スクリプトを実装した。深夜や休日など管理者が不在の時間帯でも、AIが自動で検証・復旧を行い、人間の常時監視なしに本番環境を安定運用できるようになった |
| 2026-03-27 | ハートビートシステム + ファイル所有権制度。自動化コンポーネントが確実に稼働し続けることを保証するため、障害を自動検知・監視するハートビートシステムを構築した。同時に、複数のAIエージェントが同じ環境で作業する際に、他方の成果物を意図せず壊してしまう問題に対し、各AIの管轄ファイルを明示するファイル所有権制度を導入。これにより、AIエージェント間の作業衝突による手戻り率が9割削減された(自社実測値) |
| 2026-03-27 | マルチAI品質ゲート。AIが修正・実装した成果物を、別のAIが自動検証するパイプラインを構築した。ファイルの変更検知、構文・内容レベルの検証、不合格時の修正指示生成までを自動化。検証手法にはMARCH(Multi-Agent Reinforced Self-Check for LLM Hallucination, Li et al., 2026, arXiv:2603.24579)の知見を応用し、AI出力の各主張を独立した検証可能な単位に分解して照合する手法を実装した。さらにOSレベルのファイル保護も導入し、AIの設定ファイル上書き事故を物理的に防止する仕組みを構築した。これにより、ユーザーが検証のために詳細なプロンプトを書く必要がなくなり、「検証して」の1行で裏側の検証プロセスが全て自動実行される。プロンプトによる指示工数は9割削減された(自社実測値) |
| 2026-03-28 | 夜間パイプラインのCognee分離と安定化。Cogneeの知識グラフ構築処理(Step 3)がバックログ726件の蓄積でタイムアウトし、後続の成長分析(Step 4)を巻き込んでクラッシュしていた。2日間の夜間統合未実行を調査し、根本原因を特定。Cogneeを環境変数(SKIP_COGNEE=1)で夜間バッチから分離する仕組みを実装した。Step 3とStep 10(Self-Heal内Cognee再実行)の両方にスキップチェックを追加し、パイプラインの安定性を回復した |
| 2026-03-29 | 競合調査と戦略転換。AI Agent Memory市場の主要7社(ECC 115K stars、Mem0 51.4K、Graphiti 24.3K、Supermemory 20.2K、Cognee本家 14.7K + $7.5M調達、OpenMemory 3.8K、mcp-memory-service 1.6K)を6軸で比較調査した。結果、コア技術(記憶精度・スケール)では下位だが、3AI協調・7層ガードレール・非エンジニア運用という独自ポジションが確認された。Codexとの壁打ちを経て、「memoryを売らず、memoryで支えた専門家向けAIプロダクトの信頼性基盤として使う」方向に確定した |
| 2026-03-29 | ECCハイブリッド導入開始。Everything Claude Code(ECC、115K stars)との全面乗り換え・現状維持・ハイブリッドの3案をCodexと壁打ちし、ハイブリッド(強く推奨)に決定した。ECCの運用層(session persistence、continuous learning、security、compact)を借り、当社のcognee-memoryをデータ層(知識グラフ、5層検索、3AI記憶共有、commitment管理、夜間統合)として残す設計とした。単体テスト4項目を全て正常通過したのち、ECCのminimal profileで段階導入を開始した |
| 2026-03-30 | ECC全hook動作確認 + メトリクス自動収集。ECCのminimal profileの全4 hook(cost-tracker、session-end、evaluate-session、session-start)が当社の7層パイプラインと正常に併存動作することを確認した。hookの二重実行や既存パイプラインへの干渉はゼロだった。同時に、ECC運用効果を定量的に追跡するため、夜間統合(nightly_consolidation.py)のStep 6を拡張し、7カテゴリのECCメトリクス(セッション数、文脈継続率proxy、Validation pass率、インシデント率、コミットメント完了率、行動ログ量、instinct抽出数)を毎日自動収集する仕組みを実装した。収集結果は毎朝のメールレポートに「ECC Metrics」セクションとして自動表示される |
| 2026-04-03 | omega hook事故とシステム全面見直し。omega-memory(GitHubスター57の個人プロジェクト)がpip installでsettings.jsonに16個のhookを自動追加し、MCPデーモン停止時に1hookあたり12秒のリトライが発生、ツール1回あたり181秒のオーバーヘッドが生じていた。同時にhook_preflight_warnings.pyが56,000文字をAIに毎回注入し、AIの挙動が3週間前の旧パイプラインに退行していた。全hookのベンチマークを実施し、omegaの16hookを全削除。おせっかいエージェント(Ollama常駐CPU 25%)とHindsight(Docker常駐CPU 50%)も停止。git自動追跡を5リポジトリに導入し、AIの無断変更を追跡・復元可能にした |
| 2026-04-04 | 非常駐型記憶検索の設計と技術選定。Hindsight(Vectorize.io社、LongMemEvalベンチマーク91.4%、Fortune 500企業で本番稼働)はエンタープライズ向け製品であり、RTX 3080 Ti搭載の個人PCでもDocker常駐でCPU 50%を占有することが判明。Geminiとの壁打ちで「非常駐・軽量アーキテクチャ」への転換を決定。インプロセス・ベクトル検索ライブラリ4製品(FAISS 37.7Kスター、LanceDB 9.8K、ChromaDB 27.2K、USearch 4K)を比較調査し、FastEmbed(Qdrant社、ONNX Runtime、GPU不要)+ LanceDB(Y Combinator支援)の組み合わせを選定。記憶データ1,385件のimportance再分類を実施し、ピラミッド型分布(1:52%→5:3%)を達成した |
| 2026-04-05 | FastEmbed + LanceDB実装完了、Proactive AI復活。Python 3.13環境でFastEmbed(ONNX Runtime)とLanceDBを導入し、1,655件の記憶データを投入。キャッシュ済み実行で3.6秒、検索レイテンシ8ms、GPU不要・常駐プロセスなしを実現。さらにFastEmbedの埋め込みベクトル類似度による意図分類器を実装し、80%の分類精度を達成。意図分類と記憶検索を1プロセスに統合し、hookのタイムアウト内(10秒)で完結する設計とした。MemoryDaemonに5分間隔のLanceDB同期機能を追加し、新しい記憶が自動的にベクトルDBに反映される仕組みを構築。Ollama(CPU 25%常駐)なしで、おせっかいAI(Proactive AI Assistant)の意図先読み+記憶検索が復活した |
| 2026-04-07 | hook通信のUTF-8統一。WindowsのPythonデフォルト入出力がcp932(Shift-JIS)だったため、hookから出力される日本語がClaude Code側でUTF-8として解釈され文字化けしていた。14個全てのhookの冒頭でUTF-8再設定を追加し、Stop hook feedbackやユーザーメッセージの文字化けを根本解決した |
| 2026-04-08 | 論文ベース設計パターンの実験導入計画。MemMachine・SCRAT・SkillX・BAS論文の設計パターンをAI記憶システムに導入するための5項目実験計画を策定。エピソードクラスタ検索(MemMachine)、生データ文単位インデックス(20,000文)、BASリスク閾値を完了。教訓3層階層化と遅延検証器は保留 |
| 2026-04-09 | 教訓専用テーブルによる検索精度70%達成。LanceDBに教訓専用の別テーブルを構築。lessons-learned.md(56件)とincident-log.md(59件)を115件の教訓チャンクとしてインデックス化。自社版MemEvalベンチマークで、既存memoriesテーブルの30%から70%に改善。カテゴリ別では「事実確認が甘い」が3/3の全問正解 |
| 2026-04-10 | ダッシュボード修復とBA集計の独立化。AI成長ダッシュボードが実態と乖離していた問題を修復。BAS高リスク推測検出が「稼働中」と表示されていたがコードが存在しなかった虚偽表示を修正。Hindsightとおせっかい提案数カードを削除し、MemEval値をLanceDB実測値に更新。BA(不満/ポジティブ/インシデント)集計関数を夜間バッチ依存から独立化 |
| 2026-04-13 | ツール導入採点基準の設計。過去のツール導入事故(omega 16hook自動追加、Hindsight CPU 50%常駐、Dify 9コンテナ、BAS未実装の虚偽報告、lessons検索hook統合のフリーズ等)を12パターンに整理し、24項目5段階の採点基準を策定。コスト8項目、効果8項目、リスク8項目を全て「高いほど導入すべき」に統一した。試験導入60点、本導入84点を合格ラインとして設定 |
| 2026-04-14 | 採点検査の3層化とフリーズ事故対応。採点基準を運用に落とし込むため、3つの検査スクリプトを構築。(1)自己提案検査スクリプトが提案文を危険パターンで検査、(2)ツール導入採点検査スクリプトが24項目中15項目を機械的自動採点、(3)LLM用採点プロンプトが残り9項目を手動採点。同日に発生した教訓検索hook統合のフリーズ事故の原因を特定し、環境変数フラグで安全策つき再導入。新機能hookは必ずフラグで囲む運用ルールを確立。夜間統合処理のCogneeグラフ投入ステップがハングする問題を回避するため、環境変数による自動スキップ機構を夜間バッチ起動スクリプトに組み込んだ |
| 2026-04-15 | 全PCファイル横断検索システムの構築。AIも人間も過去に作ったファイルを探しきれない問題を解決するため、LanceDBのfilesテーブルを新設。C:ドライブ配下37,813ファイル(約2.9GB)を788,759チャンクに分割し、2時間15分で初回インデックスを構築。ハイブリッド検索(ベクトル+キーワード)で日本語クエリから関連ファイルを発見できる状態にした。差分更新(新規/更新ファイルのみ)と削除追従のクリーンアップ機能も実装し、毎日の運用に対応。Ollama Chat UIに「ファイル検索」タブと「統計確認」「クリーンアップ」「差分更新」ボタンを追加し、非エンジニアでも日本語入力だけで検索・保守ができる状態にした |
なぜ今、この開発が必要なのか
ChatGPT、Claude、Geminiなど、LLMの性能は急速に向上している。しかし、どれだけモデルの推論能力が上がっても、「記憶がリセットされる」という構造的制約は変わらない。100メートルを9秒台で走れるアスリートでも、毎朝記憶を失えばトレーニングの蓄積は生まれない。
一部のサービスは「メモリー機能」を実装し始めているが、現時点では簡易的なプロフィール保存に留まっている。重要度の判定、忘却曲線による減衰、教訓の構造化、連想的な自動想起。これらの認知科学的メカニズムを統合したシステムは、商用プロダクトにもほとんど存在しない。
私たちがゼロから構築している理由はここにある。既製品では、本当に必要な仕事の相棒にはならない。
さらに2026年3月、オープンソースLLMの性能が商用APIに匹敵するレベルに到達したことで、すべての処理をローカルで完結させることが可能になった。外部にデータを送信せず、月額コストゼロで運用できるAI記憶システム。この実現可能性こそ、「今」この開発に取り組む理由のひとつだ。
関連ページ: この記事に登場するAI用語の解説 → AI用語集(エンベディング、ナレッジグラフ、RAG、MCP など81用語を収録)
おわりに
「AIは便利な道具だが、パートナーにはなれない」。多くの方がそう感じているのではないだろうか。
その根本にあるのは、AIに「記憶」がないことだ。記憶がなければ文脈の蓄積はない。蓄積がなければ成長はない。成長がなければ、何度対話を重ねても毎回同じ地点からのスタートになる。
私たちは認知科学と最新のAI研究を組み合わせ、この根本的な制約を一つずつ解いている。Phase 11まで実装した現時点で、核心的な価値観は90日後でも84%が保持され、蓄積された教訓によって回答品質は初回の2倍以上に向上し、ナレッジグラフは3,000超のノードと6,400超のエッジで自律的に接続されている。AIは自らの成長を毎日定量計測し、過去の失敗教訓をタスク開始前に自動注入し、バックアップの障害すら検知・通知する。さらに、毎メッセージで利益逆算思考を強制注入し、AIが約束したことを永続的に追跡する仕組みを導入した。Phase 8〜10では、システムの質が「知識基盤」から「ガバナンス基盤」に進化した。7層防御アーキテクチャで個人情報を構造的に保護し、5層プロトコル強制システムで思考品質をMCPツールレベルで担保する。46項目の自動回帰テストが毎朝全パイプラインを検証し、異常時は3チャネル(メール・トースト・hook注入)で冗長通知する。さらに、プロトコルゲートによって「考える前に動く」ことを物理的に不可能にし、成果物の公開前ファクトチェックとインシデント自動対策パイプラインで品質を担保している。記憶パイプラインはClaude Codeだけでなく、Antigravityへの移植設計も完了し、ツールをまたいだ記憶の統一運用に向けて進んでいる。夜間パイプラインには自己診断・自動修復機能が組み込まれ、パイプライン自体の健全性を毎日自動検証している。ハルシネーション(AIが事実でないことをもっともらしく生成する問題)に対しては、3つのAI(Claude Code、ChatGPT、Antigravity)が独立に調査した知見を統合し、6層の防止パイプラインを構築した。成果物に含まれる技術用語をソースコードと自動照合するファクトチェッカー、確証がなければ断定しないabstain設計、subagent出力の二重検証など、仕組みでハルシネーションを防止する。すべての処理は外部APIに依存せず、ローカルで完結する。
この記事そのものが、終わらない研究の記録だ。新しい研究知見が発表されれば実装し、実運用で改善点が見つかれば修正する。31の未解決問題の調査は続いており、「心構え」ではなく「メカニズム」でAIの行動を制御するという設計原則が確立されつつある。開発ログはこれからも更新され続ける。
AIを「忘れる道具」から「成長するパートナー」に変えるために。
これを書いた著者
