QJLとは
QJLとは、Quantized Johnson-Lindenstraussの略で、TurboQuantの中核をなす誤差補正アルゴリズム
読み: キュージェイエル
PolarQuantで圧縮後に残る誤差を、わずか1ビットの追加データで統計的にゼロにする。
かんたんに言うと
極限まで圧縮してボロボロになったデータに、最後の1ビットを加えるだけで元の精度を完璧に再現する「魔法の補正術」。
1ビット投影と不偏推定
PolarQuantの残差をJohnson-Lindenstrauss変換で+1か-1の1ビットに圧縮する。アテンション計算時にこの1ビットを足し戻すと、バイアスが統計的にゼロになることが数学的に証明されている。メモリ追加コストは実質ゼロ。
データ非依存の汎用性
事前の再学習やキャリブレーションが不要。どんな未知の文章に対しても、その場で数学的に正解を導く。Llama-3やGemmaのKVキャッシュを3ビット圧縮しても、32ビットと同じ回答精度を維持する(出典: Google Research 2026年3月)。
当社の見解
当社はOpenAI APIを完全廃止し、EmbeddingもLLMも全てローカルで稼働させている(2026年4月時点)。これにより月額のAPI費用がゼロになっただけでなく、機密情報や顧客データを外部に送信せずにAI処理できるようになった。クライアントのログデータをマスキングなしでそのまま分析に回せるのは、ローカルLLMだからこそ実現できる。2026年4月にはOllama常駐実行(CPU 25%、GPU 30%を常時占有)を廃止し、FastEmbed(ONNX Runtime)による非常駐型推論に移行。処理が必要な瞬間だけプロセスを起動し、完了後に即座に終了する設計で、アイドル時のリソース消費をゼロにした。あえて一般的なデスクトップPC環境で複数のローカルLLMを実機検証した経験から言えることは、ベンチマークスコアと実務での使い勝手、そして常駐時のリソース消費は全て別の指標だということだ。
