TurboQuantによるメモリ削減の新技術

「TurboQuantは、Geminiのような大規模モデルにおけるメモリ不足問題を解決するための強力な手段です。」とGoogleの関係者は述べています。

この新しい圧縮技術は、LLM（大規模言語モデル）の実行に必要なメモリを最大で1/6に削減できる可能性があります。TurboQuantは、AIモデルが使用する高次元ベクトルデータを圧縮し、大規模AIや検索エンジンにおけるメモリボトルネックを緩和します。

具体的には、TurboQuantはデータ構造を簡素化するPolarQuantと、1ビットデータの小さな誤差を数学的に修正するQJLの2つの手法を組み合わせています。これにより、KVキャッシュは追加のトレーニングやファインチューニングなしで、わずか3ビットに圧縮可能です。

長いコンテキストのテストでは、メモリサイズが1/6未満に削減されながら、タスクの精度が維持されました。また、NVIDIAのH100での計算速度は、TurboQuantを使用することで最大8倍向上しました。

TurboQuantは、膨大なデータベースからユーザーの意図を解釈することで、ベクトル検索を劇的に高速化することが期待されています。これにより、AIがさまざまな製品に統合される中で、基本的なデータ圧縮技術の重要性はますます高まるでしょう。

TurboQuantに関する研究結果は、2026年4月23日からリオデジャネイロで開催されるICLR 2026会議で発表される予定です。