米Google研究チーム、KVキャッシュ圧縮技術3種を発表

Googleが3種の新技術を発表 LLMのKVキャッシュとメモリ負担を大幅削減

※記事を視覚化したイメージであり、実際の事象とは異なります。

本サイトの記事や画像は、AIが公的資料や複数の報道を基に事実関係を整理・再構成し制作したものです。[続きを表示]特定の報道内容や表現を再利用・要約することを目的としたものではありません。ただし、誤りや不確定な情報が含まれる可能性がありますので、参考の一助としてご覧いただき、実際の判断は公的資料や各出典元の原文をご確認ください。[私たちの取り組み]

Google Researchが、LLMの推論コストを左右するメモリ負担の削減に踏み込んだ。3月24日に発表した「TurboQuant」「PolarQuant」「QJL」は、KVキャッシュやベクトル検索を対象に、学習不要のまま圧縮と高速化を両立できるかが争点となると、Tom’s Hardwareが報じた。

Google・リサーチ KVキャッシュ圧縮を一段と軽くする新手法

TurboQuantは、KVキャッシュ圧縮のために圧縮残差へ1ビットのQJLを重ねる2段構成だと報じられた。Tom’s Hardwareは、メモリ使用量を少なくとも6倍削減し、NVIDIA H100上で注意計算を最大8倍高速化したと伝えている。単なる圧縮率ではなく、推論の重さそのものを下げる狙いがうかがえる。

LLMはコンテキストが長くなるほどKVキャッシュが膨らみ、推論時の大きなボトルネックになる。さらに従来の量子化では、圧縮データ以外に量子化定数を持つ必要があり、1〜2ビット/値の追加負担が生じうるという。今回の手法は、その余計な重さを減らす設計として位置づけられている。

TurboQuantとPolarQuant 速度と精度の両立を探る

PolarQuantは、KV埋め込みを極座標に変換し、従来手法で必要な正規化を省くことで、量子化定数由来のオーバーヘッドを下げる。Google Researchのページは、長文コンテキスト理解を中心に各種生成タスクで性能改善を示したと説明している。圧縮しながら精度を保てるかどうかを探る流れだ。

TurboQuantはベクトル検索でも、Product QuantizationやRabbiQより高い再現率を示したと紹介された。再現率は、必要な候補を取りこぼしにくいかを見る指標であり、検索品質の土台になる。圧縮効率と再現率の両立が進めば、検索インフラの省メモリ化や高速化に波及する可能性がある。

ICLR 2026での発表対象になっていることは、研究段階の提案を実運用へ近づけたい意図を示している。もっとも、長文処理や大規模推論で同じ成果が広く再現されるかはまだ検証が必要である。速度と精度の両立に加え、実装のしやすさも評価軸になる。

参考・出典

本サイトの記事や画像は、AIが公的資料や複数の報道を基に事実関係を整理・再構成し制作したものです。特定の報道内容や表現を再利用・要約することを目的としたものではありません。ただし、誤りや不確定な情報が含まれる可能性がありますので、参考の一助としてご覧いただき、実際の判断は公的資料や各出典元の原文をご確認ください。[私たちの取り組み]

ニュースはAIで深化する—。日々の出来事を深掘りし、次の時代を考える視点をお届けします。

本サイトの記事や画像はAIが公的資料や報道を整理し制作したものです。
ただし誤りや不確定な情報が含まれることがありますので、参考の一助としてご覧いただき、
実際の判断は公的資料や他の報道を直接ご確認ください。
[私たちの取り組み]