Googleが3種の新技術を発表　LLMのKVキャッシュとメモリ負担を大幅削減

※記事を視覚化したイメージであり、実際の事象とは異なります。

2026.03.30

本サイトの記事や画像は、AIが公的資料や複数の報道を基に事実関係を整理・再構成し制作したものです。[続きを表示]特定の報道内容や表現を再利用・要約することを目的としたものではありません。ただし、誤りや不確定な情報が含まれる可能性がありますので、参考の一助としてご覧いただき、実際の判断は公的資料や各出典元の原文をご確認ください。[私たちの取り組み]

Google Researchが、LLMの推論コストを左右するメモリ負担の削減に踏み込んだ。3月24日に発表した「TurboQuant」「PolarQuant」「QJL」は、KVキャッシュやベクトル検索を対象に、学習不要のまま圧縮と高速化を両立できるかが争点となると、Tom’s Hardwareが報じた。

Google・リサーチ　KVキャッシュ圧縮を一段と軽くする新手法

TurboQuantは、KVキャッシュ圧縮のために圧縮残差へ1ビットのQJLを重ねる2段構成だと報じられた。Tom’s Hardwareは、メモリ使用量を少なくとも6倍削減し、NVIDIA H100上で注意計算を最大8倍高速化したと伝えている。単なる圧縮率ではなく、推論の重さそのものを下げる狙いがうかがえる。

LLMはコンテキストが長くなるほどKVキャッシュが膨らみ、推論時の大きなボトルネックになる。さらに従来の量子化では、圧縮データ以外に量子化定数を持つ必要があり、1〜2ビット/値の追加負担が生じうるという。今回の手法は、その余計な重さを減らす設計として位置づけられている。