178直播2026世界杯比赛直播卓绝TurboQuant, 长高下文推理的真2-bit KV Quantization算法问世

来源：178直播2026世界杯赛事直播入口作者：admin 发布时间：2026-05-31 浏览：191

本文作家 Zhongzhu Zhou 是 TogetherAI 的 Senior Research Scientist，悉尼大学博士，谋划标的为高效机器学习系统，标的遮掩模子训推算法与系统协同假想，LLM 压缩与量化。团队成员均来自 TogetherAI，悉尼大学以及伊利诺伊大学厄巴纳 — 香槟分校。

Together AI 于 2022 年 6 月创立，由苹果前高管 Vipul Ved Prakash、斯坦福大模子谋划中心主任 Percy Liang、芝加哥大学副西宾 Ce Zhang、Flash Attention 作家 Tri Dao 集会创办。

AG真人2026世界杯中国官网

卓绝 TurboQuant，内存有救了！TogetherAI 最新论文 OSCAR 直面冲击 TurboQuant，建议一个面向长高下文推理行状的真实的 2-bit KV Cache 系统，开盒即用。

论文标题：OSCAR: Offline Spectral Covariance-Aware Rotation for 2-bit KV Cache Quantization

长高下文模子越来越强，但行状时的瓶颈往往不是算力，而是 KV Cache：每生成一个 token，皆要从显存中读取越来越长的历史 key，value。高下文越长、batch 越大，KV Cache 越吃显存，也越吃带宽。把历史 KV 压到 2-bit，表面上不错让历史段显存减少约 8 倍；但真实难的是，压完之后推明智力不成崩，系统也必须能在真实 serving 框架里跑起来。

为什么 2-bit KV Cache 这样难？INT2 只须 4 个量化品级，而 KV activation 中不异有少数幅值极大的 outlier channel。若是这些 outlier 主导量化圭臬，大多数时常值会被挤到很少的有用品级里，重成见散播很快漂移。等闲 Hadamard 旋转能把 outlier 摊平，但它不知说念模子在 attention 里真实读哪些标的。OSCAR 的中枢即是把旋转主张从「重建原始 K/V 向量」改成「保留 attention 销耗 KV 的形式」。

比较之前量化的职责，比如 TurboQuant 压缩的是向量，但忽略了真实影响模子的是 attention 的质地，OSCAR 保留的是 attention 真实会读的标的。朴素 INT2 和全模子层的 3-bit K/V TurboQuant 皆会在贫窭推理任务上判辨掉分；OSCAR 在约 2.28 effective bits per KV element 下仍能接近 BF16，并在 Qwen3-4B-Thinking 上相对 3-bit K/V TurboQuant 最高升迁 40.1 分。

OSCAR 的动机

图 1：为什么只看 K/V 重建罪状会误导判断

图 1 对比了 naive INT2、Hadamard-only、clip-only 和 OSCAR 在量化罪状传播链路上的各异。关节点是，原始 K/V 的重建罪状并不成充足讲授模子最终施展；真实影响推理质地的是 attention-score KL、attention-block output MSE 以及后续 hidden-state error。OSCAR 的上风不仅仅让向量数值更平滑，而是把量化罪状压到 attention 不解锐的方进取。

OSCAR 的假想

具体来说，对 key 来说，量化罪状会参加 attention logits，也即是 QKᵀ，因此 OSCAR 用 query covariance（QᵀQ）构造 key 的旋转主张；对 value 来说，罪状经过重成见权重参加输出，因此 OSCAR 使用 score-weighted value covariance（VᵀSᵀSV）。离线校准阶段，OSCAR 从少许校准样本中测度这些 attention-aware covariance，为每层、每个 head 生成固定旋转和 clipping 阈值。最终旋转写稿 R = U・Hadamard・bit-reversal：U 瞄准 attention 议论标的，Hadamard 永别 outlier，bit-reversal 均衡 INT2 分组，幸免某个 group 被少数通说念主管。

更进犯的是，OSCAR 不是以往的量化论文，离线跑量化取得狡计，而是如故接入 SGLang，作念到开箱即用的 2-bit KV serving。OSCAR 在 SGLANG 中保重一个 token 池:

BF16 sink (64 tokens) | INT2 history (~2.28 BPE) | BF16 recent (256 tokens)

其中 sink token 和 recent window 保执 BF16，用来保护 attention sink 与短期局部高下文；中间最长的历史段存成旋转后的 INT2。新 token 先写入 recent window，跟着解码激动，最老的 recent token 再由会通 Triton kernel 引申 rotate /clip/quantize/pack，并 demote 到 INT2 history。每 4 个 2-bit 值打包进 1 个 byte。decode 阶段，OSCAR 在 GPU 上把缓存分红 BF16 段和 INT2 段：INT2 kernel 珍重 unpack、scale/zero point 规复和浮点累加，BF16 kernel 处置 sink/recent，终末用 online softmax merge 合并恶果。它同期兼容 paged KV、radix prefix cache 和 SGLang 的 fused kernel pipeline，因此不错径直用于长高下文 workload，而不是停留在论文图内外。

图 2：OSCAR 合座进程图

图 2 展示 OSCAR 从离线校准到在线 serving 的齐全旅途。左侧是离线阶段：OSCAR 从少许校准样本中测度 attention-aware rotation 和 clipping threshold，让 KV activation 在参加 INT2 前变得更合适量化。右侧是在线阶段：sink/recent token 赓续保执 BF16，中间最长的 history KV 参加旋转后的 INT2 cache，并在 SGLang paged KV 中完成真实 serving。因此 OSCAR 不是单一量化手段，而是一整套 2-bit KV Cache pipeline。

评估恶果

OSCAR 在 Qwen3-4B-Thinking、Qwen3-8B、Qwen3-32B 和 GLM-4.7-FP8 上测试，任务遮掩 GPQA、HumanEval、LiveCodeBench v6、AIME25、MATH500，生成长度最高 32K，每个设置动手 5 次取均。

OSCAR 在 2.28 BPE 下，Qwen3-4B-Thinking 距 BF16 仅 3.78 分，Qwen3-8B 距 BF16 仅 1.42 分，Qwen3-32B 与 GLM-4.7-FP8 基本与 BF16 执平。比较之下，QuaRot-INT2 和 naive INT2 在这些 reasoning /coding 任务上大多径直崩溃；TurboQuant 在全层 3-bit K/V、无 mixed-precision 保护的公说念设置下，也在小模子推理任务上掉分判辨。

OSCAR 还在 128K 长高下文设置下对中 / 大鸿沟模子作念了 RULER-NIAH 测试：OSCAR 在 Qwen3-8B 和 GLM-4.7-FP8 上皆保执了判辨更领会的检索性能，评释这种 attention-aware 旋转不仅能撑住短评测，也能起义超长历史中 KV 罪状的积累。换句话说，178直播2026世界杯比赛直播OSCAR 是少数能在真近 2-bit 设置下仍保执当代 reasoning model 质地的形式。

系统收益也异常径直：相对 BF16 history storage，OSCAR 可减少约 8× KV Cache memory；在 100k context、batch-size-1、full prefix-cache hit 设置下，decode 最高约 3× 加快；在大 batch、同显存预算下，job-level throughput 最高约 7×。prefix cache 射中率越高，OSCAR 越能愚弄更小的 KV footprint 升迁并发蒙眬，这对分享系统请示、多轮 Agent、器具调用轮回等长前缀复用场景尤其进犯。

精度亏本

图 3：齐全主恶果表，多种 KV 量化形式同场对比

图 4：AIME25 32K 生成，和 KIVI / Kitty 的专项对比

图 3 是论文主恶果表，包含 BF16、Saw-INT4、TurboQuant、QuaRot-INT2、Naive INT2 和 OSCAR 在四个模子、五个任务上的齐全对比。BF16 是精度上界；Saw-INT4 是强 4-bit 参考，BPE 为 4.25；TurboQuant 在这里使用无 mixed-precision 保护的全层 3-bit K/V 设置，BPE 为 3.25；QuaRot-INT2 和 Naive INT2 是接近 2-bit 的旋转 / 朴素基线，BPE 约 2.25；OSCAR 则在 2.28 BPE 下动手。

这张表的重心不是单一模子，而是「低比特能不成领会」。在 Qwen3-4B-Thinking 上，TurboQuant mean 为 31.74，QuaRot-INT2 只须 1.40，Naive INT2 为 0.00；OSCAR 达到 71.86，距离 BF16 只差 3.78，并相对 TurboQuant 升迁 40.1 分。在 Qwen3-8B 上，OSCAR mean 为 69.42，距离 BF16 只差 1.42，而 TurboQuant 为 56.88。到 Qwen3-32B 和 GLM-4.7-FP8，OSCAR 基本与 BF16 执平。换句话说，在接近 2-bit 的 KV 预算下，OSCAR 是表中独一能在多模子、多任务上领会靠拢 BF16 的 INT2 形式。

图 4 单独看 AIME25 这个高难数学推理任务，并对比 KIVI-KV2、Kitty 和 OSCAR。但由于 KIVI, KITTY 莫得 framework 支执，无法进行 long context run，是以登科了他们形式独一在 32K 呈报的恶果 - AIME25。在 Qwen3-8B 上，OSCAR 以 2.38 BPE 达到 66.67，基本追平 BF16 的 66.00，判辨高于 KIVI-KV2 和 Kitty；在 Qwen3-32B 上，OSCAR 达到 74.00，以至略高于 BF16 的 72.59，也越过 Kitty 的 69.26。这评释 OSCAR 不仅仅相对 TurboQuant 有上风，在已有 KV-cache 量化形式中，也能在接近 2-bit 的预算下保住贫窭数学推明智力。

系统加快

图 5：100k 长高下文下的 decode /batch throughput

图 5 展示 100k 高下文下的系统性能。OSCAR 在 batch-size-1、full prefix-cache hit 的纯 decode 场景下最高约 3× 加快；在固定显存预算下，batch size 增大时，INT2 history 带来的 KV footprint 缩小不错权臣提高 job-level throughput，最高约 7×。这评释 OSCAR 不仅仅精度能保住，也能实打实缩小显存带宽压力。

图 6：prefix cache 射中率越高，蒙眬前沿越往外推

图 6 展示 prefix-cache hit ratio 对端到端 serving throughput 的影响。横轴是单用户蒙眬，纵轴是单 GPU 蒙眬；从 cache disabled 到 normal cache，再到接近 100% warmup replay，蒙眬前沿冉冉外扩。OSCAR 保执挨次 paged KV /prefix cache 概述，因此分享系统请示、多轮 Agent、器具调用轮回等长前缀复用场景不错径直纳益。

这些恶果的一个进犯含义是，OSCAR 并莫得依赖「挑选少数层保留高精度」来保住分数。许多低比特形式在真实部署时会借助搀和精度：第一层、终末一层或些许明锐层仍然保留较高 bit，这会让平均 bit 数高潮，也会让 kernel 和 cache layout 变复杂。OSCAR 的对比更严格：历史 KV 主体保执长入的 INT2 暗示，只在 sink 和 recent 两个很小窗口保留 BF16。这样作念的克己是，系统工程上更容易接入 paged cache、prefix cache 和批量调理，也更接近真实行状场景中的显存预算。

追思

另一个值得强调的点是，OSCAR 的收益不是只在小模子或短高下文上开辟。论文同期测试了 4B、8B、32B 以及 GLM-4.7-FP8 这样的大模子；既看了数学、代码、常识问答等 32K 推理生成任务，也看了 128K RULER-NIAH 长高下文检索。短评测里，OSCAR 能接近 BF16；长高下文里，它也能让 attention 散播随高下文增长更领会。这评释 attention-aware rotation 不是只在某个 benchmark 上调参有用，而是在缓解 KV 罪状随历史长度积累这个根柢问题。

从应用角度看，这对长高下文 Agent 终点关节。真实 Agent 往往包含很长的系统请示、器具评释、历史对话和检索施行，况兼不同苦求之间存在大皆分享前缀。若是 KV Cache 只可用 BF16 存，系统很快会被显存卡住；若是径直作念朴素 INT2，又可能让推理链条失真。OSCAR 的假想刚好夹在两者之间：长历史用 INT2 降显存和带宽，关节 sink/recent 用 BF16 兜住领会性，再让 prefix cache 复用分享前缀。换句话说，它把「能压到 2-bit」和「能上线 serving」放在吞并个系统里研讨。

TurboQuant 是很强的通用 online vector quantization 形式；OSCAR 针对的是 attention-aware 2-bit KV serving。二者不是简易替代关系，举例OSCAR 的最新codebase中如故在attention-aware rotation 引入了更强的 Lloyd Max Codebook，将压缩推向极致。OSCAR 带来了一个特有的不雅点：2-bit KV Cache 要能上线，旋转不仅仅「有莫得」178直播2026世界杯比赛直播，而是必须瞄准 attention，况兼要有真实 serving 系统复古。

上一篇：178直播2026世界杯比赛直播那些在周报里写AI提效40%的产物司理, 你敢对一下财务账本吗? 下一篇：178直播2026世界杯比赛直播海加智能制造获得酌量转直流电源模块专利, 驻扎瞬时断电形成的用电开拓数据丢失

178直播2026世界杯比赛直播 卓绝TurboQuant, 长高下文推理的真2-bit KV Quantization算法问世

178直播2026世界杯比赛直播卓绝TurboQuant, 长高下文推理的真2-bit KV Quantization算法问世