low rank compression on Q, (K, V) ,其中K V源于同一个压缩的隐状态$c_t^{KV}$;
为了弥补压缩带来的损失,给K和Q分别添加了未压缩的RoPE编码;