Top-p采样的部分是这样的:首先对logits进行排序,然后计算累积概率,接着创建一个mask来过滤掉累积概率超过p的token。
相比之选top-k个高概率token:不在token数目上做限制,而是从概率分布上筛选掉低prob的token; 在实现时注意设定最小token数目,防止极端情况下没有token生成。