谷歌DeepMind与香港大学联合发布了一项突破性研究,通过名为"草稿纸分块"(Scratchpad Patching,简称SP)的技术,为字节级语言模型的发展开辟了新路径。这项成果以预印本形式在arXiv平台公开,编号为arXiv:2605.09630,标志着AI语言处理领域在计算效率与模型质量平衡方面取得重要进展。
传统语言模型依赖分词器将文本切割为词语片段,但这种方法在处理罕见词汇、外语或符号时容易出现错误。字节级模型直接以计算机存储的最小单位——字节处理文本,理论上能实现跨语言、跨格式的统一处理。然而,字节序列长度是词语序列的3-4倍,导致计算成本激增。为解决这一问题,研究人员将字节打包为"补丁"进行批量处理,但这种做法又引发了新的挑战:模型在预测补丁内部字节时,只能依赖上一个补丁的旧信息,形成"补丁滞后"现象。
研究团队通过类比工厂流水线解释了这一困境:当工人每完成八个零件才能向调度室汇报进度时,调度室在指导后续生产时只能依赖上一批零件的完成情况,对当前批次的具体进展一无所知。补丁越大,这种信息延迟越严重,模型预测质量随之下降。SP技术的核心突破在于,允许模型在补丁处理过程中生成临时"草稿",这些草稿不进入最终记忆缓存,但能为后续预测提供最新信息,从而缓解信息滞后问题。
具体实现上,SP在补丁内部设置"中途汇报点",当模型预测不确定性(熵值)超过阈值时,自动触发草稿生成。这些草稿经主干网络处理后,仅用于当前补丁的后续预测,最终只保留补丁结束时的正式状态。这种设计既保持了补丁模型的序列长度优势,又通过局部信息更新提升了预测准确性。实验表明,在固定16字节补丁的模型中,SP技术使自然语言理解任务准确率从48.0%提升至54.2%,接近不分块字节级模型的54.1%,同时内存占用减少16倍。
在代码生成任务中,SP的优化效果更为显著。8字节补丁模型在MBPP测试集的通过率从24.1%提升至32.1%,16字节补丁模型则从18.2%跃升至27.5%。这种提升源于SP将计算资源精准分配到信息密集区域——实验数据显示,草稿触发点主要集中在单词边界、专有名词开头等预测难点位置,而在常见词汇中间字母处极少触发。
研究团队通过统一测试框架验证了SP的普适性。在包含4000亿字节训练数据的实验中,SP技术使四种主流补丁方法家族的质量均显著提升,且不增加推理时的内存开销。特别值得注意的是,SP使简单分块策略(如固定大小分块)的性能追平甚至超越复杂策略(如学习型H-Net分块),暗示计算分配方式可能比分块边界选择更为关键。
多语言测试结果显示,SP技术缩小了模型对非英语语言的性能差距。在FLORES-200数据集的200种语言评估中,SP优化后的补丁模型排名显著提升,与纯字节级模型的差距明显缩小。这得益于SP不依赖特定语言分词规则的特性,使其能公平处理所有语言。
SP技术的另一大优势是推理灵活性。通过调整熵触发阈值,模型可在不重新训练的情况下动态控制草稿密度,实现质量与效率的实时平衡。实验表明,SP模型在调整补丁大小时,质量变化比传统模型平滑得多,展现出更强的环境适应能力。这种特性使同一模型能根据不同部署场景(如移动端或服务器端)灵活切换运行模式。
尽管取得显著进展,研究团队也指出SP的局限性:当前设计未减少训练计算量,草稿更新机制较为简单,且在多层级补丁架构中的验证仍属空白。未来的改进方向包括探索训练期算力优化、设计更复杂的更新规则,以及开发对所有分块策略都稳定的触发机制。这项研究为字节级模型的实际应用铺平了道路,其核心价值在于通过智能计算分配,实现了效率与质量的双重提升。




















