DeepMind新突破：字节级语言模型兼顾高效与精准，草稿机制破解计算难题-财经-沃资讯

DeepMind新突破：字节级语言模型兼顾高效与精准，草稿机制破解计算难题

发布时间：2026-05-16 18:00 来源：快讯作者：刘敏

谷歌DeepMind与香港大学联合发布了一项突破性研究，通过名为"草稿纸分块"（Scratchpad Patching，简称SP）的技术，为字节级语言模型的发展开辟了新路径。这项成果以预印本形式在arXiv平台公开，编号为arXiv:2605.09630，标志着AI语言处理领域在计算效率与模型质量平衡方面取得重要进展。

传统语言模型依赖分词器将文本切割为词语片段，但这种方法在处理罕见词汇、外语或符号时容易出现错误。字节级模型直接以计算机存储的最小单位——字节处理文本，理论上能实现跨语言、跨格式的统一处理。然而，字节序列长度是词语序列的3-4倍，导致计算成本激增。为解决这一问题，研究人员将字节打包为"补丁"进行批量处理，但这种做法又引发了新的挑战：模型在预测补丁内部字节时，只能依赖上一个补丁的旧信息，形成"补丁滞后"现象。

研究团队通过类比工厂流水线解释了这一困境：当工人每完成八个零件才能向调度室汇报进度时，调度室在指导后续生产时只能依赖上一批零件的完成情况，对当前批次的具体进展一无所知。补丁越大，这种信息延迟越严重，模型预测质量随之下降。SP技术的核心突破在于，允许模型在补丁处理过程中生成临时"草稿"，这些草稿不进入最终记忆缓存，但能为后续预测提供最新信息，从而缓解信息滞后问题。

具体实现上，SP在补丁内部设置"中途汇报点"，当模型预测不确定性（熵值）超过阈值时，自动触发草稿生成。这些草稿经主干网络处理后，仅用于当前补丁的后续预测，最终只保留补丁结束时的正式状态。这种设计既保持了补丁模型的序列长度优势，又通过局部信息更新提升了预测准确性。实验表明，在固定16字节补丁的模型中，SP技术使自然语言理解任务准确率从48.0%提升至54.2%，接近不分块字节级模型的54.1%，同时内存占用减少16倍。

在代码生成任务中，SP的优化效果更为显著。8字节补丁模型在MBPP测试集的通过率从24.1%提升至32.1%，16字节补丁模型则从18.2%跃升至27.5%。这种提升源于SP将计算资源精准分配到信息密集区域——实验数据显示，草稿触发点主要集中在单词边界、专有名词开头等预测难点位置，而在常见词汇中间字母处极少触发。

研究团队通过统一测试框架验证了SP的普适性。在包含4000亿字节训练数据的实验中，SP技术使四种主流补丁方法家族的质量均显著提升，且不增加推理时的内存开销。特别值得注意的是，SP使简单分块策略（如固定大小分块）的性能追平甚至超越复杂策略（如学习型H-Net分块），暗示计算分配方式可能比分块边界选择更为关键。

多语言测试结果显示，SP技术缩小了模型对非英语语言的性能差距。在FLORES-200数据集的200种语言评估中，SP优化后的补丁模型排名显著提升，与纯字节级模型的差距明显缩小。这得益于SP不依赖特定语言分词规则的特性，使其能公平处理所有语言。

SP技术的另一大优势是推理灵活性。通过调整熵触发阈值，模型可在不重新训练的情况下动态控制草稿密度，实现质量与效率的实时平衡。实验表明，SP模型在调整补丁大小时，质量变化比传统模型平滑得多，展现出更强的环境适应能力。这种特性使同一模型能根据不同部署场景（如移动端或服务器端）灵活切换运行模式。

尽管取得显著进展，研究团队也指出SP的局限性：当前设计未减少训练计算量，草稿更新机制较为简单，且在多层级补丁架构中的验证仍属空白。未来的改进方向包括探索训练期算力优化、设计更复杂的更新规则，以及开发对所有分块策略都稳定的触发机制。这项研究为字节级模型的实际应用铺平了道路，其核心价值在于通过智能计算分配，实现了效率与质量的双重提升。

更多>同类内容