字节与何恺明团队不谋而合！Cola DLM开源探索语言建模新路径-财经-沃资讯

字节与何恺明团队不谋而合！Cola DLM开源探索语言建模新路径

发布时间：2026-05-19 07:23 来源：快讯作者：苏婉清

大语言模型的发展路径正迎来新的转折点。传统自回归模型依赖的“预测下一个token”模式，开始受到越来越多研究者的质疑。字节跳动与何恺明团队几乎同时提出的解决方案，将语言建模的焦点从离散token转向连续语义空间，为这一领域开辟了全新方向。

字节跳动推出的Cola DLM（Continuous Latent Diffusion Language Model）通过分层架构重新定义了语言生成过程。该模型将文本生成拆解为两个独立阶段：首先在连续语义空间中构建潜在表达，再通过解码器将抽象语义转化为具体文字。这种设计使模型摆脱了对token序列的直接依赖，转而关注语义本身的组织与演化。实验数据显示，在20亿参数规模下，Cola DLM展现出比传统自回归模型更稳定的扩展趋势。

研究团队特别强调表征学习的重要性。他们指出，现有模型往往将不同表达方式的相同语义视为独立样本，导致重复学习相似模式。Cola DLM通过Text VAE架构提取文本的“语义指纹”，将离散输入压缩为连续潜在变量。这种处理方式使模型能够识别“我今天很开心”与“今天过得挺愉快”背后的共同语义，而非机械记忆表面词序。实验证明，这种语义抽象能力显著提升了模型对长程依赖关系的处理效率。

在技术实现上，Cola DLM采用block-causal DiT+Flow Matching组合替代传统扩散模型的“加噪-去噪”机制。该方案通过学习向量场将简单分布（如高斯分布）逐步转化为复杂语义分布，同时引入块状结构平衡局部生成速度与整体逻辑连贯性。研究团队形象地比喻：“这相当于为语义组织规划了一条最优路径，而非反复修正错误表达。”

为防止语义空间退化为token替代品，研究团队设计了严格的训练隔离机制。编码器与解码器专注于文本-语义的双向转换，而扩散先验模块独立学习语义生成路径。这种分工使模型在2000 EFLOPs计算量下，仍能保持latent空间的稳定性。特别添加的BERT风格掩码损失函数，进一步确保了语义表示的压缩质量与重建准确性。

与何恺明团队提出的ELF模型相比，Cola DLM展现出不同的技术路径。ELF选择在原始嵌入空间直接操作，通过迭代优化逐步凝聚语义；而Cola DLM则构建了专门的语义处理层，将文本生成分解为语义组织与文字表达两个阶段。这种差异反映了研究者对语言本质的不同理解：前者试图在现有框架内突破，后者则尝试重建底层表示体系。

该研究对多模态融合具有重要启示。传统模型因文本的离散特性，难以与连续的图像、视频数据统一处理。Cola DLM提供的连续语义空间，为跨模态对齐创造了可能。研究团队透露，其视频生成模型Seedance系列已采用类似思路，这或许解释了Cola DLM架构中显著的视听生成技术痕迹。

值得关注的是，这项研究由跨学科团队完成，成员背景涵盖计算机视觉、生成模型等多个领域。这种组合使模型既保留了语言建模的精细度，又融入了视觉生成中的高效潜在空间处理技术。特别是离散扩散模型LLaDA作者Shen Nie的参与，为连续-离散路线对比提供了独特视角。

更多>同类内容