字节与何恺明团队不谋而合!Cola DLM开源探索语言建模新路径

   发布时间:2026-05-19 07:23 作者:苏婉清

大语言模型的发展路径正迎来新的转折点。传统自回归模型依赖的“预测下一个token”模式,开始受到越来越多研究者的质疑。字节跳动与何恺明团队几乎同时提出的解决方案,将语言建模的焦点从离散token转向连续语义空间,为这一领域开辟了全新方向。

字节跳动推出的Cola DLM(Continuous Latent Diffusion Language Model)通过分层架构重新定义了语言生成过程。该模型将文本生成拆解为两个独立阶段:首先在连续语义空间中构建潜在表达,再通过解码器将抽象语义转化为具体文字。这种设计使模型摆脱了对token序列的直接依赖,转而关注语义本身的组织与演化。实验数据显示,在20亿参数规模下,Cola DLM展现出比传统自回归模型更稳定的扩展趋势。

研究团队特别强调表征学习的重要性。他们指出,现有模型往往将不同表达方式的相同语义视为独立样本,导致重复学习相似模式。Cola DLM通过Text VAE架构提取文本的“语义指纹”,将离散输入压缩为连续潜在变量。这种处理方式使模型能够识别“我今天很开心”与“今天过得挺愉快”背后的共同语义,而非机械记忆表面词序。实验证明,这种语义抽象能力显著提升了模型对长程依赖关系的处理效率。

在技术实现上,Cola DLM采用block-causal DiT+Flow Matching组合替代传统扩散模型的“加噪-去噪”机制。该方案通过学习向量场将简单分布(如高斯分布)逐步转化为复杂语义分布,同时引入块状结构平衡局部生成速度与整体逻辑连贯性。研究团队形象地比喻:“这相当于为语义组织规划了一条最优路径,而非反复修正错误表达。”

为防止语义空间退化为token替代品,研究团队设计了严格的训练隔离机制。编码器与解码器专注于文本-语义的双向转换,而扩散先验模块独立学习语义生成路径。这种分工使模型在2000 EFLOPs计算量下,仍能保持latent空间的稳定性。特别添加的BERT风格掩码损失函数,进一步确保了语义表示的压缩质量与重建准确性。

与何恺明团队提出的ELF模型相比,Cola DLM展现出不同的技术路径。ELF选择在原始嵌入空间直接操作,通过迭代优化逐步凝聚语义;而Cola DLM则构建了专门的语义处理层,将文本生成分解为语义组织与文字表达两个阶段。这种差异反映了研究者对语言本质的不同理解:前者试图在现有框架内突破,后者则尝试重建底层表示体系。

该研究对多模态融合具有重要启示。传统模型因文本的离散特性,难以与连续的图像、视频数据统一处理。Cola DLM提供的连续语义空间,为跨模态对齐创造了可能。研究团队透露,其视频生成模型Seedance系列已采用类似思路,这或许解释了Cola DLM架构中显著的视听生成技术痕迹。

值得关注的是,这项研究由跨学科团队完成,成员背景涵盖计算机视觉、生成模型等多个领域。这种组合使模型既保留了语言建模的精细度,又融入了视觉生成中的高效潜在空间处理技术。特别是离散扩散模型LLaDA作者Shen Nie的参与,为连续-离散路线对比提供了独特视角。

 
 
更多>同类内容
全站最新
热门内容