近日,小米在人工智能领域取得重大突破,其多项AI创新成果成功入选全球音频领域极具权威性与影响力的国际顶级学术会议ICASSP 2026。ICASSP自1976年在美国费城首次举办以来,已有近50年历史,此次会议将于今年5月在西班牙巴塞罗那举行。小米入选的成果涵盖音频理解、音乐生成评估、通用音频 - 文本预训练、视频到音频合成等多个AI领域。
在音频理解领域,小米团队推出了ACAVCaps数据集。当前主流音频数据集存在“规模大但描述简略”或“描述详尽但规模受限”的局限,ACAVCaps通过创新自动化管线,从多维度、多视角对音频内容进行精细化刻画。它构建了多级自动化标注框架,利用多个专家模型并行提取原始音频中的声音事件、音乐特征等关键元数据,再引入大语言模型并采用思维链推理策略整合信息。该数据集包含约470万条音频 - 文本对,推动音频AI从“特征识别”向“语义理解”发展,且近期将全面开源。
音乐生成评估方面,小米提出了FUSEMOS双编码器架构。现有自动音乐感知评估方法依赖单一音频编码器,捕捉音乐复杂结构与细粒度特征能力有限。FUSEMOS融合CLAP与MERT两大预训练模型,CLAP强化音频与文本语义对齐,MERT有效建模音乐内在结构特征。采用晚期融合策略,引入排名感知复合损失函数,在Musiceval基准上的实验表明,其在关键指标上显著优于现有方法。
通用音频 - 文本预训练领域,小米的GLAP模型实现了跨音频领域(语音/音乐/环境音)与跨语言的音频 - 文本对齐,支持RAG形式的音频搜索。它首次通过单一框架同时优化语音、音乐及声音事件的检索与分类性能,解决了传统CLAP模型领域割裂的问题。在语音检索上成绩优异,还具备多语言泛化能力,无需目标语种微调,在50种语言的关键词识别中展现Zero - shot能力。该模型可直接赋能小米“人车家全生态”中需跨模态理解的场景,降低下游产品线音频AI研发门槛。
在视频到音频合成方面,MeanFlow模型为多模态音频生成任务构建高效基座模型,实现视频同步音效生成场景中推理效率与生成质量的双重突破,还具备跨任务稳定泛化能力。它首次在V2A任务中通过平均速度场建模替代传统流匹配模型的瞬时速度建模,解决推理速度瓶颈,实现一步生成。引入标量重缩放机制缓解失真问题,实验验证其在推理速度大幅提升的同时保障音效生成质量。该模型可直接赋能影视后期、短视频平台等实际场景,推动实时音效生成技术规模化落地。
在检索领域,小米提出统一多任务学习框架,解决传统检索中“找图、找文、意图理解”三个独立训练模型的问题。该框架将三个任务整合到两个模型、一个架构中,文本编码器同时对齐图像和文本语义空间,通过跨注意力机制与NLU模型进行语义交互。此设计节省模型数量、降低系统内存占用,增强模型间语义能力,支持多语言输入,实现跨模态、跨语言高效语义对齐,为小米手机场景下的多模态检索提供轻量化、高性能解决方案,在多个数据集上表现优异。





















