meta旗下基础人工智能研究团队(FAIR)近日宣布开源新一代人工智能模型TRIBE v2,该模型通过多模态融合技术,实现了对人类大脑视觉、听觉及语言反应的高精度预测。这一突破性成果有望显著降低神经科学研究的成本与周期,为脑科学领域提供全新研究范式。
与传统神经科学研究依赖功能性磁共振成像(fMRI)不同,TRIBE v2无需实际测量脑部活动,即可通过分析视频、音频和文本数据生成预测结果。该模型采用"多模态融合"核心架构,首先利用Video-JEPA-2、Wav2Vec-Bert-2.0和Llama 3.2三个预训练模型分别提取视觉、听觉和语言特征,再通过Transformer架构整合信息,最终输出包含7万个"体素"的三维大脑活动图。实验数据显示,其预测精度较传统线性模型提升显著,甚至能复现经典神经科学实验结果。
在性能优化方面,研究团队通过直接预测"调整后的平均反应"有效过滤了fMRI常见的生理噪音干扰。当模型接收多模态输入时,大脑颞叶、顶叶和枕叶交界处的预测准确率可提升50%。例如在视觉实验中,模型成功识别出处理面部、地点等信息的专用脑区;语言实验则复现了言语与沉默、情感与疼痛等神经语言学现象的激活模式差异。
尽管展现出强大潜力,该模型仍存在技术局限。由于依赖血流动力学数据,其时间分辨率仅能达到秒级,无法捕捉毫秒级的神经活动。当前版本尚未整合触觉和嗅觉数据,在感官维度覆盖上存在不足。研究团队已开源模型代码与权重,未来计划探索其在实验设计优化、类脑AI架构开发及脑疾病诊断等领域的应用价值。






















