阿里ATH创新事业部近日宣布,其最新研发的视频生成与编辑模型HappyHorse 1.0(中文名:快乐小马)正式开启灰度测试。创作者可通过阿里云百炼平台和HappyHorse官网注册使用,普通用户则能在千问App中抢先体验这一创新工具。
在盲测平台Arena.ai的最新评测中,HappyHorse 1.0在文生视频、图生视频和视频编辑三个核心榜单上均位列第二,紧随近期备受关注的字节Seedance 2.0之后。为全面评估其性能,相关团队进行了多维度实测,发现该模型在指令遵循和生成速度方面表现突出,但在画面物理准确性和音画同步等方面仍有改进空间。
HappyHorse 1.0的操作十分便捷,用户只需输入文字描述,即可生成3至15秒的视频,支持多镜头切换和连贯剧情。官网信息显示,该模型最高支持1080p分辨率,可同时生成4个视频。价格方面,生成720p和1080p视频的基准价格分别为每秒0.9元和1.6元,Pro套餐在限时折扣后为每秒0.44元和0.78元。
该模型已集成到阿里旗下多款产品中,包括阿里悟空、MuleRun和JVS Claw等Agent平台。千问App还预告将推出“测一测”功能,用户可测出自己在短剧宇宙中的角色,并通过HappyHorse 1.0生成自己“出演”的短剧片段。
实测过程中,HappyHorse 1.0展现了多项优势。其生成速度较快,一段视频约需2至5分钟,在同类模型中颇具竞争力。它还能准确理解并执行复杂的提示词,包括镜头运动、画面构图和风格氛围等要求。在图生视频中,该模型对人物、场景和道具等参考元素的还原度较高。不过,测试也发现了一些不足,如乐器演奏等复杂场景中,手部动作与音频节奏存在错位;10秒以上的视频中,偶尔会出现物体无外力移动等物理错误;画面中的文字渲染也常出现乱码或错误。
在文生视频测试中,HappyHorse 1.0成功完成了多个复杂任务。例如,在街头音乐表演的场景中,模型生成的人像肢体正常,镜头运动和灯光效果符合提示词要求,但吉他手的演奏与音乐节奏不同步。在海边悬崖的场景中,模型较好地模拟了水体和风的动态效果,但近景中水滴滑落速度略显缓慢。在长达800词的超长提示词测试中,模型准确呈现了画面中的几乎所有元素,但开头出现车门无故关闭的物理错误,结尾主角形象也发生了变化。
图生视频测试中,HappyHorse 1.0支持最多9张参考图。在测试中,模型成功生成了OpenAI联合创始人萨姆·奥尔特曼喝咖啡的画面,人物相似度达八成。在马斯克与奥尔特曼“对簿公堂”的场景中,模型虽能生成英语争论画面,但人物表情与参考图存在偏差。在离职场景测试中,模型准确呈现了所有参考元素,但出现了纸箱自动合上等物理错误。
业内人士对HappyHorse 1.0的表现给予了不同评价。出海一站式AI电商营销平台麦斯国际的技术合伙人李明认为,该模型的3至15秒生成长度、较快速度和支持1080p分辨率是亮点,但在一致性和语音机械感方面仍有提升空间。他指出,文字渲染和音画同步是当前AI视频生成模型的普遍问题,可通过后期工具和提示词工程改善。AI视频创作平台FLOVA团队则认为,HappyHorse 1.0在真实感和叙事能力上表现不错,镜头运动自然,适合叙事性内容和纪录片风格题材。





















