多模态模型暗战:HappyHorse登顶背后的技术复盘与战略推演
回忆一下第一次听说“欢乐马”这个名字的场景。
4月8日凌晨,ArtificialAnalysis的VideoArena榜单刷新。一款名为HappyHorse-1.0的视频生成模型以1365分空降榜首,将字节Seedance2.0(1273分)和快手可灵系列(分列第四、第六)甩在身后。图生视频赛道,这匹马领先第二名48分——要知道,第二到第十名的总分差也不过50余分。
这不是一场精心策划的发布会亮相。团队选择了最残酷的验证方式:数千名用户盲测,不知道模型归属,只凭同一提示词生成的视频质量打分。品牌滤镜为零,刷榜可能性为零。HappyHorse的成色,是真金白银的盲投堆出来的。
技术复盘:从搜索推荐到多模态的跨界基因
消息发酵两天后,靴子落地——HappyHorse出自阿里ATH郑波团队之手。这个名字对关注阿里AI的人并不陌生,但此前的标签从来不是“模型训练”。
2017年加入阿里,郑波先后执掌淘宝搜推算法、阿里妈妈CTO、淘天集团算法技术负责人。搜索、推荐、广告——这些离交易最近的技术栈,塑造了他对用户需求和商业场景的深度理解。
这不是偶然的技术跨越。视频生成模型的核心能力指标——多镜头调度、物理运动模拟、音画同步——本质上是对“用户预期”和“场景适配”的理解。而郑波团队在电商场景中积累的对消费者行为的洞察,恰好填补了纯研究型团队容易忽视的“应用价值”维度。
架构推演:双引擎结构的战略意图
HappyHorse的出现改变了一个既有认知:阿里的视频生成能力并非只有万相一支力量。
在此之前,通义实验室旗下万相团队主导阿里视频模型研发,走的是基础模型路线。HappyHorse则意味着ATH事业群内部已生长出第二支具备顶级多模态训练能力的团队,且这支团队的基因里天然携带商业场景理解。
这不是内部赛马的简单逻辑。一个实验室做基础研究,一个从业务场景中生长出来的团队做应用创新——两条腿走路,才是完整的多模态布局。
再看时间线:3月4日千问前负责人林俊旸离职,3月16日ATH事业群成立,4月2日Qwen3.6Plus单日调用量突破1.4万亿Token,4月8日HappyHorse登顶。一个月内,语言模型和视频模型双线出击,这不是巧合,是有组织的战略反攻。
竞争格局:天花板争夺战的本质
对字节而言,HappyHorse带来的冲击不仅是榜单名次变化。当“视频模型天花板不在字节手中”的认知建立,后续竞争格局将被重新定义。Seedance系列此前稳坐头把交椅的叙事,从此需要加上问号。
更深层的意义在于:HappyHorse证明了在多模态竞赛中,“非种子选手”完全可以后来居上。技术突破的来源比想象中更加多元——实验室里的论文成果与业务场景中的实战经验,有时候可以形成奇妙的化学反应。
阿里方面已确认,HappyHorse-1.0只是郑波团队自研的多模态模型之一,近期还将上线另一款不同方向的产品。视频生成只是入口,视频理解、多模态Agent、新形态人机交互——每一个方向都可能孕育下一代AI杀手级应用。
真正的故事,才刚刚开始。
