HappyHorse,阿里这匹马,真把字节和快手都踢了
这周AI视频圈出了件挺有意思的事。
4月7号,Artificial Analysis的AI Video Arena排行榜上突然冒出来一个叫HappyHorse-1.0的神秘模型,没有任何发布会,没有任何官方背书,直接空降登顶,把字节跳动的Seedance 2.0和快手的可灵3.0都踩在了脚下。
然后大家都懵了——这到底是谁家的?
三天后,答案揭晓。钛媒体确认,这匹马是阿里的。
先说成绩单
在聊背景之前,先看看这匹马到底跑得多快。
Artificial Analysis的榜单用的是Elo评分机制,简单说就是让模型匿名两两PK,用户盲投选哪个视频更好,赢了加分输了扣分,跟围棋排等级分一个道理。
HappyHorse-1.0的成绩:
文生视频无音频赛道,Elo 1360分,排第一。领先第二名Seedance 2.0大概60分,这个差距在Elo体系里算是碾压级的。
图生视频无音频赛道,Elo 1403分,也是第一。领先Seedance 2.0约37分。
带音频的赛道也全部位列前二。
值得一提的是,榜单上每个类别的盲投次数都超过5000次。5000多个真实用户的投票,不是说刷就能刷出来的。
当然,有行业人士指出这种盲测存在灰色操作空间。这个观点有道理,Elo榜并不等于实际生产力。但至少说明了一件事:这个模型的视频质量确实触到了当前的天花板。
这马是谁养的
HappyHorse背后的核心人物叫张迪。
这个人挺传奇的。上海交大计算机毕业,2010年加入阿里巴巴,在阿里妈妈做大数据和机器学习的工程架构。
2020年,他跟着前上司盖坤跳槽去了快手,一头扎进AI视频生成赛道。后来以技术一号位的身份牵头研发了可灵1.0和2.0两代视频生成模型——对,就是那个跟Seedance打得难解难分的可灵。
2025年,张迪短暂去了趟B站,做了两个月技术负责人,然后又离职了。
2025年11月,他回到阿里,进入淘天集团的未来生活实验室。
从回归到现在,满打满算五个月。
五个月,带出一个登顶全球榜单的视频模型。不管你对Elo榜怎么看,这个速度本身就很能说明问题。
顺便提一句,近日阿里的组织架构做了调整。张迪的多模态团队从淘天集团并入通义大模型事业部,由周靖人负责。之前淘天和通义之间的组织隔阂消除了,通义全权负责阿里的模型出口。吴泳铭站台支持。
这套调整说明阿里是认真的,不是小打小闹。
技术上有什么不一样
HappyHorse最核心的卖点是一个字:一。
一个模型,一步生成。
现在市面上的视频模型,生成带声音的视频通常要分三步走:先生成无声视频,再用另一个模型生成音频,最后对口型。每个环节都可能出问题,口型对不上、声音和画面不匹配是常态。
HappyHorse把这个流程合并了。它的架构是一个150亿参数的统一Transformer,文本token、视频token、音频token全部塞进同一个序列里联合去噪,一次性输出带声音的视频。
不需要后期配音,不需要对口型。一步到位。
另一个亮点是支持七种语言的唇形同步:英语、普通话、粤语、日语、韩语、德语、法语。官方报告的词错率是14.6%,什么概念呢?对比一下,OVI 1.1是40.45%,LTX 2.3是19.23%。差距还是很大的。
当然,这个数据来自团队自己的2000次人工评估,没有第三方独立验证,参考一下就好。
还有一个关键技术是DMD-2蒸馏。原始的视频生成模型推理很慢,DMD-2把去噪步数压缩到了8步,单张H100生成一段5秒的1080p视频大概38秒。这个速度对于15B参数的模型来说相当不错了。
开源这件事
HappyHorse宣布开源,包含基础模型、蒸馏模型、超分辨率模块和推理代码,支持商用。
在视频生成这个赛道里,这挺少见的。Seedance 2.0闭源,可灵3.0闭源,大部分头部模型都是API调用的模式。阿里选择开源,一方面体现了技术自信,另一方面也是老策略了——千问就是这么打赢语言模型的。
不过截至今天,GitHub和HuggingFace上还没有找到官方的权重仓库和完整的模型卡片。有社区成员吐槽说"全面开源"目前还只是一纸承诺。等权重真的放出来再说吧。
另外,公开API也还没上线。据说阿里云会很快把模型接入百炼平台,但目前你想自己试试的话,只能去happyhorse.app的在线体验页面排队。
阿里为什么这么急
说到底,阿里在多模态领域确实有压力。
语言模型这边,千问系列靠开源策略拿下了不少市场份额,口碑不错。但视频生成这边,阿里的万相一直不温不火,跟字节的Seedance和快手可灵差着至少一个身位。
尤其是Seedance 2.0。今年春晚的舞台上,Seedance生成的那段视频惊艳了所有人,直接把竞争格局变成了"Seedance和追赶者们"。这个刺激太大了。
所以你看,不只是阿里,上半年各家视频模型厂商都在加速。Seedance 2.0的发布像是发令枪,所有人都开始冲刺。
张迪回来,某种程度上就是阿里在多模态领域的一次换帅。这个人做过可灵,知道怎么从零到一做出一个顶级的视频模型。5个月出成果,说明阿里这次不是闹着玩的。
匿名发布这个策略也挺有意思。先打榜引起关注,再公开认领。小米和智谱之前也这么干过。效果确实好——悬念拉满,讨论度直接拉爆,等官宣的时候热度已经起来了。
从商业角度看,这比花几百万开个发布会划算多了。
我的看法
HappyHorse-1.0目前更像是一匹"秀肌肉"的赛马,而不是一个可以随时骑上街的生产工具。
原因很简单:API不可用,权重还没放出来,你不能用它干任何实际的事。
但是,它释放的信号很重要。
第一,AI视频生成的天花板又被推高了一截。原生音视频联合生成这个方向,大概率会成为下一代视频模型的标配。
第二,阿里的多模态能力被低估了。之前大家只看到万相的不温不火,没想到淘天集团还藏着这么一支队伍。
第三,开源策略在视频生成领域也开始发力了。之前这个赛道基本是闭源API的天下,HappyHorse的开源可能会带动一波变化。
第四,张迪这个人值得持续关注。从阿里到快手做可灵,从快手回阿里做HappyHorse,他在视频生成领域的实战经验可能是国内最丰富的。
至于这匹马能不能持续跑下去,关键看两点:一是权重和API什么时候真正落地,二是在真实业务场景中(不只是排行榜)表现如何。
毕竟,跑得快和跑得远,是两回事。
📝 本文首发于公众号【编程挺好玩】,持续分享AI时代的个人成长和效率提升方法。
