本文最后更新于 2026-04-10，距今已有 90 天，若文章内容或图片链接失效，请留言反馈。

HappyHorse，阿里这匹马，真把字节和快手都踢了

这周AI视频圈出了件挺有意思的事。

4月7号，Artificial Analysis的AI Video Arena排行榜上突然冒出来一个叫HappyHorse-1.0的神秘模型，没有任何发布会，没有任何官方背书，直接空降登顶，把字节跳动的Seedance 2.0和快手的可灵3.0都踩在了脚下。

然后大家都懵了——这到底是谁家的？

三天后，答案揭晓。钛媒体确认，这匹马是阿里的。

先说成绩单

在聊背景之前，先看看这匹马到底跑得多快。

Artificial Analysis的榜单用的是Elo评分机制，简单说就是让模型匿名两两PK，用户盲投选哪个视频更好，赢了加分输了扣分，跟围棋排等级分一个道理。

HappyHorse-1.0的成绩：

文生视频无音频赛道，Elo 1360分，排第一。领先第二名Seedance 2.0大概60分，这个差距在Elo体系里算是碾压级的。

图生视频无音频赛道，Elo 1403分，也是第一。领先Seedance 2.0约37分。

带音频的赛道也全部位列前二。

值得一提的是，榜单上每个类别的盲投次数都超过5000次。5000多个真实用户的投票，不是说刷就能刷出来的。

当然，有行业人士指出这种盲测存在灰色操作空间。这个观点有道理，Elo榜并不等于实际生产力。但至少说明了一件事：这个模型的视频质量确实触到了当前的天花板。

这马是谁养的

HappyHorse背后的核心人物叫张迪。

这个人挺传奇的。上海交大计算机毕业，2010年加入阿里巴巴，在阿里妈妈做大数据和机器学习的工程架构。

2020年，他跟着前上司盖坤跳槽去了快手，一头扎进AI视频生成赛道。后来以技术一号位的身份牵头研发了可灵1.0和2.0两代视频生成模型——对，就是那个跟Seedance打得难解难分的可灵。

2025年，张迪短暂去了趟B站，做了两个月技术负责人，然后又离职了。

2025年11月，他回到阿里，进入淘天集团的未来生活实验室。

从回归到现在，满打满算五个月。

五个月，带出一个登顶全球榜单的视频模型。不管你对Elo榜怎么看，这个速度本身就很能说明问题。

顺便提一句，近日阿里的组织架构做了调整。张迪的多模态团队从淘天集团并入通义大模型事业部，由周靖人负责。之前淘天和通义之间的组织隔阂消除了，通义全权负责阿里的模型出口。吴泳铭站台支持。

这套调整说明阿里是认真的，不是小打小闹。

技术上有什么不一样

HappyHorse最核心的卖点是一个字：一。

一个模型，一步生成。

现在市面上的视频模型，生成带声音的视频通常要分三步走：先生成无声视频，再用另一个模型生成音频，最后对口型。每个环节都可能出问题，口型对不上、声音和画面不匹配是常态。

HappyHorse把这个流程合并了。它的架构是一个150亿参数的统一Transformer，文本token、视频token、音频token全部塞进同一个序列里联合去噪，一次性输出带声音的视频。

不需要后期配音，不需要对口型。一步到位。

另一个亮点是支持七种语言的唇形同步：英语、普通话、粤语、日语、韩语、德语、法语。官方报告的词错率是14.6%，什么概念呢？对比一下，OVI 1.1是40.45%，LTX 2.3是19.23%。差距还是很大的。

当然，这个数据来自团队自己的2000次人工评估，没有第三方独立验证，参考一下就好。

还有一个关键技术是DMD-2蒸馏。原始的视频生成模型推理很慢，DMD-2把去噪步数压缩到了8步，单张H100生成一段5秒的1080p视频大概38秒。这个速度对于15B参数的模型来说相当不错了。

开源这件事

HappyHorse宣布开源，包含基础模型、蒸馏模型、超分辨率模块和推理代码，支持商用。

在视频生成这个赛道里，这挺少见的。Seedance 2.0闭源，可灵3.0闭源，大部分头部模型都是API调用的模式。阿里选择开源，一方面体现了技术自信，另一方面也是老策略了——千问就是这么打赢语言模型的。

不过截至今天，GitHub和HuggingFace上还没有找到官方的权重仓库和完整的模型卡片。有社区成员吐槽说"全面开源"目前还只是一纸承诺。等权重真的放出来再说吧。

另外，公开API也还没上线。据说阿里云会很快把模型接入百炼平台，但目前你想自己试试的话，只能去happyhorse.app的在线体验页面排队。

阿里为什么这么急

说到底，阿里在多模态领域确实有压力。

语言模型这边，千问系列靠开源策略拿下了不少市场份额，口碑不错。但视频生成这边，阿里的万相一直不温不火，跟字节的Seedance和快手可灵差着至少一个身位。

尤其是Seedance 2.0。今年春晚的舞台上，Seedance生成的那段视频惊艳了所有人，直接把竞争格局变成了"Seedance和追赶者们"。这个刺激太大了。

所以你看，不只是阿里，上半年各家视频模型厂商都在加速。Seedance 2.0的发布像是发令枪，所有人都开始冲刺。

张迪回来，某种程度上就是阿里在多模态领域的一次换帅。这个人做过可灵，知道怎么从零到一做出一个顶级的视频模型。5个月出成果，说明阿里这次不是闹着玩的。

匿名发布这个策略也挺有意思。先打榜引起关注，再公开认领。小米和智谱之前也这么干过。效果确实好——悬念拉满，讨论度直接拉爆，等官宣的时候热度已经起来了。

从商业角度看，这比花几百万开个发布会划算多了。

我的看法

HappyHorse-1.0目前更像是一匹"秀肌肉"的赛马，而不是一个可以随时骑上街的生产工具。

原因很简单：API不可用，权重还没放出来，你不能用它干任何实际的事。

但是，它释放的信号很重要。

第一，AI视频生成的天花板又被推高了一截。原生音视频联合生成这个方向，大概率会成为下一代视频模型的标配。

第二，阿里的多模态能力被低估了。之前大家只看到万相的不温不火，没想到淘天集团还藏着这么一支队伍。

第三，开源策略在视频生成领域也开始发力了。之前这个赛道基本是闭源API的天下，HappyHorse的开源可能会带动一波变化。

第四，张迪这个人值得持续关注。从阿里到快手做可灵，从快手回阿里做HappyHorse，他在视频生成领域的实战经验可能是国内最丰富的。

至于这匹马能不能持续跑下去，关键看两点：一是权重和API什么时候真正落地，二是在真实业务场景中（不只是排行榜）表现如何。

毕竟，跑得快和跑得远，是两回事。

📝 本文首发于公众号【编程挺好玩】，持续分享AI时代的个人成长和效率提升方法。

如果觉得文章对你有用，请随意赞赏

HappyHorse，阿里这匹马，真把字节和快手都踢了

https://www.lllyyb.com/archives/1A2GjyhT

作者

lybtt

发布于

2026-04-10

更新于

2026-04-10

许可协议

CC BY 4.0

HappyHorse，阿里这匹马，真把字节和快手都踢了

HappyHorse，阿里这匹马，真把字节和快手都踢了

先说成绩单

这马是谁养的

技术上有什么不一样

开源这件事

阿里为什么这么急

我的看法

作者

发布于

更新于

许可协议

评论