
2026年4月7号没有任何预告,在全球最权威的AI视频盲测平台Artificial Analysis 上突然出现了一款名为HappyHorse-1.0(欢乐马)的视频生成大模型,直接把字节跳动的Seedance 2.0、快手的可灵3.0这些大家熟知的模型全给压下去了。综合排名全球第一。
而且领先幅度巨大,在纯视频画质的两个赛道上,它的领先第二名超过100分。在Elo体系里,这已经算是碾压了~

HappyHorse
就在大家在网上乱猜的时候,4月10号,阿里巴巴正式出来认领,说这是ATH事业群旗下创新事业部研发的模型,目前还在内测中,API接口计划4月30号开放。
官网地址:https://www.happyhorse.cn/
已经上线千问APP和千问客户端

这里有Artificial Analysis官方发布的与Seedance 2.0、快手的可灵3.0的对比视频,大家可以看看:对比视频
技术上,HappyHorse-1.0走了一条不太一样的路子。现在市面上绝大多数AI视频模型,要么完全不做音频,要么就是先生成画面再用别的模型单独配音。但这匹马直接用了统一的DiT架构,150亿参数、40层自注意力Transformer,把文本、图像、视频帧和音频token全部塞进同一个序列里联合建模,一次推理就把视频和音频同时生成了。也就是说,画面和声音在生成之初就处于同一个语义空间里,对话的口型和声音天然就能对上,不需要后期再去对齐。
效率方面也挺能打。它用了DMD-2蒸馏技术,把去噪推理步骤压缩到了8步,单张H100上生成一段5秒的1080p视频只需要38秒左右。它还原生支持英语、普通话、粤语、日语、韩语、德语、法语这七种语言的唇形同步,词错误率在同类开源模型里是最低的。
数据统计
相关导航

Llama 大模型

小米 MiMo

Xiaomi Miloco

GPT-image-2

Qwen3-TTS

Stable Diffusion


















