HappyHorse 1.1 发布:五大功能升级与技术参数

2026年6月22日,阿里巴巴发布了 HappyHorse 1.1 视频生成模型。与之前的1.0版本相比,此次发布在五个关键维度(动态表现力、主体一致性、指令遵循、视觉质量和音频能力)上引入了系统性增强,同时保持了技术规格的一致性。该模型旨在支持短剧制作、电商广告、品牌营销和游戏CG等领域的创作者,提供更可靠、可控的视频生成工作流程。

HappyHorse 1.1 视频模型于2026年6月22日发布

✨ 立即免费体验 HappyHorse 1.1

无需信用卡 · 即时预览

主要功能升级

HappyHorse 1.1 的开发专注于解决数字内容创作者面临的实际挑战。此次升级引入了针对性优化,以提升易用性和最终输出质量。

1. 增强的动态表现力

动作渲染在视频生成中仍是行业普遍面临的挑战。为解决1.0版本中出现的动作迟缓或节奏生硬的问题,HappyHorse 1.1 对运动建模和时间一致性进行了优化。这些改进有助于生成更连贯、更有力的运动序列,使高动作场景看起来更自然。

2. 改进的主体一致性

在不同帧之间保持视觉一致性对于降低内容创作者的"废片率"(即随机或不可用输出的比率)至关重要。HappyHorse 1.1 支持同时输入最多九张角色参考图片。这一能力可以稳定产品、品牌元素以及角色与环境的关联细节。它还增强了模型对多帧和 N 网格参考的理解,有助于控制"变脸"问题,尤其在多角色短剧、直播带货和多人广告中。

3. 更好的指令遵循

模型的提示词理解能力已升级,可处理简单和复杂的描述结构。对于高强度动态场景(如动作序列),简单的提示词现在足以引导生成过程。对于复杂叙事,该模型提供了更强的镜头构图稳定性,能够连贯执行多场景、多角色的故事。

4. 优化的视觉质量

关于视觉伪影(如"油腻感"、"过度锐化"和自然纹理丢失)的反馈已在此版本中得到解决。HappyHorse 1.1 减少了这些视觉问题,转而保留逼真的皮肤细节,如痘印、法令纹和毛孔。这种细节水平有助于满足专业广告和短剧制作对视觉质量的严格要求。

5. 升级的音频能力

为了让语音生成更自然,该模型现在会根据场景上下文动态调整对白表达、节奏、停顿和情绪基调。此外,用户可以直接在文本提示词中描述背景音和环境音频,以营造更沉浸的听觉体验。

技术规格与操作模式

虽然 Happy Horse 1.1 引入了显著的质量升级,但其基础技术规格与 1.0 版本保持一致。该模型支持单次生成 3 到 15 秒的视频长度,分辨率可选 720p 或 1080p,支持自由宽高比。

以下是该模型支持的三种操作模式的详细技术参数:

1. 图片转视频(首尾帧)模式

此模式允许用户通过指定首帧图片来让静态图像动起来,并可选择使用提示词指导运动。

  • image_url(字符串):首帧图片的 URL。支持的格式包括 JPEG、JPG、PNG、BMP 和 WEBP。图片最短边至少 300px,宽高比在 1:2.5 到 2.5:1 之间,文件大小不超过 20 MB。
  • prompt(字符串,可选):用于指导动画的可选文本提示词,最多 2500 个字符。
  • resolution(ResolutionEnum):输出视频的分辨率级别。默认值为 "1080p",可选枚举值为 720p1080p
  • duration(DurationEnum):输出视频的时长(秒,范围 3 到 15 秒)。默认值为 "5",可选枚举值为 315

2. 参考图转视频模式

此模式专为需要高主体一致性的场景设计,利用参考图片来保持角色或产品细节。

  • prompt(字符串):描述所需视频的文本提示词。用户可以使用标识符(如 character1character2,最多到 character9)引用上传图片中的特定主体,顺序必须与提供的图片 URL 顺序一致。最多 2500 个字符。
  • image_urls(字符串列表):包含 1 到 9 张参考图片的列表,用于维持主体一致性。支持的格式包括 JPEG、JPG、PNG 和 WEBP。每张图片的最短边至少为 400px(建议 720p 或更高分辨率),单张图片最大 10 MB。
  • aspect_ratio(AspectRatioEnum):生成视频的宽高比。默认值为 "16:9",可选枚举值包括 16:99:161:14:33:421:99:215:44:5
  • resolution(ResolutionEnum):输出视频的分辨率级别。默认值为 "1080p",可选枚举值为 720p1080p
  • duration(DurationEnum):输出视频的时长(秒,范围 3 到 15 秒)。默认值为 "5",可选枚举值为 315

3. 文本转图片模式

此模式的功能是直接从文本描述生成短视频序列。

  • prompt(字符串):描述所需视频场景的文本提示词,最多 2500 个字符。
  • aspect_ratio(AspectRatioEnum):生成输出的宽高比。默认值为 "16:9",可选枚举值包括 16:99:161:14:33:421:99:215:44:5
  • resolution(ResolutionEnum):输出视频的分辨率级别。默认值为 "1080p",可选枚举值为 720p1080p
  • duration(DurationEnum):输出视频的时长(秒,范围 3 到 15 秒)。默认值为 "5",可选枚举值为 315

结论与应用场景

通过保持技术规格一致的同时聚焦关键用户体验痛点,HappyHorse 1.1 为内容创作者提供了更实用的工具。该模型继续服务于多样化的制作环境,包括短剧、电商、品牌营销和游戏CG。阿里巴巴将持续迭代模型的能力,以支持数字媒体行业不断变化的需求。