HappyHorse 1.1 publié : Cinq majeures améliorations de fonctionnalités et paramètres techniques

Le 22 juin 2026, Alibaba a publié le modèle de génération vidéo HappyHorse 1.1. Par rapport à la version 1.0 précédente, cette version présente des améliorations systématiques sur cinq dimensions clés (expressivité dynamique, cohérence du sujet, suivi des instructions, qualité visuelle et capacités audio) tout en maintenant des spécifications techniques cohérentes. Conçu pour soutenir les créateurs dans des domaines tels que la production de mini-drames, la publicité e-commerce, le marketing de marque et le CG de jeu, le modèle vise à fournir des flux de travail de génération vidéo plus fiables et contrôlables.

Le modèle vidéo HappyHorse 1.1 a été publié le 22 juin 2026

✨ Essayez HappyHorse 1.1 gratuitement maintenant

Aucune carte de crédit requise · Aperçu instantané

Améliorations clés des fonctionnalités

Le développement de HappyHorse 1.1 se concentre sur la résolution des défis pratiques rencontrés par les créateurs de contenu numérique. La mise à jour introduit des optimisations ciblées pour améliorer la convivialité et la qualité finale des sorties.

1. Expressivité dynamique améliorée

Le rendu des actions dans la génération vidéo reste un défi courant dans l'industrie. Pour remédier aux problèmes de mouvements lents ou de rythme maladroit observés dans la version 1.0, HappyHorse 1.1 propose une modélisation du mouvement optimisée et une cohérence temporelle améliorée. Ces améliorations aident à produire des séquences de mouvements plus cohérentes et puissantes, rendant les scènes riches en actions plus naturelles.

2. Cohérence du sujet améliorée

Maintenir une cohérence visuelle entre différentes images est crucial pour réduire le "taux de gacha" (le taux de sorties aléatoires ou inutilisables) pour les créateurs de contenu. HappyHorse 1.1 prend en charge la saisie simultanée de jusqu'à neuf images de référence de personnage. Cette capacité stabilise les détails des produits, des éléments de marque et la relation entre les personnages et les environnements. Elle améliore également la compréhension du modèle des références multi-images et en grille N, ce qui aide à contrôler le problème du "changement de visage", en particulier dans les drames à plusieurs personnages, le commerce en direct et les publicités avec plusieurs personnes.

3. Meilleur suivi des instructions

La capacité du modèle à interpréter les prompts a été améliorée pour gérer à la fois les structures descriptives simples et complexes. Pour les scènes dynamiques de haute intensité, comme les séquences d'action, des prompts simples suffisent désormais à guider le processus de génération. Pour les récits complexes, le modèle offre une meilleure stabilité de composition de la caméra, permettant l'exécution cohérente d'histoires multi-scènes et multi-personnages.

4. Qualité visuelle optimisée

Les retours concernant les artefacts visuels tels que l'aspect "huileux", le "sur-netteté" et la perte de texture naturelle ont été traités dans cette version. HappyHorse 1.1 réduit ces problèmes visuels, optant plutôt pour préserver les détails réalistes de la peau comme les cicatrices d'acné, les plis nasogéniens et les pores. Ce niveau de détail aide à répondre aux exigences strictes de qualité visuelle des publicités professionnelles et des productions de mini-drames.

5. Capacités audio améliorées

Pour rendre la génération vocale plus naturelle, le modèle ajuste désormais dynamiquement le débit de la conversation, le rythme, les pauses et le ton émotionnel en fonction du contexte de la scène. De plus, les utilisateurs peuvent décrire les sons de fond et l'audio environnemental directement dans leurs prompts textuels pour construire une expérience auditive plus immersive.

Spécifications techniques et modes de fonctionnement

Bien que Happy Horse 1.1 introduise des améliorations de qualité significatives, ses spécifications techniques fondamentales restent cohérentes avec la version 1.0. Le modèle prend en charge des longueurs de vidéo de génération unique de 3 à 15 secondes, avec des résolutions de 720p ou 1080p et des ratios d'aspect libres.

Voici les paramètres techniques détaillés pour les trois modes de fonctionnement pris en charge par le modèle :

1. Mode Image vers Vidéo (Première et dernière image)

Ce mode permet aux utilisateurs d'animer une image statique en spécifiant l'image de départ, avec un prompt optionnel pour guider le mouvement.

  • image_url (chaîne) : L'URL de l'image de la première image. Les formats pris en charge incluent JPEG, JPG, PNG, BMP et WEBP. L'image doit avoir une dimension minimale de 300 px, un ratio d'aspect entre 1:2,5 et 2,5:1, et une taille de fichier maximale de 20 Mo.
  • prompt (chaîne, optionnel) : Un prompt textuel optionnel pour guider l'animation, avec une limite maximale de 2500 caractères.
  • resolution (ResolutionEnum) : Le niveau de résolution de la vidéo de sortie. La valeur par défaut est "1080p", avec des valeurs d'énumération possibles de 720p et 1080p.
  • duration (DurationEnum) : La durée de la vidéo de sortie en secondes (de 3 à 15 secondes). La valeur par défaut est "5", avec des valeurs d'énumération possibles de 3 à 15.

2. Mode Référence vers Vidéo

Ce mode est conçu pour les scénarios nécessitant une forte cohérence du sujet, en utilisant des images de référence pour maintenir les détails du personnage ou du produit.

  • prompt (chaîne) : Un prompt textuel décrivant la vidéo souhaitée. Les utilisateurs peuvent référencer des sujets spécifiques des images téléchargées en utilisant des identifiants comme character1, character2, jusqu'à character9 (l'ordre doit correspondre à l'ordre des URL d'images fournies). La limite maximale est de 2500 caractères.
  • image_urls (liste de chaînes) : Une liste contenant de 1 à 9 images de référence pour la cohérence du sujet. Les formats pris en charge incluent JPEG, JPG, PNG et WEBP. Le côté le plus court de chaque image doit être d'au moins 400 px (une résolution de 720p ou plus est recommandée), avec une taille de fichier maximale de 10 Mo par image.
  • aspect_ratio (AspectRatioEnum) : Le ratio d'aspect de la vidéo générée. La valeur par défaut est "16:9", avec des valeurs d'énumération possibles incluant 16:9, 9:16, 1:1, 4:3, 3:4, 21:9, 9:21, 5:4 et 4:5.
  • resolution (ResolutionEnum) : Le niveau de résolution de la vidéo de sortie. La valeur par défaut est "1080p", avec des valeurs d'énumération possibles de 720p et 1080p.
  • duration (DurationEnum) : La durée de la vidéo de sortie en secondes (de 3 à 15 secondes). La valeur par défaut est "5", avec des valeurs d'énumération possibles de 3 à 15.

3. Mode Texte vers Image

Ce mode sert à générer des séquences vidéo courtes directement à partir de descriptions textuelles.

  • prompt (chaîne) : Un prompt textuel décrivant la scène vidéo souhaitée, avec une limite maximale de 2500 caractères.
  • aspect_ratio (AspectRatioEnum) : Le ratio d'aspect de la sortie générée. La valeur par défaut est "16:9", avec des valeurs d'énumération possibles incluant 16:9, 9:16, 1:1, 4:3, 3:4, 21:9, 9:21, 5:4 et 4:5.
  • resolution (ResolutionEnum) : Le niveau de résolution de la vidéo de sortie. La valeur par défaut est "1080p", avec des valeurs d'énumération possibles de 720p et 1080p.
  • duration (DurationEnum) : La durée de la vidéo de sortie en secondes (de 3 à 15 secondes). La valeur par défaut est "5", avec des valeurs d'énumération possibles de 3 à 15.

Conclusion et scénarios d'application

En maintenant des spécifications techniques cohérentes tout en se concentrant sur les points douloureux clés de l'expérience utilisateur, HappyHorse 1.1 propose un outil plus pratique pour les créateurs de contenu. Le modèle continue de servir divers environnements de production, notamment les mini-drames, le e-commerce, le marketing de marque et le CG de jeu. Alibaba continue d'itérer sur les capacités du modèle pour soutenir les besoins évolutifs de l'industrie des médias numériques.