HappyHorse 1.1 veröffentlicht: Fünf große Feature-Upgrades und technische Parameter

Am 22. Juni 2026 veröffentlichte Alibaba das HappyHorse 1.1 Videogenerierungsmodell. Im Vergleich zur vorherigen Version 1.0 bietet dieses Release systematische Verbesserungen in fünf Schlüsseldimensionen (dynamische Ausdruckskraft, Subjektkonsistenz, Befolgungsgenauigkeit, visuelle Qualität und Audiofunktionen), während die konsistenten technischen Spezifikationen beibehalten werden. Entwickelt, um Content-Ersteller in Bereichen wie Kurzfilmproduktion, E-Commerce-Werbung, Markenmarketing und Game-CG zu unterstützen, zielt das Modell darauf ab, zuverlässigere und kontrollierbare Videoerstellungs-Workflows bereitzustellen.

HappyHorse 1.1 Video-Modell wurde am 22. Juni 2026 veröffentlicht

✨ HappyHorse 1.1 jetzt kostenlos testen

Keine Kreditkarte erforderlich · Sofortige Vorschau

Wichtige Feature-Upgrades

Die Entwicklung von HappyHorse 1.1 konzentriert sich auf die Bewältigung praktischer Herausforderungen, mit denen digitale Content-Ersteller konfrontiert sind. Das Upgrade führt gezielte Optimierungen ein, um die Benutzerfreundlichkeit und die endgültige Ausgabequalität zu verbessern.

1. Verbesserte dynamische Ausdruckskraft

Die Bewegungsdarstellung in der Videogenerierung bleibt branchenweit eine häufige Herausforderung. Um die Probleme mit trägen Bewegungen oder ungelenkem Timing der Version 1.0 zu beheben, verfügt HappyHorse 1.1 über optimierte Bewegungsmodellierung und zeitliche Konsistenz. Diese Verbesserungen tragen dazu bei, kohärentere und kraftvollere Bewegungssequenzen zu produzieren, sodass aktionsreiche Szenen natürlicher wirken.

2. Verbesserte Subjektkonsistenz

Die Aufrechterhaltung der visuellen Konsistenz über verschiedene Frames hinweg ist entscheidend, um die „Gacha-Rate“ (Rate randomisierter oder unbrauchbarer Ausgaben) für Content-Ersteller zu senken. HappyHorse 1.1 unterstützt die gleichzeitige Eingabe von bis zu neun Charakter-Referenzbildern. Diese Fähigkeit stabilisiert die Details von Produkten, Markenelementen und die Beziehung zwischen Charakteren und Umgebungen. Sie verbessert auch das Verständnis des Modells für Multi-Frame- und N-Grid-Referenzen, was hilft, das Problem der „Gesichtsänderung“ zu kontrollieren, insbesondere in Mehrfiguren-Dramen, Live-Commerce und Werbeanzeigen mit mehreren Personen.

3. Bessere Befolgungsgenauigkeit

Die Fähigkeit des Modells, Prompts zu interpretieren, wurde aktualisiert, um sowohl einfache als auch komplexe beschreibende Strukturen zu verarbeiten. Für hochintensive dynamische Szenen wie Aktionssequenzen reichen nun einfache Prompts aus, um den Generierungsprozess zu steuern. Für komplexe Erzählungen bietet das Modell eine stärkere kamerabasierte Kompositionsstabilität, die die kohärente Ausführung von Szenen und Geschichten mit mehreren Charakteren ermöglicht.

4. Optimierte visuelle Qualität

Feedback zu visuellen Artefakten wie „Fettigkeit“, „Überschärfung“ und Verlust natürlicher Texturen wurde in diesem Release berücksichtigt. HappyHorse 1.1 reduziert diese visuellen Probleme und bewahrt stattdessen realistische Hautdetails wie Aknenarben, Nasolabialfalten und Poren. Dieses Detailniveau hilft, die strengen Anforderungen an die visuelle Qualität professioneller Werbung und Kurzfilmproduktionen zu erfüllen.

5. Verbesserte Audiofunktionen

Um die Sprachgenerierung natürlicher zu gestalten, passt das Modell nun Dialogvortrag, Tempo, Pausen und emotionale Töne dynamisch an den Kontext der Szene an. Darüber hinaus können Benutzer Hintergrundgeräusche und Umgebungsaudio direkt in ihren Text-Prompts beschreiben, um ein immersiveres Hörerlebnis zu schaffen.

Technische Spezifikationen und Betriebsmodi

Während Happy Horse 1.1 erhebliche Qualitätsverbesserungen einführt, bleiben die grundlegenden technischen Spezifikationen mit der Version 1.0 konsistent. Das Modell unterstützt Einzelgenerierungs-Videolängen von 3 bis 15 Sekunden, mit Auflösungen von 720p oder 1080p und freien Seitenverhältnissen.

Im Folgenden sind die detaillierten technischen Parameter für die drei vom Modell unterstützten Betriebsmodi aufgeführt:

1. Bild-zu-Video-Modus (Erstes/Letztes Bild)

Dieser Modus ermöglicht es Benutzern, ein statisches Bild zu animieren, indem sie den ersten Frame angeben, mit einem optionalen Prompt zur Steuerung der Bewegung.

  • image_url (string): Die URL des ersten Frame-Bildes. Unterstützte Formate sind JPEG, JPG, PNG, BMP und WEBP. Das Bild muss eine Mindestabmessung von 300px, ein Seitenverhältnis zwischen 1:2.5 und 2.5:1 und eine maximale Dateigröße von 20 MB haben.
  • prompt (string, optional): Ein optionaler Text-Prompt zur Steuerung der Animation, mit einer maximalen Länge von 2500 Zeichen.
  • resolution (ResolutionEnum): Die Ausgabevideo-Auflösungsstufe. Der Standardwert ist "1080p", mit möglichen Enum-Werten 720p und 1080p.
  • duration (DurationEnum): Die Ausgabevideodauer in Sekunden (von 3 bis 15 Sekunden). Der Standardwert ist "5", mit möglichen Enum-Werten von 3 bis 15.

2. Referenz-zu-Video-Modus

Dieser Modus ist für Szenarien konzipiert, die eine hohe Subjektkonsistenz erfordern, und verwendet Referenzbilder, um Charakter- oder Produktdetails beizubehalten.

  • prompt (string): Ein Text-Prompt, der das gewünschte Video beschreibt. Benutzer können auf bestimmte Subjekte aus den hochgeladenen Bildern verweisen, indem sie Bezeichner wie character1, character2 bis zu character9 verwenden (die Reihenfolge muss der Reihenfolge der bereitgestellten Bild-URLs entsprechen). Die maximale Länge beträgt 2500 Zeichen.
  • image_urls (Liste von strings): Eine Liste mit 1 bis 9 Referenzbildern für die Subjektkonsistenz. Unterstützte Formate sind JPEG, JPG, PNG und WEBP. Die kürzeste Seite jedes Bildes muss mindestens 400px betragen (eine Auflösung von 720p oder höher wird empfohlen), mit einer maximalen Dateigröße von 10 MB pro Bild.
  • aspect_ratio (AspectRatioEnum): Das Seitenverhältnis des generierten Videos. Der Standardwert ist "16:9", mit möglichen Enum-Werten wie 16:9, 9:16, 1:1, 4:3, 3:4, 21:9, 9:21, 5:4 und 4:5.
  • resolution (ResolutionEnum): Die Ausgabevideo-Auflösungsstufe. Der Standardwert ist "1080p", mit möglichen Enum-Werten von 720p und 1080p.
  • duration (DurationEnum): Die Ausgabevideodauer in Sekunden (von 3 bis 15 Sekunden). Der Standardwert ist "5", mit möglichen Enum-Werten von 3 bis 15.

3. Text-zu-Bild-Modus (Text zu Video)

Dieser Modus dient dazu, kurze Videosequenzen direkt aus Textbeschreibungen zu generieren.

  • prompt (string): Ein Text-Prompt, der die gewünschte Videoszene beschreibt, mit einer maximalen Länge von 2500 Zeichen.
  • aspect_ratio (AspectRatioEnum): Das Seitenverhältnis der generierten Ausgabe. Der Standardwert ist "16:9", mit möglichen Enum-Werten wie 16:9, 9:16, 1:1, 4:3, 3:4, 21:9, 9:21, 5:4 und 4:5.
  • resolution (ResolutionEnum): Die Ausgabevideo-Auflösungsstufe. Der Standardwert ist "1080p", mit möglichen Enum-Werten von 720p und 1080p.
  • duration (DurationEnum): Die Ausgabevideodauer in Sekunden (von 3 bis 15 Sekunden). Der Standardwert ist "5", mit möglichen Enum-Werten von 3 bis 15.

Fazit und Anwendungsszenarien

Durch die Beibehaltung konsistenter technischer Spezifikationen bei gleichzeitiger Fokussierung auf wichtige Schmerzpunkte der Benutzererfahrung bietet HappyHorse 1.1 ein praktischeres Werkzeug für Content-Ersteller. Das Modell bedient weiterhin vielfältige Produktionsumgebungen, darunter Kurzfilme, E-Commerce, Markenmarketing und Game-CG. Alibaba entwickelt die Fähigkeiten des Modells weiter, um die sich wandelnden Anforderungen der digitalen Medienbranche zu unterstützen.