HappyHorse 1.1 Rilasciata: Cinque Grandi Aggiornamenti e Parametri Tecnici
Il 22 giugno 2026, Alibaba ha rilasciato il modello di generazione video HappyHorse 1.1. Rispetto alla versione 1.0 precedente, questa release introduce miglioramenti sistematici su cinque dimensioni chiave (espressività dinamica, coerenza del soggetto, seguimento delle istruzioni, qualità visiva e capacità audio), mantenendo al contempo specifiche tecniche coerenti. Progettato per supportare creatori in settori come la produzione di cortometraggi drammatici, la pubblicità e-commerce, il marketing di marca e la CG per videogiochi, il modello mira a fornire flussi di lavoro di generazione video più affidabili e controllabili.

Nessuna carta di credito richiesta · Anteprima istantanea
Principali Aggiornamenti delle Funzionalità
Lo sviluppo di HappyHorse 1.1 si concentra sulla risoluzione delle sfide pratiche affrontate dai creatori di contenuti digitali. L'aggiornamento introduce ottimizzazioni mirate per migliorare l'usabilità e la qualità finale dell'output.
1. Espressività Dinamica Migliorata
Il rendering delle azioni nella generazione video rimane una sfida comune in tutto il settore. Per risolvere i problemi di movimenti lenti o ritmi goffi osservati nella versione 1.0, HappyHorse 1.1 presenta una modellazione del movimento ottimizzata e una coerenza temporale migliorata. Questi miglioramenti aiutano a produrre sequenze di movimento più coerenti e potenti, rendendo le scene ricche di azione più naturali.
2. Coerenza del Soggetto Migliorata
Mantenere la coerenza visiva tra diversi fotogrammi è cruciale per ridurre il "tasso di gacha" (il tasso di output casuali o inutilizzabili) per i creatori di contenuti. HappyHorse 1.1 supporta l'inserimento simultaneo fino a nove immagini di riferimento del personaggio. Questa capacità stabilizza i dettagli di prodotti, elementi del marchio e la relazione tra personaggi e ambienti. Migliora anche la comprensione del modello di riferimenti multi-fotogramma e N-griglia, aiutando a controllare il problema del "cambio volto", particolarmente in drammi multi-personaggio, live commerce e pubblicità con più persone.
3. Migliore Seguimento delle Istruzioni
La capacità del modello di interpretare i prompt è stata aggiornata per gestire strutture descrittive sia semplici che complesse. Per scene dinamiche ad alta intensità, come sequenze d'azione, ora sono sufficienti prompt semplici per guidare il processo di generazione. Per narrazioni complesse, il modello offre una maggiore stabilità della composizione della telecamera, consentendo l'esecuzione coerente di storie multi-scena e multi-personaggio.
4. Qualità Visiva Ottimizzata
Il feedback riguardante artefatti visivi come "oleosità", "eccessiva nitidezza" e perdita di texture naturale è stato affrontato in questa release. HappyHorse 1.1 riduce questi problemi visivi, preferendo invece preservare dettagli cutanei realistici come segni di acne, pieghe nasolabiali e pori. Questo livello di dettaglio aiuta a soddisfare le rigorose esigenze di qualità visiva della pubblicità professionale e della produzione di cortometraggi drammatici.
5. Capacità Audio Aggiornate
Per rendere la generazione vocale più naturale, il modello ora adatta dinamicamente l'eloquio, il ritmo, le pause e il tono emotivo in base al contesto della scena. Inoltre, gli utenti possono descrivere suoni di fondo e audio ambientale direttamente nei loro prompt testuali per creare un'esperienza uditiva più immersiva.
Specifiche Tecniche e Modalità Operative
Mentre Happy Horse 1.1 introduce significativi aggiornamenti di qualità, le sue specifiche tecniche di base rimangono coerenti con la versione 1.0. Il modello supporta lunghezze video di singola generazione da 3 a 15 secondi, con risoluzioni di 720p o 1080p e rapporti d'aspetto liberi.
Di seguito i parametri tecnici dettagliati per le tre modalità operative supportate dal modello:
1. Modalità Immagine in Video (Primo e Ultimo Fotogramma)
Questa modalità consente agli utenti di animare un'immagine statica specificando il fotogramma iniziale, con un prompt opzionale per guidare il movimento.
image_url(stringa): L'URL dell'immagine del primo fotogramma. I formati supportati includono JPEG, JPG, PNG, BMP e WEBP. L'immagine deve avere una dimensione minima di 300px, un rapporto d'aspetto compreso tra 1:2,5 e 2,5:1 e una dimensione massima del file di 20 MB.prompt(stringa, opzionale): Un prompt testuale opzionale per guidare l'animazione, con un limite massimo di 2500 caratteri.resolution(ResolutionEnum): Il livello di risoluzione del video di output. Il valore predefinito è "1080p", con possibili valori enumerati720pe1080p.duration(DurationEnum): La durata del video di output in secondi (da 3 a 15 secondi). Il valore predefinito è "5", con possibili valori enumerati da3a15.
2. Modalità Riferimento in Video
Questa modalità è progettata per scenari che richiedono un'elevata coerenza del soggetto, utilizzando immagini di riferimento per mantenere i dettagli del personaggio o del prodotto.
prompt(stringa): Un prompt testuale che descrive il video desiderato. Gli utenti possono fare riferimento a soggetti specifici dalle immagini caricate utilizzando identificatori comecharacter1,character2, fino acharacter9(l'ordine deve corrispondere all'ordine degli URL delle immagini fornite). Il limite massimo è di 2500 caratteri.image_urls(elenco di stringhe): Un elenco contenente da 1 a 9 immagini di riferimento per la coerenza del soggetto. I formati supportati includono JPEG, JPG, PNG e WEBP. Il lato più corto di ciascuna immagine deve essere di almeno 400px (si consiglia una risoluzione di 720p o superiore), con una dimensione massima del file di 10 MB per immagine.aspect_ratio(AspectRatioEnum): Il rapporto d'aspetto del video generato. Il valore predefinito è "16:9", con possibili valori enumerati tra cui16:9,9:16,1:1,4:3,3:4,21:9,9:21,5:4e4:5.resolution(ResolutionEnum): Il livello di risoluzione del video di output. Il valore predefinito è "1080p", con possibili valori enumerati720pe1080p.duration(DurationEnum): La durata del video di output in secondi (da 3 a 15 secondi). Il valore predefinito è "5", con possibili valori enumerati da3a15.
3. Modalità Testo in Immagine
Questa modalità funziona per generare brevi sequenze video direttamente da descrizioni testuali.
prompt(stringa): Un prompt testuale che descrive la scena video desiderata, con un limite massimo di 2500 caratteri.aspect_ratio(AspectRatioEnum): Il rapporto d'aspetto dell'output generato. Il valore predefinito è "16:9", con possibili valori enumerati tra cui16:9,9:16,1:1,4:3,3:4,21:9,9:21,5:4e4:5.resolution(ResolutionEnum): Il livello di risoluzione del video di output. Il valore predefinito è "1080p", con possibili valori enumerati720pe1080p.duration(DurationEnum): La durata del video di output in secondi (da 3 a 15 secondi). Il valore predefinito è "5", con possibili valori enumerati da3a15.
Conclusione e Scenari Applicativi
Mantenendo specifiche tecniche coerenti e concentrandosi sui punti critici chiave dell'esperienza utente, HappyHorse 1.1 offre uno strumento più pratico per i creatori di contenuti. Il modello continua a servire diversi ambienti di produzione, tra cui cortometraggi drammatici, e-commerce, marketing di marca e CG per videogiochi. Alibaba continua a iterare sulle capacità del modello per supportare le esigenze in evoluzione del settore dei media digitali.
