Lanzamiento de HappyHorse 1.1: Cinco grandes mejoras de funciones y parámetros técnicos
El 22 de junio de 2026, Alibaba lanzó el modelo de generación de video HappyHorse 1.1. En comparación con la versión anterior 1.0, esta versión introduce mejoras sistemáticas en cinco dimensiones clave (expresividad dinámica, consistencia del sujeto, seguimiento de instrucciones, calidad visual y capacidades de audio), manteniendo especificaciones técnicas uniformes. Diseñado para apoyar a creadores en campos como la producción de cortometrajes, publicidad de comercio electrónico, marketing de marcas y CG de videojuegos, el modelo busca proporcionar flujos de trabajo de generación de video más fiables y controlables.

Sin necesidad de tarjeta de crédito · Vista previa instantánea
Mejoras clave de funciones
El desarrollo de HappyHorse 1.1 se centra en abordar los desafíos prácticos que enfrentan los creadores de contenido digital. La actualización introduce optimizaciones específicas para mejorar la usabilidad y la calidad final del resultado.
1. Expresividad dinámica mejorada
El renderizado de acciones en la generación de video sigue siendo un desafío común en toda la industria. Para solucionar los problemas de movimientos lentos o ritmo torpe observados en la versión 1.0, HappyHorse 1.1 incorpora un modelado de movimiento optimizado y consistencia temporal. Estas mejoras ayudan a producir secuencias de movimiento más coherentes y potentes, haciendo que las escenas con mucha acción parezcan más naturales.
2. Consistencia del sujeto mejorada
Mantener la consistencia visual entre diferentes fotogramas es crucial para reducir la "tasa de gacha" (tasa de resultados aleatorios o no utilizables) para los creadores de contenido. HappyHorse 1.1 permite la entrada simultánea de hasta nueve imágenes de referencia de personajes. Esta capacidad estabiliza los detalles de productos, elementos de marca y la relación entre personajes y entornos. También mejora la comprensión del modelo de referencias de múltiples fotogramas y N-grid, lo que ayuda a controlar el problema del "cambio de cara", especialmente en dramas con múltiples personajes, comercio en vivo y anuncios con varias personas.
3. Mejor seguimiento de instrucciones
La capacidad del modelo para interpretar indicaciones (prompts) se ha actualizado para manejar tanto estructuras descriptivas simples como complejas. Para escenas dinámicas de alta intensidad, como secuencias de acción, ahora basta con indicaciones simples para guiar el proceso de generación. Para narrativas complejas, el modelo ofrece una mayor estabilidad en la composición de la cámara, lo que permite la ejecución coherente de historias con múltiples escenas y personajes.
4. Calidad visual optimizada
Los comentarios sobre artefactos visuales como "untuosidad", "sobreagudeza" y pérdida de textura natural se han abordado en esta versión. HappyHorse 1.1 reduce estos problemas visuales, optando en su lugar por conservar detalles realistas de la piel como marcas de acné, pliegues nasolabiales y poros. Este nivel de detalle ayuda a cumplir con los estrictos requisitos de calidad visual de la publicidad profesional y las producciones de cortometrajes.
5. Capacidades de audio mejoradas
Para que la generación de voz sea más natural, ahora el modelo ajusta dinámicamente la entonación del diálogo, el ritmo, las pausas y el tono emocional según el contexto de la escena. Además, los usuarios pueden describir sonidos de fondo y audio ambiental directamente en sus indicaciones de texto para construir una experiencia auditiva más inmersiva.
Especificaciones técnicas y modos de operación
Si bien Happy Horse 1.1 introduce mejoras significativas en la calidad, sus especificaciones técnicas fundamentales se mantienen consistentes con la versión 1.0. El modelo admite duraciones de video de generación única de 3 a 15 segundos, con resoluciones de 720p o 1080p y relaciones de aspecto libres.
A continuación se presentan los parámetros técnicos detallados para los tres modos de operación compatibles con el modelo:
1. Modo Imagen a Video (Primer y Último Fotograma)
Este modo permite animar una imagen estática especificando el fotograma inicial, con un indicación opcional para guiar el movimiento.
image_url(cadena): La URL de la imagen del primer fotograma. Los formatos compatibles incluyen JPEG, JPG, PNG, BMP y WEBP. La imagen debe tener una dimensión mínima de 300px, una relación de aspecto entre 1:2.5 y 2.5:1, y un tamaño máximo de archivo de 20 MB.prompt(cadena, opcional): Una indicación de texto opcional para guiar la animación, con un límite máximo de 2500 caracteres.resolution(ResolutionEnum): El nivel de resolución del video de salida. El valor predeterminado es "1080p", con posibles valores de enumeración720py1080p.duration(DurationEnum): La duración del video de salida en segundos (de 3 a 15 segundos). El valor predeterminado es "5", con posibles valores de enumeración de3a15.
2. Modo Referencia a Video
Este modo está diseñado para escenarios que requieren una alta consistencia del sujeto, utilizando imágenes de referencia para mantener los detalles del personaje o producto.
prompt(cadena): Una indicación de texto que describe el video deseado. Los usuarios pueden hacer referencia a sujetos específicos de las imágenes cargadas usando identificadores comocharacter1,character2, hastacharacter9(el orden debe corresponder al orden de las URL de imagen proporcionadas). El límite máximo es de 2500 caracteres.image_urls(lista de cadenas): Una lista que contiene de 1 a 9 imágenes de referencia para la consistencia del sujeto. Los formatos compatibles incluyen JPEG, JPG, PNG y WEBP. El lado más corto de cada imagen debe tener al menos 400px (se recomienda una resolución de 720p o superior), con un tamaño máximo de archivo de 10 MB por imagen.aspect_ratio(AspectRatioEnum): La relación de aspecto del video generado. El valor predeterminado es "16:9", con posibles valores de enumeración que incluyen16:9,9:16,1:1,4:3,3:4,21:9,9:21,5:4y4:5.resolution(ResolutionEnum): El nivel de resolución del video de salida. El valor predeterminado es "1080p", con posibles valores de enumeración720py1080p.duration(DurationEnum): La duración del video de salida en segundos (de 3 a 15 segundos). El valor predeterminado es "5", con posibles valores de enumeración de3a15.
3. Modo Texto a Imagen
Este modo funciona para generar secuencias de video cortas directamente a partir de descripciones de texto.
prompt(cadena): Una indicación de texto que describe la escena de video deseada, con un límite máximo de 2500 caracteres.aspect_ratio(AspectRatioEnum): La relación de aspecto del resultado generado. El valor predeterminado es "16:9", con posibles valores de enumeración que incluyen16:9,9:16,1:1,4:3,3:4,21:9,9:21,5:4y4:5.resolution(ResolutionEnum): El nivel de resolución del video de salida. El valor predeterminado es "1080p", con posibles valores de enumeración720py1080p.duration(DurationEnum): La duración del video de salida en segundos (de 3 a 15 segundos). El valor predeterminado es "5", con posibles valores de enumeración de3a15.
Conclusión y escenarios de aplicación
Al mantener especificaciones técnicas consistentes y centrarse en los puntos débiles clave de la experiencia del usuario, HappyHorse 1.1 ofrece una herramienta más práctica para los creadores de contenido. El modelo continúa sirviendo en diversos entornos de producción, incluidos cortometrajes, comercio electrónico, marketing de marcas y CG de videojuegos. Alibaba sigue iterando sobre las capacidades del modelo para satisfacer las necesidades cambiantes de la industria de medios digitales.
