Lanzamiento de HappyHorse 1.1: Cinco grandes mejoras de funciones y parámetros técnicos

El 22 de junio de 2026, Alibaba lanzó el modelo de generación de video HappyHorse 1.1. En comparación con la versión anterior 1.0, esta versión introduce mejoras sistemáticas en cinco dimensiones clave (expresividad dinámica, consistencia del sujeto, seguimiento de instrucciones, calidad visual y capacidades de audio), manteniendo especificaciones técnicas uniformes. Diseñado para apoyar a creadores en campos como la producción de cortometrajes, publicidad de comercio electrónico, marketing de marcas y CG de videojuegos, el modelo busca proporcionar flujos de trabajo de generación de video más fiables y controlables.

Modelo de video HappyHorse 1.1 fue lanzado el 22 de junio de 2026

✨ Prueba HappyHorse 1.1 gratis ahora

Sin necesidad de tarjeta de crédito · Vista previa instantánea

Mejoras clave de funciones

El desarrollo de HappyHorse 1.1 se centra en abordar los desafíos prácticos que enfrentan los creadores de contenido digital. La actualización introduce optimizaciones específicas para mejorar la usabilidad y la calidad final del resultado.

1. Expresividad dinámica mejorada

El renderizado de acciones en la generación de video sigue siendo un desafío común en toda la industria. Para solucionar los problemas de movimientos lentos o ritmo torpe observados en la versión 1.0, HappyHorse 1.1 incorpora un modelado de movimiento optimizado y consistencia temporal. Estas mejoras ayudan a producir secuencias de movimiento más coherentes y potentes, haciendo que las escenas con mucha acción parezcan más naturales.

2. Consistencia del sujeto mejorada

Mantener la consistencia visual entre diferentes fotogramas es crucial para reducir la "tasa de gacha" (tasa de resultados aleatorios o no utilizables) para los creadores de contenido. HappyHorse 1.1 permite la entrada simultánea de hasta nueve imágenes de referencia de personajes. Esta capacidad estabiliza los detalles de productos, elementos de marca y la relación entre personajes y entornos. También mejora la comprensión del modelo de referencias de múltiples fotogramas y N-grid, lo que ayuda a controlar el problema del "cambio de cara", especialmente en dramas con múltiples personajes, comercio en vivo y anuncios con varias personas.

3. Mejor seguimiento de instrucciones

La capacidad del modelo para interpretar indicaciones (prompts) se ha actualizado para manejar tanto estructuras descriptivas simples como complejas. Para escenas dinámicas de alta intensidad, como secuencias de acción, ahora basta con indicaciones simples para guiar el proceso de generación. Para narrativas complejas, el modelo ofrece una mayor estabilidad en la composición de la cámara, lo que permite la ejecución coherente de historias con múltiples escenas y personajes.

4. Calidad visual optimizada

Los comentarios sobre artefactos visuales como "untuosidad", "sobreagudeza" y pérdida de textura natural se han abordado en esta versión. HappyHorse 1.1 reduce estos problemas visuales, optando en su lugar por conservar detalles realistas de la piel como marcas de acné, pliegues nasolabiales y poros. Este nivel de detalle ayuda a cumplir con los estrictos requisitos de calidad visual de la publicidad profesional y las producciones de cortometrajes.

5. Capacidades de audio mejoradas

Para que la generación de voz sea más natural, ahora el modelo ajusta dinámicamente la entonación del diálogo, el ritmo, las pausas y el tono emocional según el contexto de la escena. Además, los usuarios pueden describir sonidos de fondo y audio ambiental directamente en sus indicaciones de texto para construir una experiencia auditiva más inmersiva.

Especificaciones técnicas y modos de operación

Si bien Happy Horse 1.1 introduce mejoras significativas en la calidad, sus especificaciones técnicas fundamentales se mantienen consistentes con la versión 1.0. El modelo admite duraciones de video de generación única de 3 a 15 segundos, con resoluciones de 720p o 1080p y relaciones de aspecto libres.

A continuación se presentan los parámetros técnicos detallados para los tres modos de operación compatibles con el modelo:

1. Modo Imagen a Video (Primer y Último Fotograma)

Este modo permite animar una imagen estática especificando el fotograma inicial, con un indicación opcional para guiar el movimiento.

  • image_url (cadena): La URL de la imagen del primer fotograma. Los formatos compatibles incluyen JPEG, JPG, PNG, BMP y WEBP. La imagen debe tener una dimensión mínima de 300px, una relación de aspecto entre 1:2.5 y 2.5:1, y un tamaño máximo de archivo de 20 MB.
  • prompt (cadena, opcional): Una indicación de texto opcional para guiar la animación, con un límite máximo de 2500 caracteres.
  • resolution (ResolutionEnum): El nivel de resolución del video de salida. El valor predeterminado es "1080p", con posibles valores de enumeración 720p y 1080p.
  • duration (DurationEnum): La duración del video de salida en segundos (de 3 a 15 segundos). El valor predeterminado es "5", con posibles valores de enumeración de 3 a 15.

2. Modo Referencia a Video

Este modo está diseñado para escenarios que requieren una alta consistencia del sujeto, utilizando imágenes de referencia para mantener los detalles del personaje o producto.

  • prompt (cadena): Una indicación de texto que describe el video deseado. Los usuarios pueden hacer referencia a sujetos específicos de las imágenes cargadas usando identificadores como character1, character2, hasta character9 (el orden debe corresponder al orden de las URL de imagen proporcionadas). El límite máximo es de 2500 caracteres.
  • image_urls (lista de cadenas): Una lista que contiene de 1 a 9 imágenes de referencia para la consistencia del sujeto. Los formatos compatibles incluyen JPEG, JPG, PNG y WEBP. El lado más corto de cada imagen debe tener al menos 400px (se recomienda una resolución de 720p o superior), con un tamaño máximo de archivo de 10 MB por imagen.
  • aspect_ratio (AspectRatioEnum): La relación de aspecto del video generado. El valor predeterminado es "16:9", con posibles valores de enumeración que incluyen 16:9, 9:16, 1:1, 4:3, 3:4, 21:9, 9:21, 5:4 y 4:5.
  • resolution (ResolutionEnum): El nivel de resolución del video de salida. El valor predeterminado es "1080p", con posibles valores de enumeración 720p y 1080p.
  • duration (DurationEnum): La duración del video de salida en segundos (de 3 a 15 segundos). El valor predeterminado es "5", con posibles valores de enumeración de 3 a 15.

3. Modo Texto a Imagen

Este modo funciona para generar secuencias de video cortas directamente a partir de descripciones de texto.

  • prompt (cadena): Una indicación de texto que describe la escena de video deseada, con un límite máximo de 2500 caracteres.
  • aspect_ratio (AspectRatioEnum): La relación de aspecto del resultado generado. El valor predeterminado es "16:9", con posibles valores de enumeración que incluyen 16:9, 9:16, 1:1, 4:3, 3:4, 21:9, 9:21, 5:4 y 4:5.
  • resolution (ResolutionEnum): El nivel de resolución del video de salida. El valor predeterminado es "1080p", con posibles valores de enumeración 720p y 1080p.
  • duration (DurationEnum): La duración del video de salida en segundos (de 3 a 15 segundos). El valor predeterminado es "5", con posibles valores de enumeración de 3 a 15.

Conclusión y escenarios de aplicación

Al mantener especificaciones técnicas consistentes y centrarse en los puntos débiles clave de la experiencia del usuario, HappyHorse 1.1 ofrece una herramienta más práctica para los creadores de contenido. El modelo continúa sirviendo en diversos entornos de producción, incluidos cortometrajes, comercio electrónico, marketing de marcas y CG de videojuegos. Alibaba sigue iterando sobre las capacidades del modelo para satisfacer las necesidades cambiantes de la industria de medios digitales.