HappyHorse 1.1 リリース:5つの主要機能アップグレードと技術パラメータ
2026年6月22日、AlibabaはHappyHorse 1.1動画生成モデルをリリースしました。前バージョン1.0と比較して、本リリースでは5つの主要な側面(ダイナミック表現力、被写体の一貫性、指示追従、画質、オーディオ機能)において体系的な強化が施され、技術仕様は一貫性を保っています。ショートドラマ制作、EC広告、ブランドマーケティング、ゲームCGなどの分野のクリエイターをサポートするために設計され、より信頼性が高く制御可能な動画生成ワークフローを提供することを目指しています。

クレジットカード不要・即時プレビュー
主な機能アップグレード
HappyHorse 1.1の開発は、デジタルコンテンツクリエイターが直面する実際的な課題に焦点を当てています。本アップグレードでは、使いやすさと最終出力品質を向上させるためのターゲットを絞った最適化が導入されています。
1. ダイナミック表現力の強化
動画生成におけるアクションレンダリングは、業界全体で依然として共通の課題です。1.0バージョンで観察された動きの鈍さやぎこちないテンポの問題に対処するため、HappyHorse 1.1では最適化されたモーションモデリングと時間的一貫性を特徴としています。これらの改善により、より一貫性があり力強い動きのシーケンスが生成され、アクションの多いシーンがより自然に見えるようになります。
2. 被写体の一貫性の向上
異なるフレーム間で視覚的な一貫性を維持することは、コンテンツクリエイターにとって「ガチャ率」(ランダム化された、または使用できない出力の割合)を低減するために極めて重要です。HappyHorse 1.1では、最大9枚のキャラクター参照画像を同時に入力できます。この機能により、製品やブランド要素のディテール、キャラクターと環境の関係性が安定します。また、マルチフレームやNグリッド参照に対するモデルの理解も向上し、特に複数キャラクターのドラマ、ライブコマース、複数人の広告における「顔変わりの問題」を抑制するのに役立ちます。
3. 指示追従の向上
プロンプトを解釈するモデルの能力がアップグレードされ、単純な記述構造と複雑な記述構造の両方を処理できるようになりました。アクションシーケンスなどの高強度ダイナミックシーンの場合、単純なプロンプトでも生成プロセスを導くのに十分です。複雑なナラティブの場合、モデルはより強力なカメラ構図の安定性を提供し、複数シーンや複数キャラクターのストーリーを一貫して実行できるようにします。
4. 画質の最適化
「脂っぽさ」、「過度なシャープネス」、自然なテクスチャの喪失などの視覚的アーティファクトに関するフィードバックは、本リリースで対処されました。HappyHorse 1.1はこれらの視覚的問題を軽減し、代わりに毛穴、ほうれい線、ニキビ跡などのリアルな肌のディテールを保持します。このレベルのディテールは、プロフェッショナルな広告やショートドラマ制作の厳しい画質要求を満たすのに役立ちます。
5. オーディオ機能のアップグレード
音声生成をより自然にするために、モデルはシーンのコンテキストに基づいて、セリフの言い回し、テンポ、間、感情的なトーンを動的に調整するようになりました。さらに、ユーザーはテキストプロンプト内で背景音や環境音を直接記述して、より没入感のある聴覚体験を構築できます。
技術仕様と動作モード
Happy Horse 1.1は大幅な品質アップグレードを導入していますが、その基本技術仕様は1.0バージョンと一貫しています。モデルは単回生成で3秒から15秒までの動画長、720pまたは1080pの解像度、自由なアスペクト比をサポートしています。
以下は、モデルがサポートする3つの動作モードの詳細な技術パラメータです。
1. 画像から動画へ(最初と最後のフレーム)モード
このモードでは、最初のフレームを指定し、オプションのプロンプトで動きをガイドすることで、静止画像をアニメーション化できます。
image_url(string): 最初のフレーム画像のURL。サポートされる形式は、JPEG、JPG、PNG、BMP、WEBPです。画像は最小寸法300px、アスペクト比1:2.5〜2.5:1、最大ファイルサイズ20MBである必要があります。prompt(string、optional): アニメーションをガイドするオプションのテキストプロンプト。最大2500文字まで。resolution(ResolutionEnum): 出力動画の解像度の階層。デフォルト値は「1080p」、使用可能なenum値は720pと1080p。duration(DurationEnum): 出力動画の長さ(秒)。3〜15秒の範囲。デフォルト値は「5」、使用可能なenum値は3から15。
2. 参照画像から動画へモード
このモードは、高い被写体の一貫性が必要なシナリオ向けに設計されており、参照画像を使用してキャラクターや製品のディテールを維持します。
prompt(string): 目的の動画を説明するテキストプロンプト。ユーザーはアップロードされた画像から特定の被写体を参照するために、character1、character2、最大character9のような識別子を使用できます(順序は提供された画像URLの順序に対応している必要があります)。最大2500文字。image_urls(list of strings): 被写体の一貫性のための1〜9枚の参照画像を含むリスト。サポートされる形式はJPEG、JPG、PNG、WEBP。各画像の最短辺は少なくとも400px(720p以上の解像度推奨)、最大ファイルサイズは1画像あたり10MB。aspect_ratio(AspectRatioEnum): 生成動画のアスペクト比。デフォルト値は「16:9」、使用可能なenum値は16:9、9:16、1:1、4:3、3:4、21:9、9:21、5:4、4:5。resolution(ResolutionEnum): 出力動画の解像度の階層。デフォルト値は「1080p」、使用可能なenum値は720pと1080p。duration(DurationEnum): 出力動画の長さ(秒)。3〜15秒の範囲。デフォルト値は「5」、使用可能なenum値は3から15。
3. テキストから画像へモード
このモードは、テキスト記述から直接短い動画シーケンスを生成する機能を持ちます。
prompt(string): 目的の動画シーンを説明するテキストプロンプト。最大2500文字。aspect_ratio(AspectRatioEnum): 生成出力のアスペクト比。デフォルト値は「16:9」、使用可能なenum値は16:9、9:16、1:1、4:3、3:4、21:9、9:21、5:4、4:5。resolution(ResolutionEnum): 出力動画の解像度の階層。デフォルト値は「1080p」、使用可能なenum値は720pと1080p。duration(DurationEnum): 出力動画の長さ(秒)。3〜15秒の範囲。デフォルト値は「5」、使用可能なenum値は3から15。
結論とアプリケーションシナリオ
技術仕様を一貫して維持しながら、主要なユーザーエクスペリエンスの痛点に焦点を当てることにより、HappyHorse 1.1はコンテンツクリエイターにとってより実用的なツールを提供します。このモデルは、ショートドラマ、EC、ブランドマーケティング、ゲームCGなど、多様な制作環境に引き続き対応します。Alibabaは、デジタルメディア業界の進化するニーズをサポートするために、モデルの機能を継続的に改善しています。
