ERNIE-Image:百度的高质量文本到图像模型
探索 ERNIE-Image,百度开源的一个 8B 参数模型。它提供精确的多语言文本渲染和复杂指令跟随,用于结构化视觉创作。
高效的 8B 参数 DiT 架构
ERNIE-Image 使用一个 80 亿参数的扩散变换器(DiT)。它在消费级 GPU 上运行流畅,需要 24GB 显存,例如 NVIDIA RTX 4090。这种适中的硬件要求使得高质量图像生成对个人创作者来说变得可及,无需企业级服务器基础设施。
精确的多语言文本渲染
与标准生成器不同,ERNIE-Image 原生理解并准确渲染英语、中文和日语的文本。它能有效处理密集段落和布局敏感的排版。这种能力在图像中生成可读文本,解决了许多其他开源模型中常见的模糊或拼写错误问题。
强大的复杂指令跟随
ERNIE-Image 准确管理多个主题、空间关系和细粒度要求。它在行业基准测试中取得高度竞争力的分数,在 'GenEval' 上记录为 0.8856,在 'LongTextBench' 上为 0.9733。用户可以描述精确详细的场景,从而产出与给定指令紧密匹配的输出。
专业结构化图像生成
设计用于清晰布局和叙事结构,ERNIE-Image 在海报、漫画面板和多面板图像上表现卓越。它保持逻辑场景过渡和跨元素一致的视觉层次,使其对专业信息设计工作流程高度实用。
内置提示增强器模块
集成的 30 亿参数提示增强器自动将简短用户输入扩展为详细、结构良好的描述。这个特性弥合了简单想法和专业视觉输出之间的差距,帮助用户实现高保真结果,无需掌握复杂的提示工程。
ERNIE-Image-Turbo 快速推理
Turbo 变体应用 DMD(分布匹配蒸馏)和强化学习优化,仅使用 8 个推理步骤生成高质量输出。与标准模型通常需要的 50 步相比,这在生成速度和视觉质量之间提供了实用的平衡。
商业海报与广告
生成可直接用于生产的营销视觉和广告,其中可读的促销文本直接集成到图像构图中。
漫画与动漫故事板
使用 ERNIE-Image 的结构化布局能力创建连贯的动漫页面和叙事故事板,角色动作一致。
社交媒体内容
设计多面板帖子和吸引人的垂直视觉,优化用于像 Instagram 和小红书这样的视觉平台。
信息设计与用户界面模型
草拟网页布局和用户界面,原生整合结构化文本信息,用于清晰的设计展示。
电子商务产品可视化
制作生活方式场景和产品细节图像,定制用于特定品牌美学和自定义宽高比。
概念艺术与插图
开发艺术插图、电影概念和情绪板,对灯光和构图有详细控制。
