ERNIE-Image: Modelo de texto a imagen de alta calidad de Baidu

Explore ERNIE-Image, un modelo de código abierto de 8B parámetros de Baidu. Ofrece renderizado de texto multilingüe preciso y seguimiento de instrucciones complejas para la creación visual estructurada.

Turbo
Standard
0/2000
Número de Salidas
1
2
3
4
0/500

Características clave de ERNIE-Image

Arquitectura DiT de 8B parámetros eficiente

ERNIE-Image utiliza un Transformador de Difusión (DiT) de 8 mil millones de parámetros. Funciona sin problemas en GPU de consumo con 24GB de VRAM, como la NVIDIA RTX 4090. Este requisito de hardware moderado hace que la generación de imágenes de alta calidad sea accesible para creadores individuales sin necesidad de infraestructura de servidor a nivel empresarial.

    Renderizado de texto multilingüe preciso

    A diferencia de los generadores estándar, ERNIE-Image entiende y renderiza texto con precisión de forma nativa en inglés, chino y japonés. Maneja párrafos densos y tipografía sensible al diseño de manera efectiva. Esta capacidad produce texto legible dentro de las imágenes, abordando problemas comunes de desenfoque o caracteres mal escritos encontrados en muchos otros modelos de código abierto.

      Seguimiento fuerte de instrucciones complejas

      ERNIE-Image gestiona con precisión múltiples sujetos, relaciones espaciales y requisitos detallados. Logra puntuaciones altamente competitivas en benchmarks de la industria, registrando 0.8856 en 'GenEval' y 0.9733 en 'LongTextBench'. Los usuarios pueden describir escenas detalladas precisas, resultando en salidas que se ajustan estrechamente a las instrucciones dadas.

        Generación de imágenes estructuradas especializada

        Diseñado para diseños claros y estructuras narrativas, ERNIE-Image funciona excepcionalmente bien en carteles, viñetas de cómic e imágenes de múltiples paneles. Mantiene transiciones lógicas de escena y jerarquía visual consistente entre elementos, haciéndolo altamente práctico para flujos de trabajo de diseño de información profesional.

          Módulo Mejorador de Indicaciones integrado

          El Mejorador de Indicaciones integrado de 3B parámetros expande automáticamente las entradas cortas del usuario en descripciones detalladas y bien estructuradas. Esta característica cierra la brecha entre ideas simples y salidas visuales profesionales, ayudando a los usuarios a lograr resultados de alta fidelidad sin necesidad de dominar la ingeniería compleja de indicaciones.

            Inferencia rápida ERNIE-Image-Turbo

            La variante Turbo aplica DMD (Destilación de Coincidencia de Distribución) y optimizaciones de aprendizaje por refuerzo para producir salidas de alta calidad usando solo 8 pasos de inferencia. Esto ofrece un equilibrio práctico entre velocidad de generación y calidad visual en comparación con los 50 pasos típicamente requeridos por el modelo estándar.

              Escenarios de aplicación para ERNIE-Image

              ERNIE-Image es adecuado para tareas creativas y profesionales que requieren renderizado de texto preciso y salida visual estructurada.

              Carteles comerciales y publicidad

              Genere visuales de marketing y anuncios listos para producción con texto promocional legible integrado directamente en la composición de la imagen.

              Storyboarding de cómic y manga

              Cree páginas de anime cohesivas y storyboards narrativos con acciones de personajes consistentes utilizando las capacidades de diseño estructurado de ERNIE-Image.

              Contenido para redes sociales

              Diseñe publicaciones de múltiples paneles y visuales verticales atractivas optimizadas para plataformas visuales como Instagram y Xiaohongshu.

              Diseño de información y maquetas de UI

              Dibuje diseños de páginas web e interfaces de usuario que incorporen nativamente información textual estructurada para presentaciones de diseño claras.

              Visualización de productos de comercio electrónico

              Produzca escenas de estilo de vida e imágenes de detalle de productos adaptadas a estéticas de marca específicas y proporciones de aspecto personalizadas.

              Arte conceptual e ilustración

              Desarrolle ilustraciones artísticas, conceptos cinematográficos y mood boards con control detallado sobre iluminación y composición.

              Cómo generar imágenes con ERNIE-Image

              Paso 1

              Introduzca su indicación de texto

              Describa la imagen que desea utilizando lenguaje natural. ERNIE-Image admite instrucciones detalladas en inglés, chino y japonés para resultados óptimos.

              Paso 2

              Personalice configuraciones avanzadas

              Para obtener los mejores resultados, seleccione una relación de aspecto óptima, como 16:9, 4:3, 3:1 o 21:9. Luego, elija entre el modelo Estándar (calidad superior) o el modelo Turbo (velocidad más rápida).

              Paso 3

              Genere y descargue

              Haga clic para generar la imagen. ERNIE-Image procesará su indicación y entregará un visual de alta fidelidad que puede revisar y guardar directamente en su dispositivo.

              Preguntas frecuentes sobre ERNIE-Image