Protegido: Curso Completo de Veo 3

En vez de solo describir una imagen, haz que ChatGPT-4o cree primero un “perfil” detallado en JSON. Luego, puedes alimentar ese JSON de vuelta a la IA con un solo comando de edición (por ejemplo, “cambiar el fondo a montañas”). La IA conservará todos los demás detalles a la perfección: sujeto, pose, iluminación, estilo, dándote una consistencia y control increíbles.

Como muchos de ustedes, me ha frustrado la falta de consistencia en la generación de imágenes con IA. Obtienes el personaje perfecto, pero en el momento en que intentas ponerlo en una nueva escena, su cara, ropa y vibra cambian por completo.

He encontrado un truco mágico que soluciona esto, y funciona dándole a la IA datos estructurados en lugar de solo una “sopa de palabras”. Lo llamo el Remix JSON.

La Idea Central: Plano > Descripción

En lugar de solo usar lenguaje natural como prompt, primero le pides a la IA que analice una imagen y cree un perfil de contexto JSON detallado. Esto es básicamente un “plano” altamente estructurado de la imagen, que captura todo, desde la pose y la ropa del sujeto hasta la temperatura de la iluminación y el ángulo de la cámara.

Cuando alimentas este plano de vuelta a la IA con una simple solicitud de edición, sabe exactamente qué mantener y qué cambiar.

Aquí hay un ejemplo real de cómo lo usé:

Comencé con una idea: una persona con una chaqueta roja en un muelle al atardecer. Generé una imagen que me gustó.
Subí esa imagen a ChatGPT-4o y le pedí que creara un perfil JSON de ella.
Luego, comencé un nuevo prompt, pegué el código JSON completo y agregué una simple instrucción al principio: “Mantén todo exactamente igual pero cambia el fondo del océano a una cordillera con picos nevados.”

El resultado fue impresionante. La IA produjo una imagen de la misma persona, con la misma chaqueta roja y pose, con la misma iluminación de hora dorada y estilo fotorrealista. Lo único que cambió fue el entorno. El sereno océano se había ido, reemplazado por una majestuosa cordillera nevada. Ya no hay que pelear con la IA para mantener a mi sujeto consistente, simplemente funcionó.

Cómo puedes hacerlo en dos pasos

Genera el Plano: Sube una imagen a ChatGPT-4o (o tu modelo de imagen preferido) con un prompt para crear su perfil.
Remix la Escena: Copia el código JSON que te da. Pégalo en un nuevo prompt y agrega tu solicitud de cambio al principio (por ejemplo, “cambiar el día a la noche”, “hacer que el sujeto sonría”, “cambiar el coche de rojo a azul”).

PRO-TIP: El Prompt Definitivo para el Máximo Detalle

Rápidamente me di cuenta de que podía obtener aún más control diciéndole a la IA exactamente cómo estructurar el JSON. Le pedí a ChatGPT que actuara como ingeniero de prompts y mejorara su propio proceso. Este es el prompt que se le ocurrió, y es un cambio de juego para capturar detalles increíbles.

Copia y pega esto en ChatGPT con tu imagen:

Crea un perfil de contexto JSON avanzado y profundamente detallado para esta imagen.

Este JSON debe estar estructurado para capturar todos los datos visuales, espaciales, semánticos y atmosféricos interpretables, adecuados para la manipulación o reconstrucción de imágenes de alta fidelidad. Tu objetivo es generar una representación legible por máquina que encapsule toda la escena con matices, jerarquía y precisión.

Incluye lo siguiente en la salida JSON:

1. **objetos**: Enumera cada objeto identificable. Para cada uno, incluye su etiqueta, descripción (color, textura, material), posición, tamaño relativo y relaciones con otros objetos.
2. **entorno**: Describe el escenario, la hora del día, la iluminación (fuente, dirección, color), el clima y el fondo.
3. **personas** (si las hay): Detalla la edad/género estimado de cada persona, expresión, pose, ropa y actividad.
4. **composición**: Observa el ángulo de la cámara, el encuadre, la profundidad focal, el equilibrio visual y la paleta de colores.
5. **simbolismo_e_historia**: Describe cualquier narrativa implícita, señales emocionales o elementos simbólicos.
6. **metadatos**: Infiere el estilo de la imagen (por ejemplo, foto, ilustración) e influencias artísticas potenciales.

Genera el JSON como un único objeto estructurado. Prioriza la precisión y la profundidad para servir como un plano integral para modelos generativos, asegurando que todos los datos posicionales y compositivos se puedan preservar durante los intercambios de objetos o entornos.

Esta técnica es increíble para:

Contar historias: Crear storyboards con el mismo personaje en diferentes lugares.
Marca: Asegurar que los activos de la marca y las mascotas se vean idénticos en todo el contenido de marketing.
Visualización de productos: Mostrar un producto en varios entornos sin volver a filmar.
Controladores compulsivos (como yo): Finalmente obtener la precisión que siempre hemos querido de la IA.

¡Pruébalo! Tengo curiosidad por ver qué otros “remixes” se les ocurren a todos.