ChatGPT lanza su nuevo modelo de imágenes con IA

GPT Image 2 incorpora razonamiento previo al renderizado, texto legible en múltiples idiomas y soporte para crear manga e infografías.

OpenAI ha lanzado su nuevo modelo de generación de imágenes, conocido como GPT Image 2, una actualización que supone un salto técnico significativo respecto a la versión anterior. La novedad más relevante no es solo estética: el sistema incorpora una fase de razonamiento antes de ejecutar el renderizado, lo que le permite planificar la estructura visual de manera similar a como lo hacen los modelos de la serie O de la propia compañía. Según la publicación oficial de OpenAI, esta capacidad de análisis previo es lo que distingue fundamentalmente a este modelo de sus competidores actuales.

Hasta ahora, uno de los puntos más débiles de los generadores de imágenes basados en inteligencia artificial era la gestión del texto. Las letras deformadas, las frases sin sentido o los caracteres ilegibles se habían convertido en una señal casi infalible para identificar contenido sintético. GPT Image 2 aborda directamente este problema: el modelo ofrece soporte tipográfico para distintos alfabetos, incluyendo japonés, coreano y chino, y puede producir texto gramaticalmente correcto integrado en infografías, mapas históricos o diagramas científicos. Es un avance que abre posibilidades concretas para sectores como la comunicación corporativa, la educación o el diseño editorial.

Más allá del texto, el modelo demuestra capacidad para mantener la coherencia visual entre distintos encuadres y contextos. Es decir, un personaje creado en una imagen conserva sus rasgos si se le representa desde otro ángulo o en una situación diferente. OpenAI atribuye esta consistencia a una arquitectura que trabaja con razonamiento espacial complejo y perspectivas tridimensionales, todo ello accesible mediante instrucciones en lenguaje natural. Esto hace que la creación de narrativas visuales, como un cómic o un manga, sea técnicamente factible sin necesidad de conocimientos avanzados de diseño.

El modo de pensamiento: la IA que analiza antes de dibujar

Una de las funciones más llamativas del nuevo modelo es lo que OpenAI denomina modo de Pensamiento. En lugar de generar una imagen directamente a partir de un texto, el sistema analiza primero los materiales que le proporcione el usuario: presentaciones de PowerPoint, documentos estratégicos, guías de estilo corporativas. A partir de ese análisis, identifica jerarquías de información, logotipos y estilos visuales para transformar todo eso en carteles, materiales internos o contenido listo para publicar, preservando la precisión del contenido original.

Este modo tiene una contrapartida: es más lento. El modelo tarda más en responder porque realiza un proceso de análisis profundo antes de ejecutar la imagen. Existe también una versión base, más rápida, pensada para quienes necesitan resultados inmediatos con instrucciones directas. Ambas opciones conviven dentro de la misma plataforma, permitiendo al usuario elegir según sus necesidades.

Según información recogida por VentureBeat, OpenAI estuvo probando GPT Image 2 en LM Arena bajo el nombre clave «duct tape». Los primeros resultados mostraron una capacidad notable para replicar interfaces de usuario y capturas de pantalla de sitios web con un nivel de realismo muy elevado. Además, el modelo puede realizar búsquedas web en tiempo real para asegurarse de que los elementos visuales generados estén actualizados, lo que resulta especialmente útil para aplicaciones que requieren información vigente.

Tres niveles de acceso y medidas de seguridad

OpenAI ha estructurado el acceso a GPT Image 2 en tres niveles diferenciados. Los usuarios con cuenta gratuita pueden utilizar el modelo base, con capacidades estándar de generación. Los suscriptores de los planes Plus y Pro tienen acceso a las herramientas de razonamiento avanzado, búsqueda web integrada y la posibilidad de crear múltiples imágenes en una misma sesión. Por su parte, los desarrolladores que accedan a través de la API gpt-image-2 podrán generar imágenes en resolución 4K con distintas relaciones de aspecto, lo que abre la puerta a integraciones en productos y servicios de terceros.

En cuanto a los límites del modelo, la compañía ha implementado un conjunto de protocolos de seguridad que incluyen marcas de agua digitales, filtros de contenido y políticas explícitas contra el uso abusivo. Entre las restricciones previsibles está la protección de contenido con derechos de autor: generar imágenes que reproduzcan personajes de franquicias conocidas, como los de One Piece, probablemente choque con los filtros del sistema. OpenAI no ha detallado de forma exhaustiva todos los límites, pero el patrón de sus lanzamientos anteriores apunta a que habrá barreras claras en ese sentido.

El contexto en el que llega este lanzamiento es relevante. OpenAI anunció hace pocas semanas un reajuste en sus prioridades estratégicas, con una reorganización interna que afecta a varios de sus equipos. GPT Image 2 llega en medio de una competencia creciente en el segmento de generación visual, donde compañías como Midjourney, Adobe o Google también están invirtiendo de forma activa. La apuesta de OpenAI es clara: integrar la generación de imágenes dentro del ecosistema de ChatGPT, haciendo que el flujo de trabajo sea más natural y accesible para usuarios sin perfil técnico. Si el modelo cumple lo que promete en condiciones reales de uso, podría cambiar de forma significativa cómo se produce contenido visual en entornos profesionales y creativos.

El Diario Joven

ChatGPT lanza su nuevo modelo de imágenes con IA

El modo de pensamiento: la IA que analiza antes de dibujar

Tres niveles de acceso y medidas de seguridad

También te puede interesar

Florida investiga a OpenAI por su rol en un tiroteo universitario

John Ternus, el nuevo CEO de Apple desde septiembre

Nvidia roza los cinco billones de dólares en bolsa