OpenAI y Google comparten por primera vez el primer puesto en el ranking de inteligencia de Artificial Analysis, la plataforma independiente que evalúa más de cien modelos de IA bajo las mismas condiciones. GPT-5.4, lanzado el 5 de marzo de 2026, y Gemini 3.1 Pro Preview, disponible desde el 19 de febrero, obtienen la misma puntuación: 57 sobre 100 en el índice compuesto de inteligencia. Es la primera vez que dos modelos de compañías rivales empatan exactamente en la cúspide de esta clasificación, y el dato resume algo que llevaba meses gestándose: la diferencia técnica entre los grandes modelos tiende a cero.
El índice de Artificial Analysis no se basa en cifras reportadas por los propios laboratorios. La plataforma ejecuta todas las evaluaciones de forma independiente, midiendo cada modelo bajo el mismo hardware y con el mismo protocolo. Además, realiza ocho mediciones diarias por modelo y calcula sus métricas a partir de las últimas 72 horas de datos en vivo. Un modelo no puede puntuar alto dominando una sola tarea: debe demostrar capacidad amplia en agentes, código, conocimiento y razonamiento. Esa metodología convierte el empate en algo difícil de explicar como casualidad.
Por debajo de los dos líderes, la clasificación sigue apretada. Claude Opus 4.6 de Anthropic, con razonamiento adaptativo al máximo esfuerzo, alcanza los 53 puntos, y Claude Sonnet 4.6 llega a 51. GPT-5.3 Codex también se mueve en esa franja alta. El mensaje es claro: la frontera de capacidad ya no la marca un solo actor, sino un pelotón de cuatro o cinco modelos que se adelantan y se alcanzan con cada actualización trimestral. La propia Pluralsight señaló en su análisis de febrero que el rendimiento en la cima está tan igualado que la pregunta relevante ya no es cuál es el mejor modelo, sino cuál es el adecuado para cada tarea concreta.
Aunque empatan en inteligencia global, GPT-5.4 y Gemini 3.1 Pro no son idénticos. El modelo de OpenAI destaca por ser el primero de uso general con capacidades nativas de control de ordenador, logrando un 75 % en el benchmark OSWorld, por encima del 72,4 % que marca la línea base de un experto humano. También integra las capacidades de programación que antes exigían recurrir a GPT-5.3 Codex por separado, y ofrece cinco niveles de esfuerzo de razonamiento configurables por API. Gemini 3.1 Pro, por su parte, lidera en procesamiento multimodal —texto, imagen, audio y vídeo en un solo prompt— y en relación calidad-precio: según los datos publicados por fuentes del sector, su coste es de dos dólares por millón de tokens de entrada frente a los 2,50 dólares de GPT-5.4 en su variante estándar, y hasta 7,5 veces más barato que Claude Opus 4.6.
Este empate refuerza la tesis de la commoditización, un concepto que lleva meses sobrevolando el sector. Cuando los modelos punteros se igualan en capacidad bruta, la ventaja competitiva deja de residir en el modelo en sí mismo. Varios análisis recientes lo subrayan: Goldman Sachs Asset Management identifica la commoditización de modelos como un riesgo real para los inversores, mientras que informes del sector advierten de que el 80 % de los compradores corporativos ya cita la igualación impulsada por la IA como el principal riesgo para las valoraciones de software. En paralelo, la competencia de precios se intensifica: los modelos más pequeños como GPT-5.4 Mini ofrecen un rendimiento sorprendentemente cercano al del modelo completo a una fracción del coste, lo que empuja los precios a la baja en toda la industria.
Para el usuario medio, esta convergencia tiene un efecto paradójico: es una excelente noticia que quizá no se note. Si todos los modelos de gama alta rinden de forma similar, la elección importa menos y la presión competitiva beneficia al consumidor con mejores precios y más funcionalidades incluidas. La app de Gemini ya supera los 650 millones de usuarios mensuales, ChatGPT sigue dominando el segmento de pago, y Claude se consolida entre desarrolladores. La batalla real se libra en la capa de experiencia de usuario, integración con otros servicios y ecosistema de herramientas, no en puntos de benchmark.
El horizonte inmediato apunta a más compresión. OpenAI ya tiene en desarrollo GPT-5.5, que según mercados de predicción podría llegar antes de junio de 2026. Google sigue iterando a ritmo mensual su familia Gemini 3. Y Anthropic, Meta con Llama 4 y DeepSeek empujan desde el flanco del código abierto y la especialización. El ranking de Artificial Analysis seguirá moviéndose, pero la tendencia de fondo parece irreversible: los modelos de IA se parecen cada vez más entre sí, y el valor se desplaza hacia quien mejor los integre en flujos de trabajo reales. Para una generación que ha crecido con estos asistentes, lo que importa ya no es qué modelo usa tu app favorita, sino qué puede hacer esa app por ti.