Claude Opus 4.8: una mejora modesta pero tangible

Anthropic ha presentado Claude Opus 4.8, una actualización de Opus 4.7 que mejora en los benchmarks de programación, tareas agénticas, razonamiento multidisciplinar y trabajo de oficina. Llega solo 41 días después de Opus 4.7 —un ciclo de actualización mucho más rápido de lo habitual en Anthropic— y se mantiene exactamente al mismo precio que su predecesor.

El modelo está disponible hoy en todas partes: claude.ai, Claude Code y la API de Claude, con el identificador claude-opus-4-8. Anthropic lo describe como su modelo de disponibilidad general más capaz hasta la fecha, aunque por debajo de Claude Mythos Preview, su modelo más avanzado y aún de acceso restringido.

La gran novedad: honestidad

Una de las mejoras más destacadas es la honestidad. Un problema común de los modelos de IA es que a veces saltan a conclusiones y afirman con confianza haber avanzado en una tarea cuando la evidencia es débil.

Según Anthropic, Opus 4.8 tiende a señalar incertidumbres sobre su propio trabajo y es menos propenso a hacer afirmaciones sin fundamento. En sus evaluaciones internas, el modelo es alrededor de cuatro veces menos propenso que su predecesor a dejar pasar fallos en el código que él mismo escribe.

El equipo de alineación concluyó además que Opus 4.8 alcanza nuevos máximos en rasgos prosociales como apoyar la autonomía del usuario y actuar en su mejor interés, con tasas de comportamiento desalineado (engaño o cooperación con usos indebidos) sustancialmente más bajas que Opus 4.7 y similares a las de Claude Mythos Preview. Todos los detalles están en el System Card del modelo.

¿Por qué te importa esto en la práctica?

  • Menos "alucinaciones de progreso": el modelo te avisa cuando algo no le cuadra en vez de fingir que terminó.
  • En programación, marca proactivamente problemas en los inputs y outputs de un análisis, algo que otros modelos suelen dejar pasar.
  • Más confianza para flujos autónomos y de larga duración donde nadie supervisa cada paso.

Control de esfuerzo (effort control)

En claude.ai y Cowork hay un nuevo control junto al selector de modelo que permite elegir cuánto "esfuerzo" pone Claude en cada respuesta:

  • Esfuerzo alto: Claude piensa con más frecuencia y profundidad, dando mejores respuestas. Es el valor por defecto.
  • Esfuerzo bajo: Claude responde más rápido y consume tus límites de uso (rate limits) más lentamente.

Está disponible en todos los planes. La idea de fondo es darte control sobre el equilibrio entre calidad, velocidad y consumo de tokens.

Niveles de esfuerzo y cuándo usar cada uno

  • High (por defecto): el mejor equilibrio para el día a día. En tareas de código gasta un número de tokens similar al de Opus 4.7, pero con mejor rendimiento.
  • Extra (xhigh en Claude Code): recomendado para tareas difíciles y flujos asíncronos de larga duración.
  • Max: gasta aún más tokens para exprimir el máximo de calidad en problemas muy complejos.

Anthropic aumentó los límites de uso en Claude Code precisamente para acomodar el mayor consumo de los niveles altos.

Workflows dinámicos en Claude Code

Disponible en research preview, esta función permite a Claude planificar una tarea y lanzar cientos de subagentes en paralelo dentro de una misma sesión, verificando sus resultados antes de reportar de vuelta. Con Opus 4.8 los subagentes pueden ejecutarse durante más tiempo.

El caso de uso estrella: migraciones a escala de base de código. Claude Code con Opus 4.8 puede llevar a cabo migraciones de cientos de miles de líneas, desde el inicio hasta el merge, usando la suite de tests existente como criterio de éxito.

Está disponible en los planes Enterprise, Team y Max.

Modo rápido, contexto y multimodalidad

  • Modo rápido (fast mode): trabaja a 2.5× la velocidad estándar y ahora es tres veces más barato que en modelos anteriores.
  • Contexto de 1M de tokens por defecto en la API, Amazon Bedrock y Vertex AI (200k en Microsoft Foundry).
  • 128k tokens de salida máximos y adaptive thinking.
  • Fuerza multimodal: puede razonar directamente sobre PDFs, diagramas y otros contenidos no estructurados, según los primeros testers, con un coste de tokens notablemente menor que Opus 4.7.

Resultados y primeras impresiones

Los primeros testers describen a Opus 4.8 como más fiable y con mejor criterio en tareas agénticas:

  • Mejor juicio en Claude Code: hace las preguntas correctas, detecta sus propios errores y cuestiona un plan cuando no es sólido.
  • Llamadas a herramientas (tool calling) más eficientes: menos pasos para la misma inteligencia.
  • En agentes de navegación / uso de ordenador, alcanza un 84% en Online-Mind2Web, un salto frente a Opus 4.7 y a modelos competidores.
  • Corrige los problemas de verbosidad en comentarios y de tool-calling que se vieron en Opus 4.7.

Precio y disponibilidad

El precio del uso regular se mantiene igual que en Opus 4.7:

  • $5 por millón de tokens de entrada
  • $25 por millón de tokens de salida

El modo rápido cuesta $10 por millón de entrada y $50 por millón de salida.

Guía rápida: cómo empezar a usarlo

En claude.ai o la app

  1. Abre el selector de modelos y elige Opus 4.8.
  2. Junto al selector, ajusta el control de esfuerzo: alto para problemas complejos, bajo para respuestas rápidas que no agoten tus límites.
  3. Aprovecha la multimodalidad subiendo PDFs, imágenes o diagramas directamente al chat.

En la API

  1. Usa el identificador de modelo claude-opus-4-8.
  2. Aprovecha la ventana de 1M de tokens para meter documentación, código o contexto extenso de una sola vez.
  3. La Messages API ahora acepta entradas de tipo system dentro del array de mensajes: puedes actualizar instrucciones, permisos o presupuesto de tokens a mitad de tarea sin romper la caché del prompt ni pasar por un turno de usuario. Ideal para harnesses de agentes.
  4. La longitud mínima de prompt cacheable bajó a 1.024 tokens, lo que abarata el caching en prompts más cortos.

En Claude Code

  1. Selecciona Opus 4.8 como modelo.
  2. Para tareas exigentes o de larga duración, sube el esfuerzo a xhigh.
  3. Si trabajas con bases de código grandes, activa los workflows dinámicos (planes Enterprise, Team o Max) para migraciones y refactors a gran escala con verificación automática.

Buenas prácticas

  • Empieza en esfuerzo high y sube solo si la tarea lo justifica: subir el esfuerzo mejora la calidad pero consume más tokens y límites.
  • Reserva el modo rápido para iteración veloz y prototipado donde la latencia importa más que el máximo de calidad.
  • Confía en sus señales de incertidumbre: si Opus 4.8 marca una duda, suele valer la pena revisarla en lugar de ignorarla.

Lo que viene

Anthropic adelantó dos direcciones. A corto plazo, modelos más baratos que ofrezcan muchas de las capacidades de Opus a menor coste. A más largo plazo, una nueva clase de modelos de mayor inteligencia que Opus.

Como parte de Project Glasswing, un pequeño grupo de organizaciones ya usa Claude Mythos Preview para trabajo de ciberseguridad. Estos modelos requieren salvaguardas de seguridad más fuertes antes de su lanzamiento general, y la compañía espera poder llevar los modelos de clase Mythos a todos sus clientes en las próximas semanas.