Anthropic se disculpó por ocultar restricciones en Claude Fable 5

11 de junio de 2026

Anthropic admitió que lanzó su nuevo modelo Claude Fable 5 con restricciones ocultas que alteraban las respuestas sin avisar a los usuarios y prometió revertir esa decisión. El reconocimiento llega tras una reacción crítica dentro de la comunidad de investigación en inteligencia artificial, que señaló que ese mecanismo no solo afectaba a posibles competidores sino también a evaluadores y terceros legítimos que intentaban medir el rendimiento del modelo.

Los controles ocultos en Claude Fable 5

Fable es el primer modelo de acceso amplio dentro de la familia Mythos de Anthropic, una clase de sistemas que la propia empresa describió durante meses como lo suficientemente riesgosa como para exigir precauciones extraordinarias antes de cualquier lanzamiento público. Para gestionar esos riesgos, Anthropic incluyó en el system card de Fable, el documento público que explica cómo funciona el sistema, una indicación de que ciertas consultas consideradas de alto riesgo recibirían respuestas deliberadamente alteradas o degradadas.

Uno de esos casos era el distillation, una técnica que consiste en entrenar modelos más pequeños usando las salidas de modelos más grandes. Cuando el sistema detectaba una consulta que interpretaba como un intento de distillation, modificaba las respuestas directamente, sin notificación alguna para el usuario. En términos concretos, quien consultaba a Fable podía recibir una respuesta diferente, de menor calidad, sin saber que eso había ocurrido.

Anthropic justificó esa elección de diseño con un argumento de velocidad: los controles invisibles permiten actuar con mayor precisión y menos falsos positivos, porque no pueden ser probados ni esquivados por los usuarios. Pero en un comunicado posterior, la propia compañía reconoció que ese razonamiento fue equivocado. «Los controles visibles pueden ser sondeados, por lo que tienen que ser robustos, lo cual lleva tiempo. Los invisibles se pueden calibrar con más precisión, lo que nos permite lanzar rápido con muy pocos falsos positivos. Elegimos controles invisibles por eso, y fue la decisión equivocada», escribió la empresa. «Deberían tener visibilidad sobre las protecciones que tenemos y por qué. Lamentamos no haber encontrado el equilibrio correcto.»

El cambio para consultas de distillation

A partir del cambio anunciado, las consultas que Fable identifique como intentos de distillation ya no recibirán respuestas degradadas en silencio. En su lugar, serán redirigidas a Claude Opus 4.8, el modelo anterior de Anthropic, y el usuario verá una notificación explícita cada vez que eso ocurra. Ese esquema es similar al que ya se aplica en otras áreas sensibles: consultas relacionadas con biología, química y ciberseguridad también pueden derivarse a Opus 4.8, salvo que sean bloqueadas por completo bajo las reglas generales de la plataforma, como ocurre con contenido vinculado a drogas o armas.

La aclaración sobre biología es relevante porque, según reconoció la propia Anthropic, los filtros en esa área fueron calibrados con una amplitud tal que Fable resulta prácticamente inutilizable incluso para consultas básicas sobre el tema. La compañía no dio una fecha concreta para corregir ese problema, pero admitió que existe.

Distillation, competencia y DeepSeek

El conflicto tiene una dimensión comercial clara. Anthropic argumentó en el system card de Fable que los modelos más nuevos tienen una capacidad tan alta para acelerar el desarrollo de IA que usarlos como insumo para entrenar sistemas competidores justifica restricciones específicas. La compañía recordó además que usar Claude para desarrollar modelos rivales ya viola sus Términos de Servicio.

En ese contexto, Anthropic ha señalado en el pasado a competidores chinos, en particular a DeepSeek, acusándolos de destilar sus modelos a escala que describió como «industrial». La tensión entre empresas de IA estadounidenses y chinas por el uso de modelos ajenos como base para entrenar los propios lleva varios meses en primer plano del sector, con acusaciones cruzadas y sin mecanismos claros de verificación o cumplimiento más allá de los términos contractuales.

La crítica de la comunidad investigadora, sin embargo, no apuntó principalmente a ese eje comercial sino a una consecuencia colateral: si un modelo altera sus respuestas en silencio cuando detecta ciertos patrones de uso, ningún evaluador externo puede confiar en que los resultados que obtiene reflejan el comportamiento real del sistema. Eso afecta directamente la posibilidad de hacer benchmarking independiente, auditorías de seguridad y estudios académicos sobre el modelo.

Qué cambia para quienes usan Fable

El ajuste anunciado por Anthropic tiene un costo explícito: la compañía reconoció que hacer visibles los controles implica que el modelo rechazará o redirigirá más consultas, porque los filtros visibles requieren ser más robustos para no ser fácilmente sorteados. En la práctica, algunos usuarios que antes recibían una respuesta alterada sin saberlo ahora verán directamente que su consulta fue derivada o bloqueada.

Fable sigue siendo un modelo con acceso amplio pero bajo condiciones que lo diferencian de otros lanzamientos de Anthropic: las restricciones en áreas como biología, química y ciberseguridad permanecen activas, y la empresa no indicó un calendario específico para afinar esos filtros. El próximo paso concreto, según lo anunciado, es la implementación del sistema de notificación para casos de distillation, con visibilidad en tiempo real para el usuario cada vez que la consulta sea redirigida a Claude Opus 4.8.

+ Temas relacionados
Internacionales
Tecnología

Artículo anterior

S&P sube la nota de Argentina a B- y los bonos en dólares trepan hasta 3,5%

Artículo siguiente

El Tesoro refinanció el 120% de los vencimientos y extendió plazos hasta 2030

MAS COMENTADAS

DEJA UNA RESPUESTA Cancelar respuesta

Por favor ingrese su comentario!

Por favor ingrese su nombre aquí

¡Has introducido una dirección de correo electrónico incorrecta!

Por favor ingrese su dirección de correo electrónico aquí

Anthropic se disculpó por ocultar restricciones en Claude Fable 5

Los controles ocultos en Claude Fable 5

El cambio para consultas de distillation

Distillation, competencia y DeepSeek

Qué cambia para quienes usan Fable

Escándalo en Italia: un piloto de Fórmula 1 aparece en las escuchas de una red de prostitución VIP

Bitcoin sube por sexta vez en siete ruedas y llega a su mayor valor en tres meses

Nvidia pide a Supermicro reforzar los controles de exportación de chips a China

DEJA UNA RESPUESTA Cancelar respuesta

MAS VISTAS

El pozo creció hasta que Casilda lo cobró: $2.336 millones!

Microsoft reduce tiempos de carga en juegos de 90 segundos a 4 con shaders precompilados

Icardi y la China Suárez reforzaron su vínculo con una cena íntima en Estambul

Códigos de Free Fire Max para hoy, 30 de enero: listado y guía para canjear recompensas en el portal de premios

COMENTARIOS RECIENTES

SEGUINOS