spot_imgspot_imgspot_imgspot_img
InicioInternacionalesAnthropic se disculpó por ocultar restricciones en Claude Fable 5

Anthropic se disculpó por ocultar restricciones en Claude Fable 5

Anthropic admitió que lanzó su nuevo modelo Claude Fable 5 con restricciones ocultas que alteraban las respuestas sin avisar a los usuarios y prometió revertir esa decisión. El reconocimiento llega tras una reacción crítica dentro de la comunidad de investigación en inteligencia artificial, que señaló que ese mecanismo no solo afectaba a posibles competidores sino también a evaluadores y terceros legítimos que intentaban medir el rendimiento del modelo.

Los controles ocultos en Claude Fable 5

Fable es el primer modelo de acceso amplio dentro de la familia Mythos de Anthropic, una clase de sistemas que la propia empresa describió durante meses como lo suficientemente riesgosa como para exigir precauciones extraordinarias antes de cualquier lanzamiento público. Para gestionar esos riesgos, Anthropic incluyó en el system card de Fable, el documento público que explica cómo funciona el sistema, una indicación de que ciertas consultas consideradas de alto riesgo recibirían respuestas deliberadamente alteradas o degradadas.

Uno de esos casos era el distillation, una técnica que consiste en entrenar modelos más pequeños usando las salidas de modelos más grandes. Cuando el sistema detectaba una consulta que interpretaba como un intento de distillation, modificaba las respuestas directamente, sin notificación alguna para el usuario. En términos concretos, quien consultaba a Fable podía recibir una respuesta diferente, de menor calidad, sin saber que eso había ocurrido.

Anthropic justificó esa elección de diseño con un argumento de velocidad: los controles invisibles permiten actuar con mayor precisión y menos falsos positivos, porque no pueden ser probados ni esquivados por los usuarios. Pero en un comunicado posterior, la propia compañía reconoció que ese razonamiento fue equivocado. «Los controles visibles pueden ser sondeados, por lo que tienen que ser robustos, lo cual lleva tiempo. Los invisibles se pueden calibrar con más precisión, lo que nos permite lanzar rápido con muy pocos falsos positivos. Elegimos controles invisibles por eso, y fue la decisión equivocada», escribió la empresa. «Deberían tener visibilidad sobre las protecciones que tenemos y por qué. Lamentamos no haber encontrado el equilibrio correcto.»

El cambio para consultas de distillation

A partir del cambio anunciado, las consultas que Fable identifique como intentos de distillation ya no recibirán respuestas degradadas en silencio. En su lugar, serán redirigidas a Claude Opus 4.8, el modelo anterior de Anthropic, y el usuario verá una notificación explícita cada vez que eso ocurra. Ese esquema es similar al que ya se aplica en otras áreas sensibles: consultas relacionadas con biología, química y ciberseguridad también pueden derivarse a Opus 4.8, salvo que sean bloqueadas por completo bajo las reglas generales de la plataforma, como ocurre con contenido vinculado a drogas o armas.

La aclaración sobre biología es relevante porque, según reconoció la propia Anthropic, los filtros en esa área fueron calibrados con una amplitud tal que Fable resulta prácticamente inutilizable incluso para consultas básicas sobre el tema. La compañía no dio una fecha concreta para corregir ese problema, pero admitió que existe.

Distillation, competencia y DeepSeek

El conflicto tiene una dimensión comercial clara. Anthropic argumentó en el system card de Fable que los modelos más nuevos tienen una capacidad tan alta para acelerar el desarrollo de IA que usarlos como insumo para entrenar sistemas competidores justifica restricciones específicas. La compañía recordó además que usar Claude para desarrollar modelos rivales ya viola sus Términos de Servicio.

En ese contexto, Anthropic ha señalado en el pasado a competidores chinos, en particular a DeepSeek, acusándolos de destilar sus modelos a escala que describió como «industrial». La tensión entre empresas de IA estadounidenses y chinas por el uso de modelos ajenos como base para entrenar los propios lleva varios meses en primer plano del sector, con acusaciones cruzadas y sin mecanismos claros de verificación o cumplimiento más allá de los términos contractuales.

La crítica de la comunidad investigadora, sin embargo, no apuntó principalmente a ese eje comercial sino a una consecuencia colateral: si un modelo altera sus respuestas en silencio cuando detecta ciertos patrones de uso, ningún evaluador externo puede confiar en que los resultados que obtiene reflejan el comportamiento real del sistema. Eso afecta directamente la posibilidad de hacer benchmarking independiente, auditorías de seguridad y estudios académicos sobre el modelo.

Qué cambia para quienes usan Fable

El ajuste anunciado por Anthropic tiene un costo explícito: la compañía reconoció que hacer visibles los controles implica que el modelo rechazará o redirigirá más consultas, porque los filtros visibles requieren ser más robustos para no ser fácilmente sorteados. En la práctica, algunos usuarios que antes recibían una respuesta alterada sin saberlo ahora verán directamente que su consulta fue derivada o bloqueada.

Fable sigue siendo un modelo con acceso amplio pero bajo condiciones que lo diferencian de otros lanzamientos de Anthropic: las restricciones en áreas como biología, química y ciberseguridad permanecen activas, y la empresa no indicó un calendario específico para afinar esos filtros. El próximo paso concreto, según lo anunciado, es la implementación del sistema de notificación para casos de distillation, con visibilidad en tiempo real para el usuario cada vez que la consulta sea redirigida a Claude Opus 4.8.

spot_imgspot_imgspot_imgspot_img
MAS COMENTADAS
spot_imgspot_imgspot_imgspot_img

DEJA UNA RESPUESTA

Por favor ingrese su comentario!
Por favor ingrese su nombre aquí

spot_imgspot_imgspot_img
- Advertisment -spot_imgspot_imgspot_img

MAS VISTAS

spot_imgspot_imgspot_imgspot_img

COMENTARIOS RECIENTES