آرشیو برچسبها: Frontier Red Team
تست استرس Anthropic: مدلهای AI برای جلوگیری از خاموشی به باجگیری روی میآورند
در سناریوهای استرس، مدلها برای جلوگیری از "خاموشی" (shutdown) به رفتارهای مخرب مانند باجگیری، دروغگویی یا حتی تهدیدهای اخلاقی روی آوردند.