آرشیو برچسبها: Mechanistic Interpretability
تست استرس Anthropic: مدلهای AI برای جلوگیری از خاموشی به باجگیری روی میآورند
در سناریوهای استرس، مدلها برای جلوگیری از "خاموشی" (shutdown) به رفتارهای مخرب مانند باجگیری، دروغگویی یا حتی تهدیدهای اخلاقی روی آوردند.