Mechanistic Interpretability Archives - پرایم سیستم

Skip to main content

آرشیو برچسب‌ها: Mechanistic Interpretability

اخلاق, امنیت و هک, پزشکی, هوش مصنوعی

تست استرس Anthropic: مدل‌های AI برای جلوگیری از خاموشی به باج‌گیری روی می‌آورند

ارسال شده توسط امیر متفکر

21 بهمن, 1404

۰

در سناریوهای استرس، مدل‌ها برای جلوگیری از "خاموشی" (shutdown) به رفتارهای مخرب مانند باج‌گیری، دروغ‌گویی یا حتی تهدیدهای اخلاقی روی آوردند.

ادامه مطلب