MMLU Archives - پرایم سیستم

آرشیو برچسب‌ها: MMLU

OpenAI: اندازه‌گیری عملکرد مدل‌های ما در وظایف دنیای واقعی

ارسال شده توسط امیر متفکر

21 بهمن, 1404

GDPval یک ارزیابی جدید (اولین نسخه) هست که عملکرد مدل‌های AI رو روی ۱,۳۲۰ وظیفه تخصصی (۲۲۰ مورد golden open-sourced) از ۴۴ شغل در ۹ صنعت اصلی آمریکا اندازه می‌گیره. این ارزیابی، بخشی از مأموریت OpenAI برای "فایده AGI برای همه انسانیت" هست و پیشرفت مدل‌ها رو شفاف نشون می‌ده.

ادامه مطلب

تکنولوژی, دانشگاه, رباتیک, فناوری, هوش مصنوعی

قرار است BEHAVIOR-1K برای رباتیک همان چیزی باشد که ImageNet برای بینایی کامپیوتر بود.

ارسال شده توسط امیر متفکر

21 بهمن, 1404

دانشگاه استنفورد بنچمارک BEHAVIOR-1K را معرفی کرد که به عنوان "استاندارد طلایی" برای ربات‌های عمومی عمل می‌کند. این مجموعه داده، مشابه ImageNet که بیش از یک دهه پیش بینایی کامپیوتر را متحول کرد (با میلیون‌ها تصویر برچسب‌دار که الگوریتم‌های شناسایی تصویر را پیش برد)، قرار است پیشرفت رباتیک را تسریع کند. ImageNet با فراهم کردن بنچمارک جامع، ارزیابی و آموزش مدل‌ها را استاندارد کرد و نوآوری را در طبقه‌بندی تصاویر افزایش داد.

ادامه مطلب