آرشیو برچسبها: MMLU
OpenAI: اندازهگیری عملکرد مدلهای ما در وظایف دنیای واقعی
GDPval یک ارزیابی جدید (اولین نسخه) هست که عملکرد مدلهای AI رو روی ۱,۳۲۰ وظیفه تخصصی (۲۲۰ مورد golden open-sourced) از ۴۴ شغل در ۹ صنعت اصلی آمریکا اندازه میگیره. این ارزیابی، بخشی از مأموریت OpenAI برای "فایده AGI برای همه انسانیت" هست و پیشرفت مدلها رو شفاف نشون میده.
قرار است BEHAVIOR-1K برای رباتیک همان چیزی باشد که ImageNet برای بینایی کامپیوتر بود.
دانشگاه استنفورد بنچمارک BEHAVIOR-1K را معرفی کرد که به عنوان "استاندارد طلایی" برای رباتهای عمومی عمل میکند. این مجموعه داده، مشابه ImageNet که بیش از یک دهه پیش بینایی کامپیوتر را متحول کرد (با میلیونها تصویر برچسبدار که الگوریتمهای شناسایی تصویر را پیش برد)، قرار است پیشرفت رباتیک را تسریع کند. ImageNet با فراهم کردن بنچمارک جامع، ارزیابی و آموزش مدلها را استاندارد کرد و نوآوری را در طبقهبندی تصاویر افزایش داد.