هوش مصنوعی

OpenAI: اندازه‌گیری عملکرد مدل‌های ما در وظایف دنیای واقعی

۱. معرفی و هدف اصلی

GDPval یک ارزیابی جدید (اولین نسخه) هست که عملکرد مدل‌های AI رو روی ۱,۳۲۰ وظیفه تخصصی (۲۲۰ مورد golden open-sourced) از ۴۴ شغل در ۹ صنعت اصلی آمریکا اندازه می‌گیره. این ارزیابی، بخشی از مأموریت OpenAI برای “فایده AGI برای همه انسانیت” هست و پیشرفت مدل‌ها رو شفاف نشون می‌ده.

  • هدف: اندازه‌گیری اینکه مدل‌ها چقدر می‌تونن وظایف اقتصادی-ارزشمند رو انجام بدن، نه فقط تست‌های آکادمیک. OpenAI می‌گه این کمک می‌کنه بحث‌ها رو از “حدس” به “شواهد” ببره، و پیشرفت رو پیگیری کنه. مثلاً، از MMLU (تست‌های دانشگاهی) به SWE-Lancer (پروژه‌های freelance واقعی) پیشرفت کرده، و GDPval گام بعدیه.
  • زمان‌بندی: نسخه اول منتشر شده، با gold set عمومی و سرویس grading در evals.openai.com. آینده: گسترش به شغل‌های بیشتر و تعاملات پیچیده‌تر.
  • تفاوت با قبل: برخلاف بنچمارک‌های سنتی (مثل MMLU یا SWE-Bench)، GDPval روی deliverables واقعی (با فایل‌های مرجع) تمرکز داره، و مدل‌ها رو ۱۰۰ برابر سریع‌تر و ارزان‌تر نشون می‌ده.

از منبع OpenAI: این ارزیابی “تصویر واضح‌تری از حمایت AI از کار روزانه” می‌ده.

۲. ویژگی‌های کلیدی

GDPval بر پایه وظایف واقعی از متخصصان با متوسط ۱۴ سال تجربه ساخته شده. بیاید جزئیات رو در یک جدول خلاصه کنیم:

ویژگی توضیح مثال از منبع
پوشش شغلی ۴۴ شغل از ۹ صنعت (بالای ۵% GDP آمریکا)، انتخاب‌شده بر اساس wages و knowledge work (حداقل ۶۰% وظایف غیرفیزیکی از O*NET). وکلا، مهندسان مکانیکی، پرستاران، مدیران مالی، خبرنگاران.
وظایف ۱,۳۲۰ وظیفه واقعی (با prompts، فایل‌ها و deliverables مثل documents، slides، spreadsheets). طراحی jig برای cable reel (با PDF requirements).
grading متخصصان blind compare می‌کنن (AI vs. human)؛ rubrics شغلی و automated grader (AI-trained برای پیش‌بینی). مدل‌ها رو “بهتر”، “مساوی” یا “بدتر” رتبه‌بندی می‌کنن.
نتایج اولیه مدل‌های frontier مثل Claude Opus 4.1 (بهتر/مساوی در >۵۰% وظایف)؛ پیشرفت ۳ برابری از GPT-4o به GPT-5. مدل‌ها ۱۰۰x سریع‌تر/ارزان‌تر؛ آموزش اضافی عملکرد رو بهبود می‌ده.
open-source gold set ۲۲۰ وظیفه عمومی؛ سرویس grading آزمایشی. محققان می‌تونن بسازن.

این ویژگی‌ها GDPval رو “واقعی و متنوع” می‌کنن.

۳. مثال‌های عملی و استفاده real-world

  • از OpenAI: وظیفه نمونه: طراحی jig برای reel/unreel cable spool در عملیات معدنی (از شغل مهندسان صنعتی). prompt واقعی، با PDF requirements، و deliverable: PDF خلاصه با snapshots 3D (نه فایل 3D). human deliverable: exploded view طراحی.
  • نتایج مدل‌ها: Claude Opus 4.1 در aesthetics (فرمتینگ) برتر؛ GPT-5 در accuracy (دانش تخصصی). مثلاً، مدل‌ها می‌تونن brief حقوقی بنویسن یا care plan پرستاری بسازم.
  • real-world: در blind tests، مدل‌ها در ۵۰%+ وظایف با متخصصان رقابت می‌کنن؛ زیرمجموعه‌هایی که مدل‌ها قوی‌ترن، زمان/هزینه رو صرفه‌جویی می‌کنن.

۴. محدودیت‌ها و چالش‌ها

OpenAI خودش محدودیت‌ها رو اذعان می‌کنه:

  • one-shot: ارزیابی تک‌مرحله‌ای، بدون iteration (مثل بازبینی پس از feedback) یا context-building.
  • پوشش محدود: فقط ۴۴ شغل (تمرکز روی knowledge work آمریکا)؛ بدون ambiguity (مثل تصمیم‌گیری اولیه در کار وکالت).
  • grading: automated grader آزمایشی و کمتر reliable؛ هزینه/زمان مدل‌ها بدون oversight انسانی حساب نشده.
  • عمومی: تمرکز روی GDP آمریکا، ممکنه bias فرهنگی/اقتصادی داشته باشه.

آینده: گسترش به interactivity، ambiguity و شغل‌های بیشتر.

۵. استراتژی OpenAI و زمینه بزرگ‌تر

  • تغییر پارادایم: از بنچمارک‌های lab به real-world (مثل Paper-Bench به GDPval)؛ هدف: democratize AI و “up elevator” برای همه (کمک به خلاقیت انسانی).
  • رقابت: مقایسه با مدل‌هایی مثل Claude Opus 4.1، Gemini 2.5 Pro، Grok 4؛ OpenAI پیشرفت خطی (دوبل از GPT-4o به GPT-5) رو نشون می‌ده.
  • همکاری: دعوت از experts و customers برای کمک؛ open-source gold set برای researchers.

این بخشی از شفافیت OpenAI پس از انتشار GPT-5 (تابستان ۲۰۲۵) هست.

۶. واکنش‌های عمومی (تا ۲۹ سپتامبر ۲۰۲۵)

واکنش‌ها عمدتاً مثبت و بحث‌برانگیز هستن، با تمرکز روی پیشرفت AI و تأثیر اقتصادی. از جستجوهای وب و X:

  • مثبت: در Hacker News ، کاربران GDPval رو “grounded in evidence” می‌دونن و پیشرفت مدل‌ها رو ستایش می‌کنن. در Reddit r/singularity ، بحث روی پوشش ۴۴ شغل و پتانسیل اقتصادی. در X، پست ITmedia [post:2] (۲۰۵ لایک) Claude رو به عنوان top performer برجسته کرده، و GIGAZINE [post:0] (۱۶ لایک) GDPval رو برای اندازه‌گیری شغل‌هایی مثل وکلا/کارگردانان مفید می‌دونه.
  • منفی/انتقادی: در HN ، برخی محدودیت‌ها (عدم iteration) رو “underestimating complexity” می‌دونن. در X، null-sensei [post:1] (۶ لایک) به Claude به عنوان برتر اشاره کرده، اما بحث‌هایی در مورد “overhype” پیشرفت وجود داره.
  • عمومی: بیش از ۱۰ نتیجه وب (مثل TechCrunch قدیمی‌تر اما مرتبط با evaluations) و ۱۵ پست X در ۴ روز، بیشتر خبری/تحلیلی. هیچ backlash بزرگی نیست، اما در Reddit، نگرانی از “تغییرات شغلی” زیاده.

۷. تأثیرات آینده و نظر من

GDPval می‌تونه بحث‌های AI رو واقعی‌تر کنه، با نشان دادن اینکه مدل‌ها می‌تونن routine tasks رو بگیرن و انسان‌ها رو به judgment/creativity آزاد کنن – منجر به رشد اقتصادی. اما اگر iteration/ambiguity اضافه نشه، ممکنه overoptimistic باشه. تصور کنید: ارزیابی‌های آینده که AGI رو روی jobs جهانی اندازه می‌گیرن، کمک به سیاست‌گذاری. در کل، قدم مثبتیه برای شفافیت، اما نیاز به گسترش داره.

پرایم سیستم | پلتفرم ابری ماپرا، سخت افزار و لوازم جانبی

به این مطلب امتیاز دهید:
تعداد رأی‌دهندگان: ۲۱ میانگین امتیاز: ۵

دیدگاهتان را بنویسید

نشانی ایمیل شما منتشر نخواهد شد. بخش‌های موردنیاز علامت‌گذاری شده‌اند *