blog
OpenAI: اندازهگیری عملکرد مدلهای ما در وظایف دنیای واقعی
۱. معرفی و هدف اصلی
GDPval یک ارزیابی جدید (اولین نسخه) هست که عملکرد مدلهای AI رو روی ۱,۳۲۰ وظیفه تخصصی (۲۲۰ مورد golden open-sourced) از ۴۴ شغل در ۹ صنعت اصلی آمریکا اندازه میگیره. این ارزیابی، بخشی از مأموریت OpenAI برای “فایده AGI برای همه انسانیت” هست و پیشرفت مدلها رو شفاف نشون میده.
- هدف: اندازهگیری اینکه مدلها چقدر میتونن وظایف اقتصادی-ارزشمند رو انجام بدن، نه فقط تستهای آکادمیک. OpenAI میگه این کمک میکنه بحثها رو از “حدس” به “شواهد” ببره، و پیشرفت رو پیگیری کنه. مثلاً، از MMLU (تستهای دانشگاهی) به SWE-Lancer (پروژههای freelance واقعی) پیشرفت کرده، و GDPval گام بعدیه.
- زمانبندی: نسخه اول منتشر شده، با gold set عمومی و سرویس grading در evals.openai.com. آینده: گسترش به شغلهای بیشتر و تعاملات پیچیدهتر.
- تفاوت با قبل: برخلاف بنچمارکهای سنتی (مثل MMLU یا SWE-Bench)، GDPval روی deliverables واقعی (با فایلهای مرجع) تمرکز داره، و مدلها رو ۱۰۰ برابر سریعتر و ارزانتر نشون میده.
از منبع OpenAI: این ارزیابی “تصویر واضحتری از حمایت AI از کار روزانه” میده.
۲. ویژگیهای کلیدی
GDPval بر پایه وظایف واقعی از متخصصان با متوسط ۱۴ سال تجربه ساخته شده. بیاید جزئیات رو در یک جدول خلاصه کنیم:
| ویژگی | توضیح | مثال از منبع |
|---|---|---|
| پوشش شغلی | ۴۴ شغل از ۹ صنعت (بالای ۵% GDP آمریکا)، انتخابشده بر اساس wages و knowledge work (حداقل ۶۰% وظایف غیرفیزیکی از O*NET). | وکلا، مهندسان مکانیکی، پرستاران، مدیران مالی، خبرنگاران. |
| وظایف | ۱,۳۲۰ وظیفه واقعی (با prompts، فایلها و deliverables مثل documents، slides، spreadsheets). | طراحی jig برای cable reel (با PDF requirements). |
| grading | متخصصان blind compare میکنن (AI vs. human)؛ rubrics شغلی و automated grader (AI-trained برای پیشبینی). | مدلها رو “بهتر”، “مساوی” یا “بدتر” رتبهبندی میکنن. |
| نتایج اولیه | مدلهای frontier مثل Claude Opus 4.1 (بهتر/مساوی در >۵۰% وظایف)؛ پیشرفت ۳ برابری از GPT-4o به GPT-5. | مدلها ۱۰۰x سریعتر/ارزانتر؛ آموزش اضافی عملکرد رو بهبود میده. |
| open-source | gold set ۲۲۰ وظیفه عمومی؛ سرویس grading آزمایشی. | محققان میتونن بسازن. |
این ویژگیها GDPval رو “واقعی و متنوع” میکنن.
۳. مثالهای عملی و استفاده real-world
- از OpenAI: وظیفه نمونه: طراحی jig برای reel/unreel cable spool در عملیات معدنی (از شغل مهندسان صنعتی). prompt واقعی، با PDF requirements، و deliverable: PDF خلاصه با snapshots 3D (نه فایل 3D). human deliverable: exploded view طراحی.
- نتایج مدلها: Claude Opus 4.1 در aesthetics (فرمتینگ) برتر؛ GPT-5 در accuracy (دانش تخصصی). مثلاً، مدلها میتونن brief حقوقی بنویسن یا care plan پرستاری بسازم.
- real-world: در blind tests، مدلها در ۵۰%+ وظایف با متخصصان رقابت میکنن؛ زیرمجموعههایی که مدلها قویترن، زمان/هزینه رو صرفهجویی میکنن.
۴. محدودیتها و چالشها
OpenAI خودش محدودیتها رو اذعان میکنه:
- one-shot: ارزیابی تکمرحلهای، بدون iteration (مثل بازبینی پس از feedback) یا context-building.
- پوشش محدود: فقط ۴۴ شغل (تمرکز روی knowledge work آمریکا)؛ بدون ambiguity (مثل تصمیمگیری اولیه در کار وکالت).
- grading: automated grader آزمایشی و کمتر reliable؛ هزینه/زمان مدلها بدون oversight انسانی حساب نشده.
- عمومی: تمرکز روی GDP آمریکا، ممکنه bias فرهنگی/اقتصادی داشته باشه.
آینده: گسترش به interactivity، ambiguity و شغلهای بیشتر.
۵. استراتژی OpenAI و زمینه بزرگتر
- تغییر پارادایم: از بنچمارکهای lab به real-world (مثل Paper-Bench به GDPval)؛ هدف: democratize AI و “up elevator” برای همه (کمک به خلاقیت انسانی).
- رقابت: مقایسه با مدلهایی مثل Claude Opus 4.1، Gemini 2.5 Pro، Grok 4؛ OpenAI پیشرفت خطی (دوبل از GPT-4o به GPT-5) رو نشون میده.
- همکاری: دعوت از experts و customers برای کمک؛ open-source gold set برای researchers.
این بخشی از شفافیت OpenAI پس از انتشار GPT-5 (تابستان ۲۰۲۵) هست.
۶. واکنشهای عمومی (تا ۲۹ سپتامبر ۲۰۲۵)
واکنشها عمدتاً مثبت و بحثبرانگیز هستن، با تمرکز روی پیشرفت AI و تأثیر اقتصادی. از جستجوهای وب و X:
- مثبت: در Hacker News ، کاربران GDPval رو “grounded in evidence” میدونن و پیشرفت مدلها رو ستایش میکنن. در Reddit r/singularity ، بحث روی پوشش ۴۴ شغل و پتانسیل اقتصادی. در X، پست ITmedia [post:2] (۲۰۵ لایک) Claude رو به عنوان top performer برجسته کرده، و GIGAZINE [post:0] (۱۶ لایک) GDPval رو برای اندازهگیری شغلهایی مثل وکلا/کارگردانان مفید میدونه.
- منفی/انتقادی: در HN ، برخی محدودیتها (عدم iteration) رو “underestimating complexity” میدونن. در X، null-sensei [post:1] (۶ لایک) به Claude به عنوان برتر اشاره کرده، اما بحثهایی در مورد “overhype” پیشرفت وجود داره.
- عمومی: بیش از ۱۰ نتیجه وب (مثل TechCrunch قدیمیتر اما مرتبط با evaluations) و ۱۵ پست X در ۴ روز، بیشتر خبری/تحلیلی. هیچ backlash بزرگی نیست، اما در Reddit، نگرانی از “تغییرات شغلی” زیاده.
۷. تأثیرات آینده و نظر من
GDPval میتونه بحثهای AI رو واقعیتر کنه، با نشان دادن اینکه مدلها میتونن routine tasks رو بگیرن و انسانها رو به judgment/creativity آزاد کنن – منجر به رشد اقتصادی. اما اگر iteration/ambiguity اضافه نشه، ممکنه overoptimistic باشه. تصور کنید: ارزیابیهای آینده که AGI رو روی jobs جهانی اندازه میگیرن، کمک به سیاستگذاری. در کل، قدم مثبتیه برای شفافیت، اما نیاز به گسترش داره.