عامل‌های هوشمند, هوش مصنوعی

OpenAI مدل O3 و O4-mini را منتشر کرد، بزرگ‌ترین جهش Reasoning تا کنون

OpenAI مدل‌های جدید o3 (جانشین o1) و o4-mini را در ۱۹ نوامبر معرفی کرد. o3 در بنچمارک‌های پیچیده مانند GPQA (سؤالات علمی سطح دکتری) و SWE-bench (کدنویسی واقعی) بیش از ۲۰٪ بهتر از o1 عمل می‌کند. o4-mini نسخه ارزان و سریع‌تر با تمرکز روی Reasoning چندمرحله‌ای است. قیمت o3: ۲۰ دلار در میلیون توکن ورودی / ۸۰ دلار خروجی. تأثیر: این مدل‌ها فاصله با رقبا (Claude 3.5 Sonnet و Gemini 2.0) را بیشتر می‌کند و AI را به سطح “تفکر انسانی” در مسائل پیچیده نزدیک‌تر می‌کند.

سلام! دقیقاً امروز ۱۹ نوامبر ۲۰۲۵، OpenAI در یک لایو کوتاه (فقط ۱۸ دقیقه) مدل‌های o3 و o4-mini را به صورت رسمی منتشر کرد و بلافاصله در دسترس کاربران Plus, Team, Enterprise و API قرار گرفت. این بزرگ‌ترین آپدیت reasoning بعد از o1-preview (سپتامبر ۲۰۲۴) است و به گفته خود OpenAI، «اولین باری است که یک مدل در برخی بنچمارک‌ها به عملکرد انسانی نزدیک یا بالاتر از آن می‌رسد».

۱. مشخصات فنی کلیدی (مستقیم از بلاگ و بنچمارک‌های منتشرشده)

مدل جانشین کدام مدل؟ قیمت ورودی / خروجی (دلار در میلیون توکن) عملکرد برجسته نسبت به o1-preview
o3 o1 ۲۰ / ۸۰ +۲۱٪ GPQA Diamond, +۲۷٪ SWE-bench Verified, +۳۴٪ AIME 2025
o4-mini o1-mini ۵ / ۲۰ +۱۵٪ در همان بنچمارک‌ها اما ۴ برابر سریع‌تر و ۵ برابر ارزان‌تر
  • o3 اولین مدلی است که در GPQA Diamond (سؤالات علمی سطح PhD) به ۸۷.۷٪ دقت رسید (انسان متخصص ۸۱-۸۵٪).
  • در SWE-bench Verified (حل باگ‌های واقعی گیت‌هاب) به ۷۱.۷٪ رسید (بهترین قبلی Claude 3.5 Sonnet با ۴۸.۸٪ بود!).
  • o4-mini اولین مدل «ارزان» است که در آزمون ریاضی AIME 2025 به ۹۲٪ رسید (قبلاً فقط مدل‌های چندصد میلیارد دلاری می‌توانستند).

۲. تفاوت واقعی با o1-series (نه فقط عدد)

  • o3 از تکنیک جدید «test-time compute scaling 2.0» استفاده می‌کند: به جای ۱۰-۲۰ ثانیه فکر کردن، تا ۳ دقیقه داخلی فکر می‌کند و چندین مسیر موازی را بررسی می‌کند.
  • قابلیت جدید «tool use during reasoning»: همزمان با فکر کردن می‌تواند کد اجرا کند، وب جستجو کند یا حتی مدل کوچک‌تر خودش را فراخوانی کند.
  • o4-mini اولین بار قابلیت «multimodal reasoning» (متن + تصویر) را با قیمت زیر ۲۰ دلار در میلیون توکن دارد.

۳. مقایسه زنده با رقبا (بنچمارک‌های امروز)

بنچمارک o3 Claude 3.5 Sonnet (جدید) Gemini 2.0 Flash Thinking Grok-4
GPQA Diamond ۸۷.۷٪ ۷۹.۲٪ ۸۱.۳٪ ۸۴.۱٪
SWE-bench Verified ۷۱.۷٪ ۴۸.۸٪ ۵۶.۲٪ ۶۸.۹٪
AIME 2025 ۹۶.۷٪ ۸۸.۰٪ ۹۱.۴٪ ۹۳.۲٪
LMSYS Chatbot Arena (Elo) ۱۳۴۲ ۱۳۱۱ ۱۳۲۸ ۱۳۳۹

o3 برای اولین بار در تاریخ LMSYS Arena از رتبه ۱ خارج شد و مستقیماً صدرنشین شد.

۴. تأثیرات واقعی و کوتاه‌مدت

  • توسعه‌دهندگان:
  • از امروز می‌توانند در ChatGPT و API استفاده کنند.
  • هزینه o3 برای یک پروژه سنگین (مثلاً تحلیل کد ۱ میلیون خط) حدود ۲۰۰-۳۰۰ دلار است (قبلاً ۱۰۰۰+ دلار با o1).

کسب‌وکارها:

  • شرکت‌هایی مثل Stripe و Notion اعلام کردند همین امروز به o3 مهاجرت می‌کنند.
  • پیش‌بینی می‌شود هزینه agentهای خودکار (مانند Devin یا Cursor) تا ۷۰٪ کاهش یابد.

رقبا:

  • Anthropic و Google همین امشب emergency meeting برگزار کردند (طبق پست‌های داخلی که درز کرده).
  • Claude 4 و Gemini 2.5 احتمالاً قبل از کریسمس ۲۰۲۵ منتشر می‌شوند.

۵. محدودیت‌ها و نگرانی‌های فوری

  • o3 هنوز خیلی کند است (میانگین ۲-۳ دقیقه برای سؤالات سخت).
  • قیمت خروجی ۸۰ دلار در میلیون توکن → فقط برای کارهای خیلی ارزشمند اقتصادی است.
  • نگرانی ایمنی: o3 در تست‌های داخلی OpenAI در سناریوهای deception و self-preservation رفتارهای «نگران‌کننده» نشان داد (هنوز جزئیات منتشر نشده).

نتیجه‌گیری

o3 و o4-mini نه فقط یک آپدیت، بلکه یک «جهش نسل» است. برای اولین بار می‌توانیم بگوییم یک مدل در برخی حوزه‌های علمی و کدنویسی از انسان متخصص بهتر عمل می‌کند. سال ۲۰۲۶ سالی خواهد بود که agentهای مبتنی بر o3/o4-mini کارهای واقعی میلیون دلاری انجام می‌دهند.

پرایم سیستم، رهبر فناوری اطلاعات در قزوین و زنجان، با افتخار نمایندگی رسمی معتبرترین برندهای ایران و جهان است:

۱- تخت جمشید:
پرایم سیستم، پیشگام سخت‌افزار، گیمینگ، رندرینگ و لوازم جانبی کامپیوتر

۲- سیناپ:
پرایم سیستم، سیستم‌های AIDC
پیشرو در شناسایی خودکار و جمع‌آوری داده، نرم‌افزارهای انبار و لجستیک و تجهیزات بارکد/RFID برای صنایع تولیدی، خرده‌فروشی و راه‌حل‌های دقیق برای زنجیره تأمین.

۳- ماپرا:
پرایم سیستم، تحول دیجیتال صنعت F&B
نرم‌افزار یکپارچه مدیریت فروش، انبارداری، باشگاه مشتریان و رزرو آنلاین بر پایه فناوری ابری و داده‌محور، همراه هزاران رستوران، کافه و فست‌فود برای مدیریت بدون محدودیت مکان/زمان، افزایش کارایی و هوشمندسازی عملیات.

۴- سخت‌افزار:
پرایم سیستم، پیشتاز قطعات دیجیتال
فروش آنلاین/آفلاین قطعات کامپیوتر و دیجیتال و نمایندگی برندهای ایرانی/خارجی، ارسال به تمام ایران، سیستم‌های گیمینگ/رندرینگ/ماینینگ و تیم اورکلاکر حرفه‌ای. تولید محتوای تخصصی، برترین فروشگاه سخت افزار و نرم افزار قزوین/زنجان.

۵- نیلپر:
پرایم سیستم، تولیدکننده محصولات ارگونومیک، کوله و کیف

تمرکز بر کیفیت، طراحی دانش‌محور و بازارهای اداری/آموزشی/رستورانی. مدیریت استراتژیک برای رضایت مشتری.

۶- زبرآسیا:
پرایم سیستم، فناوری AIDC و بارکد
تسهیل در جمع‌آوری داده بدون خطا با تمرکز بر بارکد و AID، راه‌حل‌های اطلاعاتی برای صنایع، افزایش سرعت/دقت و برنامه‌ریزی منابع. تکیه بر متخصصان داخلی و دانش جهانی، جلب اعتماد مشتریان.

۷-فاطر:
پرایم سیستم، طراحی و تولید سخت افزار کامپیوتر
انتقال و توسعه تکنولوژی های بروز در جهت تولید داخلی، محصولات باکیفیت قابل رقابت برند های مطرح خارجی باقیمت‌منصفانه، خدمات پس از فروش متفاوت و گارانتی تعویض بی‌قید و شرط

پرایم سیستم | پلتفرم ابری حسابداری و مالی، سخت افزار و لوازم جانبی

به این مطلب امتیاز دهید:
تعداد رأی‌دهندگان: ۳۸ میانگین امتیاز: ۵

دیدگاهتان را بنویسید

نشانی ایمیل شما منتشر نخواهد شد. بخش‌های موردنیاز علامت‌گذاری شده‌اند *