هوش مصنوعی

مایکروسافت Claude را به ۳۶۵ Copilot اضافه می‌کند.

۱. خلاصه خبر

  • عنوان و زمینه: خبر اصلی با عنوان “Anthropic joins the multi-model lineup in Microsoft Copilot Studio”، اعلام می‌کنه که مدل‌های هوش مصنوعی شرکت Anthropic (به طور خاص Claude Sonnet 4 و Claude Opus 4.1) از امروز (۲۴ سپتامبر ۲۰۲۵) به عنوان گزینه‌های اضافی در Microsoft Copilot Studio اضافه شدن. این در حالیه که مدل‌های OpenAI (مثل GPT-4o و GPT-5) همچنان مدل پیش‌فرض باقی می‌مونن. پست مرتبط در وبلاگ Microsoft 365، این رو به عنوان “Expanding model choice in Microsoft 365 Copilot” توصیف می‌کنه و تمرکز رو روی ادغام در ابزارهایی مثل Researcher agent می‌ذاره.
  • زمان‌بندی rollout:
  • امروز (۲۴ سپتامبر): در دسترس برای محیط‌های early release cycle (نسخه‌های آزمایشی اولیه) در سراسر جهان.
  • دو هفته آینده: rollout به preview (نسخه آزمایشی) در تمام محیط‌ها.
  • پایان سال ۲۰۲۵: آماده برای استفاده در production (محیط‌های عملیاتی واقعی).
  • پیش‌نیازها: ادمین‌های سازمان باید دسترسی رو در Microsoft 365 Admin Center (MAC) فعال کنن. مدل‌های Anthropic خارج از محیط‌های مدیریت‌شده مایکروسافت میزبانی می‌شن و مشمول Terms of Service شرکت Anthropic هستن. اگر غیرفعال بشن، سیستم به طور خودکار به مدل OpenAI برمی‌گرده.

این خبر بخشی از استراتژی بزرگ‌تر مایکروسافت برای “مدل agnostic” بودن (عدم وابستگی به یک مدل خاص) هست، که به کاربران اجازه می‌ده بهترین مدل رو بر اساس نیاز انتخاب کنن.

۲. جزئیات فنی و ادغام

خبر جزئیات عملی رو برای چگونگی استفاده از این مدل‌ها توصیف می‌کنه. بیایم قدم به قدم بررسی کنیم:

  • مدل‌های جدید:
  • Claude Sonnet 4: مناسب برای وظایف چت، orchestration (هماهنگی) و reasoning عمیق. مثلاً در سناریوهای conversational مثل پاسخ به سؤالات کارکنان.
  • Claude Opus 4.1: قدرتمندتر برای reasoning پیچیده، تحلیل داده‌های چندمرحله‌ای و workflow automation. مثلاً در تحلیل روندهای بازار یا گزارش‌های فصلی.
  • ادغام در Copilot Studio (تمرکز اصلی خبر):
  • Orchestration: می‌تونی agentهای enterprise-grade بسازی که از مدل‌های Anthropic برای reasoning پیشرفته، اتوماسیون workflow و وظایف agentic (مثل استفاده از ابزارها) استفاده کنن. مثلاً multi-agent systems، جایی که agentهای مختلف با مدل‌های متفاوت (Anthropic + OpenAI) با هم کار می‌کنن.
  • Prompt Builder: یک منوی کشویی ساده برای انتخاب مدل در promptهای سفارشی. این اجازه می‌ده رفتار agent رو برای وظایف خاص بهینه کنی – مثلاً Claude برای compliance checks (بررسی انطباق) و OpenAI برای ارتباطات روزمره.
  • مثال عملی (از پست بلاگ): ساخت یک agent HR برای onboarding کارکنان:
    ۱. ایجاد agent جدید در Copilot Studio.
    ۲. اتصال منابع دانش (مثل اسناد HR، FAQها).
    ۳. طراحی promptها و flowها برای تعاملات.
    ۴. انتخاب مدل اصلی (مثل Claude Opus 4.1) در پنل تنظیمات.
    ۵. تنظیم ابزارهای AI برای وظایف خاص (مثل استفاده از Claude برای تفسیر سیاست‌ها).
    ۶. deploy و تست.
  • ادغام در Researcher Agent (از پست Microsoft 365):
  • این agent اولین “reasoning agent” مایکروسافته که حالا می‌تونه با Claude Opus 4.1 یا مدل‌های OpenAI کار کنه. برای تحقیق‌های پیچیده (مثل استراتژی go-to-market یا تحلیل روند محصولات) از داده‌های وب، third-party و محتوای کاری (ایمیل‌ها، چت‌ها، فایل‌ها) استفاده می‌کنه.
  • کاربران بعد از opt-in می‌تونن بین مدل‌ها سوییچ کنن – بدون نیاز به پلتفرم‌های دیگه.
  • کنترل‌های ادمین:
  • فعال‌سازی در MAC (برای کل tenant).
  • مدیریت در Power Platform Admin Center (PPAC) برای محیط‌های خاص.
  • fallback خودکار به GPT-4o اگر Anthropic در دسترس نباشه.

در کل، این ادغام seamless (بدون دردسر) طراحی شده و از Azure Model Catalog هم پشتیبانی می‌کنه، که به معنای گسترش بیشتر در آینده‌ست.

۳. اهمیت و تأثیر

  • برای کاربران و کسب‌وکارها: این خبر انعطاف‌پذیری رو افزایش می‌ده. قبلاً، وابستگی به OpenAI می‌تونست محدودیت‌هایی مثل هزینه، سرعت یا دقت در سناریوهای خاص ایجاد کنه. حالا، کاربران می‌تونن مدل رو بر اساس “use case” انتخاب کنن – مثلاً Claude برای reasoning اخلاقی و ایمن (که Anthropic روش تأکید داره) یا OpenAI برای خلاقیت. این به خصوص برای صنایع مثل HR، بازاریابی یا finance مفیده، جایی که agentها باید multistep tasks رو مدیریت کنن. مایکروسافت ادعا می‌کنه این کار “هر فرآیند کسب‌وکاری رو با agentها تحول می‌ده”.
  • رقابتی و استراتژیک: مایکروسافت با اضافه کردن Anthropic (رقیب OpenAI)، خودش رو به عنوان پلتفرم neutral AI позициони می‌کنه. این می‌تونه رقابت با Google (با Gemini) یا Amazon رو تشدید کنه. همچنین، هزاران شرکت که از Copilot Studio استفاده می‌کنن (طبق پست بلاگ)، حالا ابزارهای قدرتمندتری برای اتوماسیون دارن. از نظر اقتصادی، ممکنه هزینه‌ها رو بهینه کنه چون کاربران می‌تونن مدل ارزان‌تر یا سریع‌تر رو انتخاب کنن.
  • چالش‌ها و محدودیت‌ها:
  • امنیتی: مدل‌های Anthropic خارج از محیط مایکروسافت میزبانی می‌شن، پس ریسک‌های compliance (مثل GDPR) رو افزایش می‌ده. ادمین‌ها باید Terms of Service Anthropic رو چک کنن.
  • دسترسی اولیه: فقط برای licensed customers و opt-in، و rollout کامل تا پایان سال طول می‌کشه.
  • وابستگی به feedback: مایکروسافت کاربران رو تشویق به آزمایش و اشتراک‌گذاری بازخورد می‌کنه (از طریق Power Users forum)، که نشون‌دهنده اینه که این ویژگی هنوز در مراحل اولیه‌ست.

در مقایسه با اخبار مشابه (مثل ادغام مدل‌های Llama در Azure)، این گام مایکروسافته برای “multi-model” بودن، بخشی از روند بزرگ‌تر AI hybrid (ترکیبی) در ۲۰۲۵ هست.

۴. نتیجه‌گیری و پیشنهادها

این خبر نشون‌دهنده تعهد مایکروسافت به “نوآوری سریع مدل‌ها” (به قول خودشون: “delivering model innovation at speed”) هست و می‌تونه Copilot رو به یک پلتفرم واقعاً agentic (عامل‌محور) تبدیل کنه. اگر سازمانت از Microsoft 365 Copilot استفاده می‌کنه، حالا وقت خوبیه برای تست – به خصوص اگر به reasoning عمیق نیاز داری. پیشنهادم:

  • برای شروع: ادمینت رو وادار کن دسترسی رو در MAC فعال کنه (لینک: learn.microsoft.com/en-us/copilot/microsoft-365/connect-to-ai-models).
  • تست کن: با مثال HR شروع کن و مدل‌ها رو مقایسه کن (Claude vs. OpenAI در دقت reasoning).
  • پیگیری: پست‌های بعدی رو چک کن، چون قول دادن “even more powerful experiences” با Anthropic.

مقایسه فنی مدل‌های هوش مصنوعی: Claude Sonnet 4، Claude Opus 4.1، GPT-4o و GPT-5

سلام! با توجه به زمینه قبلی (ادغام مدل‌های Anthropic در Microsoft Copilot Studio)، فرض کردم منظورت مقایسه فنی بین مدل‌های Claude Sonnet 4 و Claude Opus 4.1 (از Anthropic) با مدل‌های OpenAI مثل GPT-4o و GPT-5 هست. این مقایسه بر اساس داده‌های به‌روز (تا سپتامبر ۲۰۲۵) از منابع رسمی و بنچمارک‌های معتبر مثل SWE-bench، GPQA، MMLU و AIME انجام شده. تمرکز روی جنبه‌های فنی کلیدی مثل بنچمارک‌ها، context window، قابلیت‌ها، سرعت و هزینه‌ست. تعداد پارامترها (parameters) برای هیچ‌کدوم به طور عمومی فاش نشده، پس ازش صرف‌نظر کردم.

توجه: بنچمارک‌ها می‌تونن بسته به تنظیمات (مثل “extended thinking” در Claude یا “tools” در GPT) تغییر کنن. GPT-4o مدل قدیمی‌تریه و در مقایسه با بقیه ضعیف‌تر عمل می‌کنه، پس بیشتر به عنوان baseline استفاده شده. برای وضوح، از جدول استفاده کردم.

۱. خلاصه کلی

  • Claude Sonnet 4: مدل عمومی و سریع، مناسب برای کارهای روزمره مثل coding و reasoning. ارزان و در دسترس رایگان.
  • Claude Opus 4.1: flagship مدل Anthropic، برتر در reasoning عمیق و coding پیچیده، با تمرکز روی reliability و agentic tasks (مثل workflowهای طولانی).
  • GPT-4o: مدل قبلی OpenAI، خوب برای کارهای عمومی اما در بنچمارک‌های ۲۰۲۵ عقب‌تر از رقبا.
  • GPT-5: جدیدترین OpenAI، SOTA (state-of-the-art) در math، coding و agentic capabilities، با context window بزرگ‌تر و هزینه کمتر.

۲. مقایسه بنچمارک‌ها (عملکرد فنی)

بنچمارک‌ها نشون‌دهنده دقت در وظایف خاص هستن. اعداد بالاتر بهتره. (منبع: Anthropic announcement، DataCamp، Vellum AI)

بنچمارک توضیح Claude Sonnet 4 Claude Opus 4.1 GPT-4o GPT-5
SWE-bench Verified دقت در حل مسائل coding واقعی (بدون/با compute بالا) ۷۲.۷% (۸۰.۲%) ۷۲.۵% (۷۹.۴%) ~۵۴.۶% ۷۴.۹%
GPQA Diamond سؤالات علمی سطح PhD (reasoning) ۷۵.۴% ۷۹.۶% (۸۳.۳%) ~۷۰% ۸۹.۴% (با tools)
MMLU دانش عمومی چندرشته‌ای ۸۶.۵% ۸۸.۸% ~۸۶% ~۹۰%+ (تخمینی)
AIME 2025 مسائل ریاضی رقابتی (math) ۷۰.۵% ۷۵.۵% (۹۰%) ~۶۰% ۱۰۰% (با tools)
TerminalBench وظایف terminal-based coding ۳۵.۵% ۴۳.۲% (۵۰%) ۳۰.۳% ~۴۵% (تخمینی)
TAU-bench وظایف agentic (retail/airline) ۸۰.۵%/۶۰% ۸۱.۴%/۵۹.۶% ~۷۵% ~۸۲% (تخمینی)
  • تحلیل: GPT-5 در math و reasoning با tools برتری داره، اما Claude Opus 4.1 در coding sustained (طولانی‌مدت) و debugging دقیق‌تره. Sonnet 4 رقابتیه اما برای کارهای سبک‌تر مناسبه. GPT-4o در همه جا عقبه.

۳. قابلیت‌های فنی (Capabilities)

  • Context Window (ظرفیت ورودی):
  • Claude Sonnet 4 / Opus 4.1: 200K tokens (مناسب برای اسناد طولانی، اما کمتر از رقبا).
  • GPT-4o: 128K tokens.
  • GPT-5: 400K tokens (بهترین برای تحلیل داده‌های عظیم مثل codebaseهای بزرگ).
  • Output Tokens (ظرفیت خروجی):
  • Claude: تا 64K.
  • GPT-4o: 4K-16K.
  • GPT-5: 128K (ایده‌آل برای گزارش‌های طولانی).
  • Reasoning و Extended Thinking:
  • Claude: “Extended thinking” mode برای reasoning multistep (تا چند ساعت)، با memory tracking و ۶۵% کمتر hallucination (اشتباهات خیالی) نسبت به مدل‌های قبلی.
  • GPT-5: “Thinking” chain-of-thought با tools (مثل Python)، که عملکرد رو تا ۲۲% در coding افزایش می‌ده. hallucination <1% در تست‌های پزشکی.
  • GPT-4o: reasoning پایه، بدون modes پیشرفته.
  • Coding و Tool Use:
  • همه مدل‌ها tool use (مثل web search، parallel execution) رو ساپورت می‌کنن، اما Claude Opus در agent workflows (مثل refactoring پروژه‌های open-source) برتره. GPT-5 در polyglot coding (چندزبانه) ۸۸% دقت داره.
  • Vision و Multimodal:
  • Claude: پشتیبانی پایه از vision (تصاویر)، اما تمرکز روی text.
  • GPT-5 / GPT-4o: قوی‌تر در multimodal (تصاویر + text)، مناسب برای تحلیل بصری.
  • سایر: Claude کمتر به shortcuts (راه‌حل‌های غیراخلاقی) متوسل می‌شه؛ GPT-5 safety-focused برای health queries.

۴. سرعت، هزینه و دسترسی

  • سرعت:
  • Claude Sonnet 4: سریع‌ترین (near-instant responses)، مناسب free tier.
  • Opus 4.1: کندتر در extended mode، اما sustained برای tasks طولانی.
  • GPT-5: بهینه‌شده برای سرعت، با latency پایین در API.
  • GPT-4o: متوسط.
  • هزینه (per million tokens, input/output):
  • Sonnet 4: $3 / $15 (ارزان‌ترین).
  • Opus 4.1: $15 / $75 (گران‌ترین).
  • GPT-4o: ~$5 / $15.
  • GPT-5: $1.25 / $10 (بهترین value برای حجم بالا).
  • دسترسی در Copilot Studio: همه از طریق opt-in، با fallback به GPT-4o. Claude برای reasoning عمیق، GPT-5 برای agentic tasks پیشنهاد می‌شه.

۵. نتیجه‌گیری و پیشنهاد

به این مطلب امتیاز دهید:
تعداد رأی‌دهندگان: ۱۵ میانگین امتیاز: ۴.۹

دیدگاهتان را بنویسید

نشانی ایمیل شما منتشر نخواهد شد. بخش‌های موردنیاز علامت‌گذاری شده‌اند *