blog
مایکروسافت Claude را به ۳۶۵ Copilot اضافه میکند.
۱. خلاصه خبر
- عنوان و زمینه: خبر اصلی با عنوان “Anthropic joins the multi-model lineup in Microsoft Copilot Studio”، اعلام میکنه که مدلهای هوش مصنوعی شرکت Anthropic (به طور خاص Claude Sonnet 4 و Claude Opus 4.1) از امروز (۲۴ سپتامبر ۲۰۲۵) به عنوان گزینههای اضافی در Microsoft Copilot Studio اضافه شدن. این در حالیه که مدلهای OpenAI (مثل GPT-4o و GPT-5) همچنان مدل پیشفرض باقی میمونن. پست مرتبط در وبلاگ Microsoft 365، این رو به عنوان “Expanding model choice in Microsoft 365 Copilot” توصیف میکنه و تمرکز رو روی ادغام در ابزارهایی مثل Researcher agent میذاره.
- زمانبندی rollout:
- امروز (۲۴ سپتامبر): در دسترس برای محیطهای early release cycle (نسخههای آزمایشی اولیه) در سراسر جهان.
- دو هفته آینده: rollout به preview (نسخه آزمایشی) در تمام محیطها.
- پایان سال ۲۰۲۵: آماده برای استفاده در production (محیطهای عملیاتی واقعی).
- پیشنیازها: ادمینهای سازمان باید دسترسی رو در Microsoft 365 Admin Center (MAC) فعال کنن. مدلهای Anthropic خارج از محیطهای مدیریتشده مایکروسافت میزبانی میشن و مشمول Terms of Service شرکت Anthropic هستن. اگر غیرفعال بشن، سیستم به طور خودکار به مدل OpenAI برمیگرده.
این خبر بخشی از استراتژی بزرگتر مایکروسافت برای “مدل agnostic” بودن (عدم وابستگی به یک مدل خاص) هست، که به کاربران اجازه میده بهترین مدل رو بر اساس نیاز انتخاب کنن.
۲. جزئیات فنی و ادغام
خبر جزئیات عملی رو برای چگونگی استفاده از این مدلها توصیف میکنه. بیایم قدم به قدم بررسی کنیم:
- مدلهای جدید:
- Claude Sonnet 4: مناسب برای وظایف چت، orchestration (هماهنگی) و reasoning عمیق. مثلاً در سناریوهای conversational مثل پاسخ به سؤالات کارکنان.
- Claude Opus 4.1: قدرتمندتر برای reasoning پیچیده، تحلیل دادههای چندمرحلهای و workflow automation. مثلاً در تحلیل روندهای بازار یا گزارشهای فصلی.
- ادغام در Copilot Studio (تمرکز اصلی خبر):
- Orchestration: میتونی agentهای enterprise-grade بسازی که از مدلهای Anthropic برای reasoning پیشرفته، اتوماسیون workflow و وظایف agentic (مثل استفاده از ابزارها) استفاده کنن. مثلاً multi-agent systems، جایی که agentهای مختلف با مدلهای متفاوت (Anthropic + OpenAI) با هم کار میکنن.
- Prompt Builder: یک منوی کشویی ساده برای انتخاب مدل در promptهای سفارشی. این اجازه میده رفتار agent رو برای وظایف خاص بهینه کنی – مثلاً Claude برای compliance checks (بررسی انطباق) و OpenAI برای ارتباطات روزمره.
- مثال عملی (از پست بلاگ): ساخت یک agent HR برای onboarding کارکنان:
۱. ایجاد agent جدید در Copilot Studio.
۲. اتصال منابع دانش (مثل اسناد HR، FAQها).
۳. طراحی promptها و flowها برای تعاملات.
۴. انتخاب مدل اصلی (مثل Claude Opus 4.1) در پنل تنظیمات.
۵. تنظیم ابزارهای AI برای وظایف خاص (مثل استفاده از Claude برای تفسیر سیاستها).
۶. deploy و تست. - ادغام در Researcher Agent (از پست Microsoft 365):
- این agent اولین “reasoning agent” مایکروسافته که حالا میتونه با Claude Opus 4.1 یا مدلهای OpenAI کار کنه. برای تحقیقهای پیچیده (مثل استراتژی go-to-market یا تحلیل روند محصولات) از دادههای وب، third-party و محتوای کاری (ایمیلها، چتها، فایلها) استفاده میکنه.
- کاربران بعد از opt-in میتونن بین مدلها سوییچ کنن – بدون نیاز به پلتفرمهای دیگه.
- کنترلهای ادمین:
- فعالسازی در MAC (برای کل tenant).
- مدیریت در Power Platform Admin Center (PPAC) برای محیطهای خاص.
- fallback خودکار به GPT-4o اگر Anthropic در دسترس نباشه.
در کل، این ادغام seamless (بدون دردسر) طراحی شده و از Azure Model Catalog هم پشتیبانی میکنه، که به معنای گسترش بیشتر در آیندهست.
۳. اهمیت و تأثیر
- برای کاربران و کسبوکارها: این خبر انعطافپذیری رو افزایش میده. قبلاً، وابستگی به OpenAI میتونست محدودیتهایی مثل هزینه، سرعت یا دقت در سناریوهای خاص ایجاد کنه. حالا، کاربران میتونن مدل رو بر اساس “use case” انتخاب کنن – مثلاً Claude برای reasoning اخلاقی و ایمن (که Anthropic روش تأکید داره) یا OpenAI برای خلاقیت. این به خصوص برای صنایع مثل HR، بازاریابی یا finance مفیده، جایی که agentها باید multistep tasks رو مدیریت کنن. مایکروسافت ادعا میکنه این کار “هر فرآیند کسبوکاری رو با agentها تحول میده”.
- رقابتی و استراتژیک: مایکروسافت با اضافه کردن Anthropic (رقیب OpenAI)، خودش رو به عنوان پلتفرم neutral AI позициони میکنه. این میتونه رقابت با Google (با Gemini) یا Amazon رو تشدید کنه. همچنین، هزاران شرکت که از Copilot Studio استفاده میکنن (طبق پست بلاگ)، حالا ابزارهای قدرتمندتری برای اتوماسیون دارن. از نظر اقتصادی، ممکنه هزینهها رو بهینه کنه چون کاربران میتونن مدل ارزانتر یا سریعتر رو انتخاب کنن.
- چالشها و محدودیتها:
- امنیتی: مدلهای Anthropic خارج از محیط مایکروسافت میزبانی میشن، پس ریسکهای compliance (مثل GDPR) رو افزایش میده. ادمینها باید Terms of Service Anthropic رو چک کنن.
- دسترسی اولیه: فقط برای licensed customers و opt-in، و rollout کامل تا پایان سال طول میکشه.
- وابستگی به feedback: مایکروسافت کاربران رو تشویق به آزمایش و اشتراکگذاری بازخورد میکنه (از طریق Power Users forum)، که نشوندهنده اینه که این ویژگی هنوز در مراحل اولیهست.
در مقایسه با اخبار مشابه (مثل ادغام مدلهای Llama در Azure)، این گام مایکروسافته برای “multi-model” بودن، بخشی از روند بزرگتر AI hybrid (ترکیبی) در ۲۰۲۵ هست.
۴. نتیجهگیری و پیشنهادها
این خبر نشوندهنده تعهد مایکروسافت به “نوآوری سریع مدلها” (به قول خودشون: “delivering model innovation at speed”) هست و میتونه Copilot رو به یک پلتفرم واقعاً agentic (عاملمحور) تبدیل کنه. اگر سازمانت از Microsoft 365 Copilot استفاده میکنه، حالا وقت خوبیه برای تست – به خصوص اگر به reasoning عمیق نیاز داری. پیشنهادم:
- برای شروع: ادمینت رو وادار کن دسترسی رو در MAC فعال کنه (لینک: learn.microsoft.com/en-us/copilot/microsoft-365/connect-to-ai-models).
- تست کن: با مثال HR شروع کن و مدلها رو مقایسه کن (Claude vs. OpenAI در دقت reasoning).
- پیگیری: پستهای بعدی رو چک کن، چون قول دادن “even more powerful experiences” با Anthropic.
مقایسه فنی مدلهای هوش مصنوعی: Claude Sonnet 4، Claude Opus 4.1، GPT-4o و GPT-5
سلام! با توجه به زمینه قبلی (ادغام مدلهای Anthropic در Microsoft Copilot Studio)، فرض کردم منظورت مقایسه فنی بین مدلهای Claude Sonnet 4 و Claude Opus 4.1 (از Anthropic) با مدلهای OpenAI مثل GPT-4o و GPT-5 هست. این مقایسه بر اساس دادههای بهروز (تا سپتامبر ۲۰۲۵) از منابع رسمی و بنچمارکهای معتبر مثل SWE-bench، GPQA، MMLU و AIME انجام شده. تمرکز روی جنبههای فنی کلیدی مثل بنچمارکها، context window، قابلیتها، سرعت و هزینهست. تعداد پارامترها (parameters) برای هیچکدوم به طور عمومی فاش نشده، پس ازش صرفنظر کردم.
توجه: بنچمارکها میتونن بسته به تنظیمات (مثل “extended thinking” در Claude یا “tools” در GPT) تغییر کنن. GPT-4o مدل قدیمیتریه و در مقایسه با بقیه ضعیفتر عمل میکنه، پس بیشتر به عنوان baseline استفاده شده. برای وضوح، از جدول استفاده کردم.
۱. خلاصه کلی
- Claude Sonnet 4: مدل عمومی و سریع، مناسب برای کارهای روزمره مثل coding و reasoning. ارزان و در دسترس رایگان.
- Claude Opus 4.1: flagship مدل Anthropic، برتر در reasoning عمیق و coding پیچیده، با تمرکز روی reliability و agentic tasks (مثل workflowهای طولانی).
- GPT-4o: مدل قبلی OpenAI، خوب برای کارهای عمومی اما در بنچمارکهای ۲۰۲۵ عقبتر از رقبا.
- GPT-5: جدیدترین OpenAI، SOTA (state-of-the-art) در math، coding و agentic capabilities، با context window بزرگتر و هزینه کمتر.
۲. مقایسه بنچمارکها (عملکرد فنی)
بنچمارکها نشوندهنده دقت در وظایف خاص هستن. اعداد بالاتر بهتره. (منبع: Anthropic announcement، DataCamp، Vellum AI)
| بنچمارک | توضیح | Claude Sonnet 4 | Claude Opus 4.1 | GPT-4o | GPT-5 |
|---|---|---|---|---|---|
| SWE-bench Verified | دقت در حل مسائل coding واقعی (بدون/با compute بالا) | ۷۲.۷% (۸۰.۲%) | ۷۲.۵% (۷۹.۴%) | ~۵۴.۶% | ۷۴.۹% |
| GPQA Diamond | سؤالات علمی سطح PhD (reasoning) | ۷۵.۴% | ۷۹.۶% (۸۳.۳%) | ~۷۰% | ۸۹.۴% (با tools) |
| MMLU | دانش عمومی چندرشتهای | ۸۶.۵% | ۸۸.۸% | ~۸۶% | ~۹۰%+ (تخمینی) |
| AIME 2025 | مسائل ریاضی رقابتی (math) | ۷۰.۵% | ۷۵.۵% (۹۰%) | ~۶۰% | ۱۰۰% (با tools) |
| TerminalBench | وظایف terminal-based coding | ۳۵.۵% | ۴۳.۲% (۵۰%) | ۳۰.۳% | ~۴۵% (تخمینی) |
| TAU-bench | وظایف agentic (retail/airline) | ۸۰.۵%/۶۰% | ۸۱.۴%/۵۹.۶% | ~۷۵% | ~۸۲% (تخمینی) |
- تحلیل: GPT-5 در math و reasoning با tools برتری داره، اما Claude Opus 4.1 در coding sustained (طولانیمدت) و debugging دقیقتره. Sonnet 4 رقابتیه اما برای کارهای سبکتر مناسبه. GPT-4o در همه جا عقبه.
۳. قابلیتهای فنی (Capabilities)
- Context Window (ظرفیت ورودی):
- Claude Sonnet 4 / Opus 4.1: 200K tokens (مناسب برای اسناد طولانی، اما کمتر از رقبا).
- GPT-4o: 128K tokens.
- GPT-5: 400K tokens (بهترین برای تحلیل دادههای عظیم مثل codebaseهای بزرگ).
- Output Tokens (ظرفیت خروجی):
- Claude: تا 64K.
- GPT-4o: 4K-16K.
- GPT-5: 128K (ایدهآل برای گزارشهای طولانی).
- Reasoning و Extended Thinking:
- Claude: “Extended thinking” mode برای reasoning multistep (تا چند ساعت)، با memory tracking و ۶۵% کمتر hallucination (اشتباهات خیالی) نسبت به مدلهای قبلی.
- GPT-5: “Thinking” chain-of-thought با tools (مثل Python)، که عملکرد رو تا ۲۲% در coding افزایش میده. hallucination <1% در تستهای پزشکی.
- GPT-4o: reasoning پایه، بدون modes پیشرفته.
- Coding و Tool Use:
- همه مدلها tool use (مثل web search، parallel execution) رو ساپورت میکنن، اما Claude Opus در agent workflows (مثل refactoring پروژههای open-source) برتره. GPT-5 در polyglot coding (چندزبانه) ۸۸% دقت داره.
- Vision و Multimodal:
- Claude: پشتیبانی پایه از vision (تصاویر)، اما تمرکز روی text.
- GPT-5 / GPT-4o: قویتر در multimodal (تصاویر + text)، مناسب برای تحلیل بصری.
- سایر: Claude کمتر به shortcuts (راهحلهای غیراخلاقی) متوسل میشه؛ GPT-5 safety-focused برای health queries.
۴. سرعت، هزینه و دسترسی
- سرعت:
- Claude Sonnet 4: سریعترین (near-instant responses)، مناسب free tier.
- Opus 4.1: کندتر در extended mode، اما sustained برای tasks طولانی.
- GPT-5: بهینهشده برای سرعت، با latency پایین در API.
- GPT-4o: متوسط.
- هزینه (per million tokens, input/output):
- Sonnet 4: $3 / $15 (ارزانترین).
- Opus 4.1: $15 / $75 (گرانترین).
- GPT-4o: ~$5 / $15.
- GPT-5: $1.25 / $10 (بهترین value برای حجم بالا).
- دسترسی در Copilot Studio: همه از طریق opt-in، با fallback به GPT-4o. Claude برای reasoning عمیق، GPT-5 برای agentic tasks پیشنهاد میشه.
۵. نتیجهگیری و پیشنهاد
- بهترین برای…:
- Coding پیچیده: Claude Opus 4.1 (reliability بالا).
- Math/Reasoning: GPT-5 (با tools).
- کارهای عمومی/ارزان: Sonnet 4.
- حجم داده بالا: GPT-5 (context بزرگ).
- در Copilot Studio، بسته به use case (مثل HR agent)، تست کن – مثلاً Claude برای compliance checks، GPT-5 برای creative tasks.