blog
راهاندازی مدل هوش مصنوعی جدید “computer use” توسط گوگل
گوگل دیپمایند (Google DeepMind) مدل جدیدی به نام Gemini 2.5 Computer Use را معرفی کرده است. این مدل بر پایه قابلیتهای بصری و استدلالی Gemini 2.5 Pro ساخته شده و به عوامل هوش مصنوعی (AI agents) اجازه میدهد تا مستقیماً با رابطهای کاربری گرافیکی (UI) تعامل کنند، درست مانند یک انسان که کلیک میکند، تایپ میکند یا اسکرول میکند. این پیشرفت، گام مهمی به سوی ساخت عوامل عمومی و قدرتمند هوش مصنوعی است، زیرا بسیاری از وظایف دیجیتال هنوز به تعامل مستقیم با UI نیاز دارند و نه فقط APIهای ساختیافته. در ادامه، این خبر را با جزئیات تحلیل میکنم، بر اساس محتوای رسمی وبلاگ گوگل.
۱. قابلیت “Computer Use” چیست؟
این قابلیت، AI را قادر میسازد تا با رابطهای کاربری وب و موبایل (مانند مرورگرها) تعامل کند. به عبارت ساده، مدل میتواند صفحات وب را “ببیند” (از طریق اسکرینشات)، آنها را تحلیل کند و اقدامات انسانیمانند انجام دهد، مانند:
- پر کردن و ارسال فرمها.
- دستکاری عناصر تعاملی مثل منوهای کشویی (dropdowns) یا فیلترها.
- کار کردن پشت لاگینها (ورود به حسابها).
این مدل عمدتاً برای مرورگرهای وب بهینهسازی شده، اما پتانسیل خوبی برای کنترل UI موبایل هم نشان میدهد. هنوز برای کنترل سطح سیستمعامل دسکتاپ (مثل ویندوز یا مک) بهینه نیست. هدف اصلی، حل مشکلی است که بسیاری از وظایف روزمره (مانند رزرو آنلاین یا مدیریت دادهها) بدون API مستقیم، نیاز به UI دارند.
۲. چگونگی کارکرد مدل (جزئیات فنی)
مدل از طریق یک حلقه تکراری (loop) کار میکند و از ابزار جدید computer_use در API جمینی استفاده میکند. مراحل به این صورت است:
- ورودیها: درخواست کاربر، اسکرینشات محیط فعلی، و تاریخچه اقدامات اخیر. میتوان exclusions (اقدامات ممنوعه) یا توابع سفارشی اضافه کرد.
- تحلیل و خروجی: مدل ورودیها را پردازش میکند و معمولاً یک فراخوانی تابع (function call) برای اقدامی مثل کلیک یا تایپ تولید میکند. در موارد حساس (مثل خرید)، ممکن است تأیید کاربر بخواهد.
- اجرا و تکرار: کد سمت کلاینت اقدام را اجرا میکند، اسکرینشات جدید و URL فعلی را برمیگرداند، و حلقه از نو شروع میشود تا وظیفه کامل شود یا خطایی رخ دهد.
دموهای ارائهشده (با سرعت ۳ برابر) مثالهای واقعی نشان میدهند، مثل:
- استخراج جزئیات حیوان خانگی از یک سایت و اضافه کردن به CRM اسپا، سپس رزرو نوبت با متخصص خاص.
- سازماندهی یادداشتهای چسبنده در یک اپ وب برای یک باشگاه هنری.
این ساختار، مدل را برای وظایف پیچیده و چندمرحلهای مناسب میکند، اما وابسته به کیفیت اسکرینشات و سرعت اجرا است.
۳. ادغام با مدلهای جمینی
این مدل بر پایه Gemini 2.5 Pro ساخته شده، که قابلیتهای بصری (vision) و استدلال (reasoning) قوی دارد. از طریق API جمینی در Google AI Studio و Vertex AI در دسترس است، و به توسعهدهندگان اجازه میدهد آن را در workflowهای agentic ادغام کنند. این ادغام، جمینی را از یک مدل زبانی ساده به یک عامل عملیاتی تبدیل میکند.
۴. عملکرد و بنچمارکها
مدل در بنچمارکهای کنترل وب و موبایل (مانند Online-Mind2Web، WebVoyager و AndroidWorld) عملکرد برتر نسبت به رقبا دارد، با تأخیر کمتر. بر اساس ارزیابیهای داخلی و Browserbase:
- دقت بیش از ۷۰٪ در کنترل مرورگر با تأخیر حدود ۲۲۵ ثانیه.
- رهبری در کیفیت و سرعت (scatterplot latency vs. quality نشاندهنده برتری است).
این اعداد خودگزارششده هستند، اما ارزیابیهای مستقل (مثل پست بلاگ Browserbase) آن را تأیید میکنند. نقطه قوت: تعادل بین کیفیت بالا و تأخیر پایین، که برای کاربردهای واقعی حیاتی است.
۵. در دسترس بودن و دسترسی
مدل از امروز (زمان انتشار خبر) در پیشنمایش عمومی (public preview) در دسترس است. توسعهدهندگان میتوانند از طریق:
- Google AI Studio (برای تست سریع).
- Vertex AI (برای تولید صنعتی).
شروع کنند. برنامه دسترسی زودهنگام (early access) قبلاً برای برخی کاربران فعال بوده و بازخوردهای مثبتی برای دستیاران شخصی و اتوماسیون workflow دریافت کرده.
۶. مثالهای استفاده
- توسعه نرمافزار: تیمهای گوگل از آن برای تست UI استفاده میکنند، مثل Project Mariner (عامل تست فایربیس) و قابلیتهای agentic در AI Mode جستجوی گوگل.
- کاربردهای شخصی: اتوماسیون وظایف مثل رزرو نوبت یا سازماندهی دادهها.
- بازخورد کاربران: کاربران اولیه گزارش دادهاند که برای تست UI و دستیاران شخصی “نتایج قوی” داشته، هرچند نقلقولهای دقیق در محتوا ناقص است.
این موارد نشاندهنده پتانسیل عملی فوری است، به ویژه در شتابدهی توسعه نرمافزار.
۷. ملاحظات ایمنی
تعامل AI با کامپیوتر ریسکهایی مثل سوءاستفاده عمدی، رفتار غیرمنتظره، یا حملات prompt injection (در محیط وب) دارد. گوگل ایمنی را مستقیماً در مدل آموزش داده و ویژگیهایی مثل:
- سرویس ایمنی هر مرحله: ارزیابی خارجی قبل از اجرای هر اقدام.
- دستورالعملهای سیستم: رد یا درخواست تأیید برای اقدامات پرریسک (مثل آسیب به امنیت سیستم، دور زدن CAPTCHA، یا کنترل دستگاههای پزشکی).
ارائه میدهد. جزئیات در Gemini 2.5 Computer Use System Card آمده و توصیه میشود توسعهدهندگان سیستمها را قبل از لانچ تست کنند. این رویکرد، تعادل بین نوآوری و مسئولیت را حفظ میکند.
۸. برنامههای آینده و پیامدها
این مدل، “گام بعدی حیاتی” برای عوامل عمومی AI توصیف شده و قبلاً در API جمینی پیشنمایش داده شده بود. پیامدها:
- مثبت: شتاب در اتوماسیون وظایف دیجیتال، بهبود بهرهوری در توسعه نرمافزار، و گسترش دستیاران هوشمند (مثل ادغام در جستجوی گوگل).
- چالشها: افزایش ریسکهای امنیتی با گسترش عوامل AI، نیاز به مقررات بیشتر، و رقابت شدید با مدلهایی مثل Anthropic یا OpenAI.
- آینده: تمرکز بر بهینهسازی برای موبایل و دسکتاپ، و ادغام عمیقتر در محصولات گوگل.
در کل، این خبر نشاندهنده جهش گوگل در جهت AI agentic است – از درک زبان به عمل واقعی. با توجه به دسترسی فوری، توسعهدهندگان میتوانند سریع آزمایش کنند، اما ایمنی اولویت دارد.
پرایم سیستم، رهبر فناوری اطلاعات در قزوین و زنجان، با افتخار نمایندگی رسمی معتبرترین برندهای ایران و جهان است:
۱- تخت جمشید:
پرایم سیستم، پیشگام سختافزار، گیمینگ، رندرینگ و لوازم جانبی کامپیوتر
۲- سیناپ:
پرایم سیستم، سیستمهای AIDC
پیشرو در شناسایی خودکار و جمعآوری داده، نرمافزارهای انبار و لجستیک و تجهیزات بارکد/RFID برای صنایع تولیدی، خردهفروشی و راهحلهای دقیق برای زنجیره تأمین.
۳- ماپرا:
پرایم سیستم، تحول دیجیتال صنعت F&B
نرمافزار یکپارچه مدیریت فروش، انبارداری، باشگاه مشتریان و رزرو آنلاین بر پایه فناوری ابری و دادهمحور، همراه هزاران رستوران، کافه و فستفود برای مدیریت بدون محدودیت مکان/زمان، افزایش کارایی و هوشمندسازی عملیات.
۴- سختافزار:
پرایم سیستم، پیشتاز قطعات دیجیتال
فروش آنلاین/آفلاین قطعات کامپیوتر و دیجیتال و نمایندگی برندهای ایرانی/خارجی، ارسال به تمام ایران، سیستمهای گیمینگ/رندرینگ/ماینینگ و تیم اورکلاکر حرفهای. تولید محتوای تخصصی، برترین فروشگاه سخت افزار و نرم افزار قزوین/زنجان.
۵- نیلپر:
پرایم سیستم، تولیدکننده محصولات ارگونومیک، کوله و کیف
تمرکز بر کیفیت، طراحی دانشمحور و بازارهای اداری/آموزشی/رستورانی. مدیریت استراتژیک برای رضایت مشتری.
۶- زبرآسیا:
پرایم سیستم، فناوری AIDC و بارکد
تسهیل در جمعآوری داده بدون خطا با تمرکز بر بارکد و AID، راهحلهای اطلاعاتی برای صنایع، افزایش سرعت/دقت و برنامهریزی منابع. تکیه بر متخصصان داخلی و دانش جهانی، جلب اعتماد مشتریان.