راه‌اندازی مدل هوش مصنوعی جدید “computer use” توسط گوگل

ارسال شده توسط امیر متفکر

21 بهمن, 1404

در 19 مهر, 1404

گوگل دیپ‌مایند (Google DeepMind) مدل جدیدی به نام Gemini 2.5 Computer Use را معرفی کرده است. این مدل بر پایه قابلیت‌های بصری و استدلالی Gemini 2.5 Pro ساخته شده و به عوامل هوش مصنوعی (AI agents) اجازه می‌دهد تا مستقیماً با رابط‌های کاربری گرافیکی (UI) تعامل کنند، درست مانند یک انسان که کلیک می‌کند، تایپ می‌کند یا اسکرول می‌کند. این پیشرفت، گام مهمی به سوی ساخت عوامل عمومی و قدرتمند هوش مصنوعی است، زیرا بسیاری از وظایف دیجیتال هنوز به تعامل مستقیم با UI نیاز دارند و نه فقط APIهای ساخت‌یافته. در ادامه، این خبر را با جزئیات تحلیل می‌کنم، بر اساس محتوای رسمی وبلاگ گوگل.

۱. قابلیت “Computer Use” چیست؟

این قابلیت، AI را قادر می‌سازد تا با رابط‌های کاربری وب و موبایل (مانند مرورگرها) تعامل کند. به عبارت ساده، مدل می‌تواند صفحات وب را “ببیند” (از طریق اسکرین‌شات)، آن‌ها را تحلیل کند و اقدامات انسانی‌مانند انجام دهد، مانند:

پر کردن و ارسال فرم‌ها.
دستکاری عناصر تعاملی مثل منوهای کشویی (dropdowns) یا فیلترها.
کار کردن پشت لاگین‌ها (ورود به حساب‌ها).

این مدل عمدتاً برای مرورگرهای وب بهینه‌سازی شده، اما پتانسیل خوبی برای کنترل UI موبایل هم نشان می‌دهد. هنوز برای کنترل سطح سیستم‌عامل دسکتاپ (مثل ویندوز یا مک) بهینه نیست. هدف اصلی، حل مشکلی است که بسیاری از وظایف روزمره (مانند رزرو آنلاین یا مدیریت داده‌ها) بدون API مستقیم، نیاز به UI دارند.

۲. چگونگی کارکرد مدل (جزئیات فنی)

مدل از طریق یک حلقه تکراری (loop) کار می‌کند و از ابزار جدید computer_use در API جمینی استفاده می‌کند. مراحل به این صورت است:

ورودی‌ها: درخواست کاربر، اسکرین‌شات محیط فعلی، و تاریخچه اقدامات اخیر. می‌توان exclusions (اقدامات ممنوعه) یا توابع سفارشی اضافه کرد.
تحلیل و خروجی: مدل ورودی‌ها را پردازش می‌کند و معمولاً یک فراخوانی تابع (function call) برای اقدامی مثل کلیک یا تایپ تولید می‌کند. در موارد حساس (مثل خرید)، ممکن است تأیید کاربر بخواهد.
اجرا و تکرار: کد سمت کلاینت اقدام را اجرا می‌کند، اسکرین‌شات جدید و URL فعلی را برمی‌گرداند، و حلقه از نو شروع می‌شود تا وظیفه کامل شود یا خطایی رخ دهد.

دموهای ارائه‌شده (با سرعت ۳ برابر) مثال‌های واقعی نشان می‌دهند، مثل:

استخراج جزئیات حیوان خانگی از یک سایت و اضافه کردن به CRM اسپا، سپس رزرو نوبت با متخصص خاص.
سازماندهی یادداشت‌های چسبنده در یک اپ وب برای یک باشگاه هنری.

این ساختار، مدل را برای وظایف پیچیده و چندمرحله‌ای مناسب می‌کند، اما وابسته به کیفیت اسکرین‌شات و سرعت اجرا است.

۳. ادغام با مدل‌های جمینی

این مدل بر پایه Gemini 2.5 Pro ساخته شده، که قابلیت‌های بصری (vision) و استدلال (reasoning) قوی دارد. از طریق API جمینی در Google AI Studio و Vertex AI در دسترس است، و به توسعه‌دهندگان اجازه می‌دهد آن را در workflowهای agentic ادغام کنند. این ادغام، جمینی را از یک مدل زبانی ساده به یک عامل عملیاتی تبدیل می‌کند.

۴. عملکرد و بنچمارک‌ها

مدل در بنچمارک‌های کنترل وب و موبایل (مانند Online-Mind2Web، WebVoyager و AndroidWorld) عملکرد برتر نسبت به رقبا دارد، با تأخیر کمتر. بر اساس ارزیابی‌های داخلی و Browserbase:

دقت بیش از ۷۰٪ در کنترل مرورگر با تأخیر حدود ۲۲۵ ثانیه.
رهبری در کیفیت و سرعت (scatterplot latency vs. quality نشان‌دهنده برتری است).

این اعداد خودگزارش‌شده هستند، اما ارزیابی‌های مستقل (مثل پست بلاگ Browserbase) آن را تأیید می‌کنند. نقطه قوت: تعادل بین کیفیت بالا و تأخیر پایین، که برای کاربردهای واقعی حیاتی است.

۵. در دسترس بودن و دسترسی

مدل از امروز (زمان انتشار خبر) در پیش‌نمایش عمومی (public preview) در دسترس است. توسعه‌دهندگان می‌توانند از طریق:

Google AI Studio (برای تست سریع).
Vertex AI (برای تولید صنعتی).

شروع کنند. برنامه دسترسی زودهنگام (early access) قبلاً برای برخی کاربران فعال بوده و بازخوردهای مثبتی برای دستیاران شخصی و اتوماسیون workflow دریافت کرده.

۶. مثال‌های استفاده

توسعه نرم‌افزار: تیم‌های گوگل از آن برای تست UI استفاده می‌کنند، مثل Project Mariner (عامل تست فایربیس) و قابلیت‌های agentic در AI Mode جستجوی گوگل.
کاربردهای شخصی: اتوماسیون وظایف مثل رزرو نوبت یا سازماندهی داده‌ها.
بازخورد کاربران: کاربران اولیه گزارش داده‌اند که برای تست UI و دستیاران شخصی “نتایج قوی” داشته، هرچند نقل‌قول‌های دقیق در محتوا ناقص است.

این موارد نشان‌دهنده پتانسیل عملی فوری است، به ویژه در شتاب‌دهی توسعه نرم‌افزار.

۷. ملاحظات ایمنی

تعامل AI با کامپیوتر ریسک‌هایی مثل سوءاستفاده عمدی، رفتار غیرمنتظره، یا حملات prompt injection (در محیط وب) دارد. گوگل ایمنی را مستقیماً در مدل آموزش داده و ویژگی‌هایی مثل:

سرویس ایمنی هر مرحله: ارزیابی خارجی قبل از اجرای هر اقدام.
دستورالعمل‌های سیستم: رد یا درخواست تأیید برای اقدامات پرریسک (مثل آسیب به امنیت سیستم، دور زدن CAPTCHA، یا کنترل دستگاه‌های پزشکی).

ارائه می‌دهد. جزئیات در Gemini 2.5 Computer Use System Card آمده و توصیه می‌شود توسعه‌دهندگان سیستم‌ها را قبل از لانچ تست کنند. این رویکرد، تعادل بین نوآوری و مسئولیت را حفظ می‌کند.

۸. برنامه‌های آینده و پیامدها

این مدل، “گام بعدی حیاتی” برای عوامل عمومی AI توصیف شده و قبلاً در API جمینی پیش‌نمایش داده شده بود. پیامدها:

مثبت: شتاب در اتوماسیون وظایف دیجیتال، بهبود بهره‌وری در توسعه نرم‌افزار، و گسترش دستیاران هوشمند (مثل ادغام در جستجوی گوگل).
چالش‌ها: افزایش ریسک‌های امنیتی با گسترش عوامل AI، نیاز به مقررات بیشتر، و رقابت شدید با مدل‌هایی مثل Anthropic یا OpenAI.
آینده: تمرکز بر بهینه‌سازی برای موبایل و دسکتاپ، و ادغام عمیق‌تر در محصولات گوگل.

در کل، این خبر نشان‌دهنده جهش گوگل در جهت AI agentic است – از درک زبان به عمل واقعی. با توجه به دسترسی فوری، توسعه‌دهندگان می‌توانند سریع آزمایش کنند، اما ایمنی اولویت دارد.

پرایم سیستم، رهبر فناوری اطلاعات در قزوین و زنجان، با افتخار نمایندگی رسمی معتبرترین برندهای ایران و جهان است:

۱- تخت جمشید:
پرایم سیستم، پیشگام سخت‌افزار، گیمینگ، رندرینگ و لوازم جانبی کامپیوتر

۲- سیناپ:
پرایم سیستم، سیستم‌های AIDC
پیشرو در شناسایی خودکار و جمع‌آوری داده، نرم‌افزارهای انبار و لجستیک و تجهیزات بارکد/RFID برای صنایع تولیدی، خرده‌فروشی و راه‌حل‌های دقیق برای زنجیره تأمین.

۳- ماپرا:
پرایم سیستم، تحول دیجیتال صنعت F&B
نرم‌افزار یکپارچه مدیریت فروش، انبارداری، باشگاه مشتریان و رزرو آنلاین بر پایه فناوری ابری و داده‌محور، همراه هزاران رستوران، کافه و فست‌فود برای مدیریت بدون محدودیت مکان/زمان، افزایش کارایی و هوشمندسازی عملیات.

۴- سخت‌افزار:
پرایم سیستم، پیشتاز قطعات دیجیتال
فروش آنلاین/آفلاین قطعات کامپیوتر و دیجیتال و نمایندگی برندهای ایرانی/خارجی، ارسال به تمام ایران، سیستم‌های گیمینگ/رندرینگ/ماینینگ و تیم اورکلاکر حرفه‌ای. تولید محتوای تخصصی، برترین فروشگاه سخت افزار و نرم افزار قزوین/زنجان.

۵- نیلپر:
پرایم سیستم، تولیدکننده محصولات ارگونومیک، کوله و کیف
تمرکز بر کیفیت، طراحی دانش‌محور و بازارهای اداری/آموزشی/رستورانی. مدیریت استراتژیک برای رضایت مشتری.

۶- زبرآسیا:
پرایم سیستم، فناوری AIDC و بارکد
تسهیل در جمع‌آوری داده بدون خطا با تمرکز بر بارکد و AID، راه‌حل‌های اطلاعاتی برای صنایع، افزایش سرعت/دقت و برنامه‌ریزی منابع. تکیه بر متخصصان داخلی و دانش جهانی، جلب اعتماد مشتریان.

پرایم سیستم | پلتفرم ابری ماپرا، سخت افزار و لوازم جانبی

به این مطلب امتیاز دهید:

★ ★ ★ ★ ★

تعداد رأی‌دهندگان: ۲۹ میانگین امتیاز: ۵

ارسال شده توسط امیر متفکر

21 بهمن, 1404

خودروهای الکتریکی را هوشمندتر می‌کند، ممکن است ۲۰٪ فروش EV AI رشد کند.

ادامه مطلب

نرم افزارها

افزونه‌ها

سخت افزار

تعرفه‌ها

محصولات ارگونومی

توریستی

اداری

ورود / ثبت نام

راه‌اندازی مدل هوش مصنوعی جدید “computer use” توسط گوگل

۱. قابلیت “Computer Use” چیست؟

۲. چگونگی کارکرد مدل (جزئیات فنی)

۳. ادغام با مدل‌های جمینی

۴. عملکرد و بنچمارک‌ها

۵. در دسترس بودن و دسترسی

۶. مثال‌های استفاده

۷. ملاحظات ایمنی

۸. برنامه‌های آینده و پیامدها

بوم هوش مصنوعی در مرحله اولیه حباب است

رشد سهام رهبر چیپ‌های AI محاسباتی چین

AI هنوز در وظایف انسانی ساده ضعیف است

آیا AI می‌تواند ۱۰۰ هزار دلار را به ۱ میلیون دلار تبدیل کند؟

شرکت‌های فناوری چینی به رهبری Zhipu AI در بورس هنگ‌کنگ رشد کردند

Lenovo Yoga AI PC با Intel Core Ultra Series 3 آمد

Dell Alienware m18 با RTX 50 series رونمایی شد

Qualcomm Snapdragon XR2+ Gen 3 برای هدست‌های AR/VR معرفی شد

انویدیا پلتفرم Rubin را برای AI نسل بعدی معرفی کرد

Dell XPS AI با Intel Lunar Lake 2 رونمایی شد

Sony Afeela EV با AI autonomy پیشرفته آمد

دیدگاهتان را بنویسید لغو پاسخ

ارائه‌دهنده تخصصی

نرم‌افزار یکپارچه ابری حسابداری و مالی

نرم‌افزار تشخیص‌چهره و پلاک‌خوان

سخت‌افزار، گیمینگ و رندرینگ

اطلاعات تماس

قزوین، بلوار حکیم، نبش حکیم ۱۶، پلاک ۱۸، واحد ۱

تلفن: ۰۲۸۴۴۴۱۶۲۲۷

کدپستی: ۳۴۱۴۷۴۹۲۲۲

نرم افزارها

افزونه‌ها

سخت افزار

تعرفه‌ها

محصولات ارگونومی

توریستی

اداری

blog

۱. قابلیت “Computer Use” چیست؟

۲. چگونگی کارکرد مدل (جزئیات فنی)

۳. ادغام با مدل‌های جمینی

۴. عملکرد و بنچمارک‌ها

۵. در دسترس بودن و دسترسی

۶. مثال‌های استفاده

۷. ملاحظات ایمنی

۸. برنامه‌های آینده و پیامدها

مطالب مرتبط

دیدگاهتان را بنویسید لغو پاسخ

ورود