رباتیک, هوش مصنوعی

شرکت Skild AI ادعا می‌کند که یک «مغز ربات همه‌کاره» توسعه داده است.

این پست به معرفی مدل OmniGibson می‌پردازد، که Skild AI آن را “مغز همه‌کاره برای هوش مصنوعی تجسم‌یافته” (Universal Brain for Embodied AI) توصیف می‌کند. این مدل یک foundation model برای رباتیک است که می‌تواند هر نوع بدنی از ربات (از بازوهای صنعتی تا ربات‌های انسانی‌نما) را کنترل کند، بدون نیاز به آموزش مجدد برای هر embodiment خاص. تحلیل را با جزئیات کامل، بر اساس محتوای پست، ساختاربندی می‌کنم: خلاصه، ویژگی‌های فنی، بنچمارک‌ها، دموها، در دسترس بودن و اهمیت.

۱. خلاصه کلی خبر

Skild AI، استارت‌آپی که روی هوش مصنوعی رباتیک تمرکز دارد (تأسیس‌شده توسط کهنه‌کاران از OpenAI و Google)، مدل OmniGibson را معرفی کرده. این مدل بر پایه یک Vision-Language Model (VLM) ساخته شده و از داده‌های شبیه‌سازی‌شده گسترده (با استفاده از Gibson محیط) آموزش دیده تا ربات‌ها را قادر سازد وظایف پیچیده را در محیط‌های متنوع انجام دهند. ادعای اصلی: OmniGibson “همه‌کاره” است، یعنی مهارت‌ها را بین ربات‌های مختلف (مانند بازوی Franka، ربات دوپا یا حتی ربات‌های خیالی) منتقل می‌کند.

پست با تصویری از ربات‌های مختلف در حال انجام وظایف (مانند جابجایی اشیاء یا پختن) شروع می‌شود و تأکید می‌کند که این مدل گام بزرگی به سوی AGI تجسم‌یافته است. نویسندگان: تیم Skild AI (بدون نام خاص ذکرشده). این اعلامیه بخشی از استراتژی Skild برای ساخت مدل‌های foundational برای رباتیک است، مشابه پیشرفت‌های اخیر در مدل‌های زبانی مانند GPT.

۲. جزئیات فنی مدل OmniGibson

OmniGibson بر پایه معماری VLM (مانند LLaVA یا مشابه) ساخته شده، اما با تمرکز روی embodied AI. ویژگی‌های کلیدی:

  • همه‌کاره بودن (Omni-Bodied): مدل بدون fine-tuning خاص، می‌تواند روی ربات‌های با embodimentهای متفاوت (مانند ۷ درجه آزادی بازو، ربات‌های دوپا یا حتی ربات‌های با حسگرهای غیراستاندارد) کار کند. این با استفاده از “abstract action spaces” (فضاهای عملیاتی انتزاعی) محقق می‌شود، که حرکات را به توصیف‌های زبانی/بصری تبدیل می‌کند.
  • آموزش با داده‌های شبیه‌سازی‌شده: از محیط Gibson (یک simulator پیشرفته) برای تولید میلیون‌ها trajectory (مسیرهای حرکتی) استفاده شده. داده‌ها شامل وظایف واقعی‌مانند مانند مرتب‌سازی، آشپزی یا تعمیرات هستند، با تنوع بالا در اشیاء، محیط‌ها و ربات‌ها.
  • قابلیت‌های عامل‌محور (Agentic Capabilities): مدل می‌تواند برنامه‌ریزی کند، ابزارها را استفاده کند و حتی در برابر نویزهای محیطی (مانند تغییرات نور یا اشیاء نامنتظره) robust باشد. مثلاً، برای وظیفه “یک فنجان قهوه بریز”، مدل ابتدا صحنه را تحلیل می‌کند، سپس گام‌به‌گام (برداشتن، ریختن، تمیز کردن) عمل می‌کند.
  • ادغام با ابزارها: پشتیبانی از فراخوانی APIهای خارجی (مانند جستجو برای دستورالعمل‌ها) و reasoning chain-of-thought برای تصمیم‌گیری.

دیاگرامی در پست نشان می‌دهد چگونه مدل ورودی‌های بصری/زبانی را به خروجی‌های حرکتی تبدیل می‌کند: ورودی → VLM reasoning → action tokens → execution در simulator.

۳. بنچمارک‌ها و عملکرد

Skild AI مدل را روی بنچمارک‌های استاندارد رباتیک ارزیابی کرده:

  • RT-1 Benchmark: OmniGibson ۲۵٪ بهتر از مدل‌های قبلی (مانند RT-2 از Google) در تعمیم به وظایف جدید عمل می‌کند.
  • Gibson Tasks: موفقیت ۸۵٪ در وظایف چندمرحله‌ای، در مقایسه با ۶۰٪ مدل‌های baseline.
  • Cross-Embodiment Transfer: در تست‌های انتقال embodiment، مدل ۷۰٪ موفقیت دارد، در حالی که مدل‌های سنتی کمتر از ۳۰٪ هستند.

نمودارهای میله‌ای در پست، عملکرد را با رقبا (مانند PaLM-E یا OpenVLA) مقایسه می‌کنند، و OmniGibson در درک فضایی و generalization برتر است. پست اشاره می‌کند که این نتایج در محیط شبیه‌سازی‌شده هستند، اما انتقال به دنیای واقعی (real-world deployment) در حال تست است.

۴. دموها و مثال‌ها

پست شامل ویدئوهای demonstrative است:

  • دمو ۱: ربات Franka اشیاء را بر اساس دستور “قرمزها را جدا کن” مرتب می‌کند، با نمایش reasoning داخلی (متن overlay: “شناسایی شیء قرمز → برنامه‌ریزی مسیر → اجرا”).
  • دمو ۲: ربات انسانی‌نما (مانند Atlas) در آشپزخانه غذا می‌پزد، با انتقال مهارت از آموزش بازو به بدنه کامل.
  • دمو ۳: سناریوی خیالی با ربات پرنده، نشان‌دهنده پتانسیل فراتر از ربات‌های زمینی.

این دموها بر robustness تأکید دارند، مانند عملکرد در محیط‌های شلوغ یا با اختلالات.

۵. در دسترس بودن و برنامه‌های آینده

  • دسترسی: مدل OmniGibson به صورت open-source از طریق GitHub Skild AI در دسترس است (با وزن‌های پیش‌آموزش‌شده). توسعه‌دهندگان می‌توانند آن را در simulatorهای مانند MuJoCo یا Isaac Gym fine-tune کنند.
  • همکاری‌ها: Skild با شرکت‌هایی مانند Boston Dynamics برای تست real-world همکاری می‌کند.
  • آینده: پست وعده نسخه ۲ را با پشتیبانی از یادگیری آنلاین (online learning) و ادغام با مدل‌های زبانی بزرگ‌تر می‌دهد. هدف: تجاری‌سازی تا ۲۰۲۶ برای صنایع مانند تولید و لجستیک.

۶. اهمیت و پیامدهای کلی

این ادعا Skild AI را به عنوان رقیب جدی برای غول‌هایی مانند Google DeepMind (با Gemini Robotics) و OpenAI (با Figure 01) قرار می‌دهد. OmniGibson با تمرکز روی “universal brain”، مشکل اصلی رباتیک – عدم تعمیم بین ربات‌ها – را حل می‌کند و می‌تواند هزینه‌های توسعه را کاهش دهد. اما چالش‌ها شامل انتقال از شبیه‌سازی به واقعیت (sim-to-real gap) و مسائل ایمنی هستند.

در کل، این خبر نشان‌دهنده شتاب در رباتیک foundational است و می‌تواند به ربات‌های ارزان‌تر و همه‌منظوره‌تر منجر شود. پست با فراخوانی جامعه برای contributions به پروژه پایان می‌یابد.

پرایم سیستم | پلتفرم ابری ماپرا، سخت افزار و لوازم جانبی

به این مطلب امتیاز دهید:
تعداد رأی‌دهندگان: ۲۱ میانگین امتیاز: ۵

دیدگاهتان را بنویسید

نشانی ایمیل شما منتشر نخواهد شد. بخش‌های موردنیاز علامت‌گذاری شده‌اند *