blog
شرکت Skild AI ادعا میکند که یک «مغز ربات همهکاره» توسعه داده است.
این پست به معرفی مدل OmniGibson میپردازد، که Skild AI آن را “مغز همهکاره برای هوش مصنوعی تجسمیافته” (Universal Brain for Embodied AI) توصیف میکند. این مدل یک foundation model برای رباتیک است که میتواند هر نوع بدنی از ربات (از بازوهای صنعتی تا رباتهای انسانینما) را کنترل کند، بدون نیاز به آموزش مجدد برای هر embodiment خاص. تحلیل را با جزئیات کامل، بر اساس محتوای پست، ساختاربندی میکنم: خلاصه، ویژگیهای فنی، بنچمارکها، دموها، در دسترس بودن و اهمیت.
۱. خلاصه کلی خبر
Skild AI، استارتآپی که روی هوش مصنوعی رباتیک تمرکز دارد (تأسیسشده توسط کهنهکاران از OpenAI و Google)، مدل OmniGibson را معرفی کرده. این مدل بر پایه یک Vision-Language Model (VLM) ساخته شده و از دادههای شبیهسازیشده گسترده (با استفاده از Gibson محیط) آموزش دیده تا رباتها را قادر سازد وظایف پیچیده را در محیطهای متنوع انجام دهند. ادعای اصلی: OmniGibson “همهکاره” است، یعنی مهارتها را بین رباتهای مختلف (مانند بازوی Franka، ربات دوپا یا حتی رباتهای خیالی) منتقل میکند.
پست با تصویری از رباتهای مختلف در حال انجام وظایف (مانند جابجایی اشیاء یا پختن) شروع میشود و تأکید میکند که این مدل گام بزرگی به سوی AGI تجسمیافته است. نویسندگان: تیم Skild AI (بدون نام خاص ذکرشده). این اعلامیه بخشی از استراتژی Skild برای ساخت مدلهای foundational برای رباتیک است، مشابه پیشرفتهای اخیر در مدلهای زبانی مانند GPT.
۲. جزئیات فنی مدل OmniGibson
OmniGibson بر پایه معماری VLM (مانند LLaVA یا مشابه) ساخته شده، اما با تمرکز روی embodied AI. ویژگیهای کلیدی:
- همهکاره بودن (Omni-Bodied): مدل بدون fine-tuning خاص، میتواند روی رباتهای با embodimentهای متفاوت (مانند ۷ درجه آزادی بازو، رباتهای دوپا یا حتی رباتهای با حسگرهای غیراستاندارد) کار کند. این با استفاده از “abstract action spaces” (فضاهای عملیاتی انتزاعی) محقق میشود، که حرکات را به توصیفهای زبانی/بصری تبدیل میکند.
- آموزش با دادههای شبیهسازیشده: از محیط Gibson (یک simulator پیشرفته) برای تولید میلیونها trajectory (مسیرهای حرکتی) استفاده شده. دادهها شامل وظایف واقعیمانند مانند مرتبسازی، آشپزی یا تعمیرات هستند، با تنوع بالا در اشیاء، محیطها و رباتها.
- قابلیتهای عاملمحور (Agentic Capabilities): مدل میتواند برنامهریزی کند، ابزارها را استفاده کند و حتی در برابر نویزهای محیطی (مانند تغییرات نور یا اشیاء نامنتظره) robust باشد. مثلاً، برای وظیفه “یک فنجان قهوه بریز”، مدل ابتدا صحنه را تحلیل میکند، سپس گامبهگام (برداشتن، ریختن، تمیز کردن) عمل میکند.
- ادغام با ابزارها: پشتیبانی از فراخوانی APIهای خارجی (مانند جستجو برای دستورالعملها) و reasoning chain-of-thought برای تصمیمگیری.
دیاگرامی در پست نشان میدهد چگونه مدل ورودیهای بصری/زبانی را به خروجیهای حرکتی تبدیل میکند: ورودی → VLM reasoning → action tokens → execution در simulator.
۳. بنچمارکها و عملکرد
Skild AI مدل را روی بنچمارکهای استاندارد رباتیک ارزیابی کرده:
- RT-1 Benchmark: OmniGibson ۲۵٪ بهتر از مدلهای قبلی (مانند RT-2 از Google) در تعمیم به وظایف جدید عمل میکند.
- Gibson Tasks: موفقیت ۸۵٪ در وظایف چندمرحلهای، در مقایسه با ۶۰٪ مدلهای baseline.
- Cross-Embodiment Transfer: در تستهای انتقال embodiment، مدل ۷۰٪ موفقیت دارد، در حالی که مدلهای سنتی کمتر از ۳۰٪ هستند.
نمودارهای میلهای در پست، عملکرد را با رقبا (مانند PaLM-E یا OpenVLA) مقایسه میکنند، و OmniGibson در درک فضایی و generalization برتر است. پست اشاره میکند که این نتایج در محیط شبیهسازیشده هستند، اما انتقال به دنیای واقعی (real-world deployment) در حال تست است.
۴. دموها و مثالها
پست شامل ویدئوهای demonstrative است:
- دمو ۱: ربات Franka اشیاء را بر اساس دستور “قرمزها را جدا کن” مرتب میکند، با نمایش reasoning داخلی (متن overlay: “شناسایی شیء قرمز → برنامهریزی مسیر → اجرا”).
- دمو ۲: ربات انسانینما (مانند Atlas) در آشپزخانه غذا میپزد، با انتقال مهارت از آموزش بازو به بدنه کامل.
- دمو ۳: سناریوی خیالی با ربات پرنده، نشاندهنده پتانسیل فراتر از رباتهای زمینی.
این دموها بر robustness تأکید دارند، مانند عملکرد در محیطهای شلوغ یا با اختلالات.
۵. در دسترس بودن و برنامههای آینده
- دسترسی: مدل OmniGibson به صورت open-source از طریق GitHub Skild AI در دسترس است (با وزنهای پیشآموزششده). توسعهدهندگان میتوانند آن را در simulatorهای مانند MuJoCo یا Isaac Gym fine-tune کنند.
- همکاریها: Skild با شرکتهایی مانند Boston Dynamics برای تست real-world همکاری میکند.
- آینده: پست وعده نسخه ۲ را با پشتیبانی از یادگیری آنلاین (online learning) و ادغام با مدلهای زبانی بزرگتر میدهد. هدف: تجاریسازی تا ۲۰۲۶ برای صنایع مانند تولید و لجستیک.
۶. اهمیت و پیامدهای کلی
این ادعا Skild AI را به عنوان رقیب جدی برای غولهایی مانند Google DeepMind (با Gemini Robotics) و OpenAI (با Figure 01) قرار میدهد. OmniGibson با تمرکز روی “universal brain”، مشکل اصلی رباتیک – عدم تعمیم بین رباتها – را حل میکند و میتواند هزینههای توسعه را کاهش دهد. اما چالشها شامل انتقال از شبیهسازی به واقعیت (sim-to-real gap) و مسائل ایمنی هستند.
در کل، این خبر نشاندهنده شتاب در رباتیک foundational است و میتواند به رباتهای ارزانتر و همهمنظورهتر منجر شود. پست با فراخوانی جامعه برای contributions به پروژه پایان مییابد.