blog
مدل جدید هوش مصنوعی، تصاویر را به جهانهای سهبعدی قابل کاوش تبدیل میکند
شرکت World Labs، بهروزرسانی مهمی در زمینه “هوش فضایی” (spatial intelligence) منتشر کرد. آنها مدل AI جدیدی معرفی کردند که از تصاویر یا پرامپتهای متنی، جهانهای ۳D پایدار، قابل پیمایش و کنترلپذیر تولید میکند. این مدل در قالب “Marble”، یک بتای محدود دسترسی – در وبسایت marble.worldlabs.ai در دسترس است. کاربران میتوانند جهانهای ۳D را مشاهده، ایجاد و کاوش کنند، بدون محدودیت زمانی، تغییر شکل یا ناسازگاری. نسبت به مدلهای قبلی، جهانها بزرگتر، متنوعتر از نظر سبک و با هندسه ۳D تمیزتر هستند. این خبر، Marble را به عنوان ابزاری برای خالقان بصری (مانند فیلمسازان VR، طراحان بازی و تولیدکنندگان محتوا) معرفی میکند و بر ترکیبپذیری جهانها برای ساخت محیطهای عظیم تأکید دارد.
زمینه و فلسفه World Labs
World Labs، که بر پایه نوآوری در AI generative تمرکز دارد، به دنبال “فردا” (tomorrow) است – جایی که جهانهای ۳D نه تنها تولید میشوند، بلکه پایدار و قابل تعامل هستند. این شرکت، که توسط تیمی از متخصصان AI (مانند Fei-Fei Li، بنیانگذار) اداره میشود، چالشهای سنتی تولید ۳D را هدف قرار داده: زمانبر بودن، ناسازگاری و محدودیتهای ابزارهای موجود مانند depth maps یا point clouds. فلسفه اصلی: دموکراتیک کردن جهانسازی (world-building) برای خالقان، تا آنچه قبلاً هفتهها طول میکشید، در دقیقهها انجام شود. Marble، به عنوان پیشنمایش بتا، پلی به سوی APIهای آینده است و با کتابخانه متنباز Spark ادغام میشود تا خروجیها در وب، موبایل و VR قابل استفاده باشند.
ویژگیهای کلیدی مدل AI و Marble
مدل جدید بر پایه الگوریتمهای پیشرفته generative AI عمل میکند و جهانهای ۳D را از ورودیهای ساده (تصویر یا متن) میسازد. ویژگیهای برجسته:
- تولید جهانهای پایدار و قابل کاوش: بر خلاف مدلهای قبلی که جهانها کوچک یا ناپایدار بودند، این مدل محیطهای “اتاقمانند” (room-sized) با هندسه کامل تولید میکند. کاربران میتوانند آزادانه پیمایش کنند (free viewpoint navigation) و پشت اشیاء را ببینند – بدون نیاز به نرمافزار اضافی، مستقیم در مرورگر.
- صادرات و ادغام: جهانها به فرمت Gaussian splats (spz یا ply) صادر میشوند، که برای پروژههای downstream ایدئال است. کتابخانه Spark (متنباز، مبتنی بر Three.js) رندرینگ کارآمد را در دستگاههای مختلف (دسکتاپ، موبایل، VR) فراهم میکند. مثال: ترکیب جهانهای تولیدشده برای ساخت محیطهای بزرگتر، مانند ویدیو بنر که چندین صحنه را به هم متصل میکند.
- تمرکز بر محیطها: مدل بر فضاهای کلی (مانند اتاقها یا مناظر) تمرکز دارد، نه اشیاء مرکزی (مثل selfies یا حیوانات خانگی) – که کاربران را به سمت کاربردهای حرفهای هدایت میکند.
- دسترسی بتا: در marble.worldlabs.ai، کاربران میتوانند جهانها را مشاهده کنند، بسازند و export نمایند. دعوت به ثبتنام برای دسترسی محدود.
نوآوریهای فنی: بهبودها در هندسه، سبک و مقیاس
سند بر سه پیشرفت کلیدی تأکید دارد، که مدل را از رقبا (مانند Gaussian Splatting در ابزارهای دیگر) متمایز میکند:
- هندسه بهتر (Better Geometry): جهانها هندسه ۳D غنیتری دارند – نه فقط عمق سطحی، بلکه ساختار کامل برای کاوش ۳۶۰ درجه. نقلقول کاربر P.S.: “مانند صحنهسازی فیلمسازانه در یک ست ۳D پایدار.” این برای workflowهایی مانند برنامهریزی شاتهای فیلم یا VR storytelling حیاتی است. مدل، جزئیات پنهان (underbelly) را از ورودیهای چندگانه استخراج میکند، مانند ترکیب عکسهای سفر کاربر J.L.
- سبکهای متنوعتر (More Diverse Styles): مدل سبکهای متنوعی از hyper-realistic تا کارتونی/انیمه را پشتیبانی میکند. نقلقول B.N.: “تولید محیطهای واقعگرایانه یا استایلشده به راحتی، امکانات خلاقانه بینظیری باز میکند.” این اجازه iteration سریع را میدهد – کاربران میتوانند “look and feel” را آزمایش کنند بدون از دست دادن سازگاری.
- نگاهی به صحنههای بزرگتر (A Glimpse of Bigger Scenes): با سازگاری هندسی، کاربران جهانهای کوچک را ترکیب میکنند تا محیطهای عظیم بسازند. نقلقول M.C.: “دریافت هندسه ۳D پایدار در مقیاس، مشکلی سخت است – این مدل مرکزی برای workflowهای ترکیب، ویرایش و حافظه بزرگ خواهد بود.” مثال: پیمایش جهانهای متصلشده، که برای بازیها یا تجربیات تعاملی ایدئال است.
این نوآوریها، مدل را به ابزاری “پیشبینیکننده” برای جهانسازی تبدیل میکنند، با تمرکز بر پایداری (persistence) و کنترلپذیری (controllability).
نقلقولهای کاربران و کاربردها
سند با بازخوردهای واقعی کاربران غنی شده، که پتانسیل را نشان میدهد:
- E.T.: “آنچه هفتهها طول میکشید، حالا در دقیقهها با کنترل کامل ۳D انجام میشود.”
- S.N.: “ادغام خروجیهای Marble در پروژههای بازی و محتوا تعاملی – با API آینده، جهانسازی seamless!”
- E.J.: “به عنوان فیلمساز VR در Unreal Engine، برای داستانگویی و تجربیات تعاملی عالی است.”
- J.L.: “ایدههای تجاری زیادی به ذهن میرسد – سرگرمکننده!”
کاربردها: فیلمسازی VR، طراحی بازی، تولید محتوای تعاملی، و حتی استفادههای تجاری (مانند شبیهسازی فضاها).
تأثیرات و چالشها
- تأثیرات مثبت: Marble خلاقیت را تسریع میکند – زمان تولید ۳D را از ماهها به دقیقهها کاهش میدهد و دسترسی را دموکراتیک میسازد. در صنایع مانند گیمینگ، VR/AR و رسانه، ROI را افزایش میدهد (مثلاً ترکیب آسان برای جهانهای بزرگ). با متنباز بودن Spark، اکوسیستم توسعهدهندگان را گسترش میدهد.
- چالشها: بتای محدود ممکن است دسترسی را محدود کند؛ تمرکز بر محیطها (نه اشیاء شخصی) برخی کاربران را ناامید میکند. مقیاسپذیری بزرگ (large-scale) هنوز در مرحله “glimpse” است و نیاز به API کامل دارد. مسائل فنی مانند کیفیت رندرینگ در دستگاههای ضعیف یا حریم خصوصی دادههای ورودی، پتانسیل چالش هستند.
آینده و نتیجهگیری
World Labs این را “روزهای اولیه” میداند و دعوت به کاوش Marble و همکاری (پیوستن به تیم) میکند. آینده شامل API باز، جهانهای بزرگتر و ادغامهای پیشرفته (مانند Unreal Engine) است. این خبر، لحظهای کلیدی در AI generative ۳D است – شبیه به گذار از ۲D به ۳D در گرافیک کامپیوتری. Marble نه تنها جهانها میسازد، بلکه خالقان را به کاوشگر تبدیل میکند. اگر به VR، بازی یا خلاقیت بصری علاقهمندید، ثبتنام در marble.worldlabs.ai را امتحان کنید. World Labs، با این گام، مرزهای spatial AI را جابهجا میکند و پتانسیل تحول صنایع خلاق را دارد.