blog
مدل استدلال باز و جدید محقق هوش مصنوعی سامسونگ، TRM، در مسائل خاص، از مدلهایی که ۱۰۰۰۰ برابر بزرگتر هستند، بهتر عمل میکند.
محققان مؤسسه پیشرفته فناوری سامسونگ (SAIT) در مونترال کانادا، مدل جدیدی به نام Tiny Recursion Model (TRM) را معرفی کردهاند که با تنها ۷ میلیون پارامتر، در وظایف استدلال ساختیافته خاص، عملکردی بهتر یا برابر با مدلهای غولپیکری مانند o3-mini از OpenAI یا Gemini 2.5 Pro از گوگل (که ۱۰,۰۰۰ برابر بزرگتر هستند) دارد. این مدل، از طریق مقاله تحقیقاتی “Less is More: Recursive Reasoning with Tiny Networks” در arXiv منتشر شده و هدف آن اثبات این است که مدلهای AI کارآمد و قدرتمند میتوانند بدون سرمایهگذاریهای عظیم در GPU و انرژی، ساخته شوند. TRM بر پایه مدل قبلی Hierarchical Reasoning Model (HRM) ساخته شده، اما سادهتر است و بر استدلال بازگشتی تمرکز دارد. در ادامه، بر اساس محتوای مقاله VentureBeat، جزئیات را با ساختار تحلیل میکنم.
۱. مقدمه و اعلام
اعلام این مدل توسط الکسیا جولیکور-مارتینهائو (Alexia Jolicoeur-Martineau)، محقق ارشد AI در SAIT، انجام شده و بر فلسفه “کمتر، بیشتر است” (Less is More) تأکید دارد. TRM نشان میدهد که تمرکز بر استدلال بازگشتی میتواند جایگزین مقیاسپذیری عظیم شود، جایی که مدلهای بزرگ اغلب در وظایف انتزاعی و ترکیبیاتی شکست میخورند. این پیشرفت، بخشی از تلاش سامسونگ برای ایجاد مدلهای مقرونبهصرفه است و از دام “وابستگی به مدلهای پایه عظیم” (مانند LLMهای میلیارد دلاری) دوری میکند.
۲. معماری مدل و روش آموزش
TRM از یک مدل دو لایه ساده استفاده میکند که به طور بازگشتی پیشبینیهای خود را تصحیح میکند، بدون نیاز به سلسلهمراتب دو شبکهای یا قضیه نقاط ثابت در HRM. فرآیند به این صورت است:
- ورودی اولیه: سؤال جاسازیشده (x)، پاسخ اولیه (y) و نمایندگی نهان داخلی (z).
- حلقه بازگشتی: مدل z را بهروزرسانی کرده و y را تصحیح میکند تا به همگرایی برسد، که خطاهای مراحل قبلی را برطرف میکند. حداکثر ۱۶ گام نظارتشده (supervision steps) و مکانیسم توقف سبک (halting mechanism) برای پایان فرآیند استفاده میشود.
- تغییرات فنی: خود-توجه (self-attention) را با MLP ساده برای وظایف کوچک مانند Sudoku جایگزین میکند، اما برای شبکههای بزرگتر مانند پازلهای ARC حفظ میکند.
آموزش از صفر (pretraining from scratch) با دادههای کوچک و تعریفشده (مانند شبکههای ورودی-خروجی برای Sudoku، Maze و ARC-AGI) انجام میشود، همراه با افزایش داده (data augmentation) مانند تغییر رنگها و تحولات هندسی. نیاز محاسباتی: از یک GPU NVIDIA L40S برای Sudoku تا چند GPU H100 برای ARC-AGI.
۳. عملکرد بنچمارکها و مقایسه با مدلهای بزرگتر
TRM در وظایف ساختیافته بصری و شبکهای (grid-based) مانند پازلهای ARC-AGI (که برای انسان آسان اما برای AI سخت است، مانند مرتبسازی رنگها بر اساس الگوی قبلی اما غیرمشابه) برتر عمل میکند. نتایج کلیدی:
- ۸۷.۴٪ دقت در Sudoku-Extreme (در مقابل ۵۵٪ HRM).
- ۸۵٪ دقت در Maze-Hard.
- ۴۵٪ دقت در ARC-AGI-1.
- ۸٪ دقت در ARC-AGI-2.
این نتایج، مدل را با یا برتر از DeepSeek R1، Gemini 2.5 Pro و o3-mini قرار میدهد، در حالی که TRM کمتر از ۰.۰۱٪ پارامترهای آنها را دارد. کاهش پیچیدگی (مانند لایههای کمتر) به تعمیمپذیری بهتر منجر شده، در حالی که افزایش اندازه باعث overfitting میشود. TRM در استدلال ترکیبیاتی و انتزاعی (مانند حل ماز یا پازلهای بصری) برتری دارد، اما برای زبان عمومی طراحی نشده.
۴. دسترسی و منبعباز بودن
کد TRM تحت لایسنس MIT در GitHub در دسترس است و شامل اسکریپتهای کامل آموزش، ارزیابی، ساخت دیتاست برای Sudoku، Maze و ARC-AGI، و تنظیمات مرجع برای بازتولید نتایج است. این منبعباز بودن، به محققان و شرکتها اجازه میدهد آن را برای اهداف تجاری تغییر دهند، اما مدل برای وظایف استدلال ساختیافته خاص بهینهسازی شده، نه مدلسازی زبانی عمومی.
۵. نقلقولهای کلیدی از محققان
- الکسیا جولیکور-مارتینهائو: “ایده وابستگی به مدلهای پایه عظیم که میلیونها دلار هزینه دارند، یک دام است. تمرکز بیش از حد بر بهرهبرداری از LLMها وجود دارد، نه ابداع خطوط جدید.”
- الکسیکور-مارتینهائو: “با استدلال بازگشتی، ‘کمتر، بیشتر است’. یک مدل کوچک از صفر آموزشدیده، که بر خود بازگشتی میکند و پاسخها را بهروزرسانی میکند، بدون ورشکستگی مالی دستاوردهای زیادی میتواند داشته باشد.”
- یونمین چا: آموزش TRM به افزایش داده سنگین و پاسهای بازگشتی وابسته است، “محاسبات بیشتر، مدل یکسان.”
- چی لاودای: TRM یک حلکننده (solver) است، نه مدل چت یا تولید متن؛ در استدلال ساختیافته عالی است اما نه در زبان باز.
- سباستین راشکا: TRM سادهسازی مهمی از HRM است، نه هوش عمومی جدید؛ فرآیند آن “حلقه دو مرحلهای برای بهروزرسانی حالت استدلال داخلی و تصحیح پاسخ” است.
- آگوستین نابله: قدرت مدل در ساختار استدلال واضح آن است، اما کارهای آینده باید انتقال به انواع مشکلات کمتر محدود را نشان دهد.
واکنشهای جامعه در X: ستایش به عنوان “۱۰,۰۰۰ برابر کوچکتر اما هوشمندتر” و گام به سوی معماریهایی که “فکر میکنند نه فقط مقیاس میپذیرند”، هرچند منتقدان دامنه محدود و وابستگی به محاسبات را اشاره کردهاند.
۶. پیامدها برای کارایی AI
TRM نشان میدهد که recursion میتواند جایگزین مقیاس در استدلال انتزاعی و ترکیبیاتی شود، جایی که مدلهای بزرگ اغلب ضعیف هستند. مینیمالیسم آن (لایههای کمتر، بدون سلسلهمراتب، عمق بازگشتی با نظارت عمیق) کارایی و تعمیمپذیری را بدون هزینههای مدلهای عظیم فراهم میکند. این رویکرد، فلسفه “مقیاس همه چیز است” را به چالش میکشد و AI را برای آزمایشگاههای خارج از شرکتهای بزرگ قابل دسترستر میسازد.
۷. برنامههای آینده
جولیکور-مارتینهائو پیشنهاد بررسی نسخههای generative یا چندپاسخ (تولید چندین راهحل احتمالی به جای یکی قطعی) را داده. سؤالات باز شامل قوانین مقیاسپذیری برای recursion و گسترش اصل “کمتر، بیشتر است” با افزایش پیچیدگی مدل یا داده است. کارهای آینده باید انتقال به مشکلات کمتر محدود را اثبات کند.
در کل، TRM یک پیشرفت هیجانانگیز در AI کارآمد است که نشان میدهد نوآوریهای معماری میتواند بر مقیاس غالب شود، به ویژه در وظایف خاص. این مدل، سامسونگ را به عنوان پیشرو در مدلهای کوچک اما قدرتمند تثبیت میکند و میتواند الهامبخش تحقیقات منبعباز باشد.
پرایم سیستم، رهبر فناوری اطلاعات در قزوین و زنجان، با افتخار نمایندگی رسمی معتبرترین برندهای ایران و جهان است:
۱- تخت جمشید:
پرایم سیستم، پیشگام سختافزار، گیمینگ، رندرینگ و لوازم جانبی کامپیوتر
۲- سیناپ:
پرایم سیستم، سیستمهای AIDC
پیشرو در شناسایی خودکار و جمعآوری داده، نرمافزارهای انبار و لجستیک و تجهیزات بارکد/RFID برای صنایع تولیدی، خردهفروشی و راهحلهای دقیق برای زنجیره تأمین.
۳- ماپرا:
پرایم سیستم، تحول دیجیتال صنعت F&B
نرمافزار یکپارچه مدیریت فروش، انبارداری، باشگاه مشتریان و رزرو آنلاین بر پایه فناوری ابری و دادهمحور، همراه هزاران رستوران، کافه و فستفود برای مدیریت بدون محدودیت مکان/زمان، افزایش کارایی و هوشمندسازی عملیات.
۴- سختافزار:
پرایم سیستم، پیشتاز قطعات دیجیتال
فروش آنلاین/آفلاین قطعات کامپیوتر و دیجیتال و نمایندگی برندهای ایرانی/خارجی، ارسال به تمام ایران، سیستمهای گیمینگ/رندرینگ/ماینینگ و تیم اورکلاکر حرفهای. تولید محتوای تخصصی، برترین فروشگاه سخت افزار و نرم افزار قزوین/زنجان.
۵- نیلپر:
پرایم سیستم، تولیدکننده محصولات ارگونومیک، کوله و کیف
تمرکز بر کیفیت، طراحی دانشمحور و بازارهای اداری/آموزشی/رستورانی. مدیریت استراتژیک برای رضایت مشتری.
۶- زبرآسیا:
پرایم سیستم، فناوری AIDC و بارکد
تسهیل در جمعآوری داده بدون خطا با تمرکز بر بارکد و AID، راهحلهای اطلاعاتی برای صنایع، افزایش سرعت/دقت و برنامهریزی منابع. تکیه بر متخصصان داخلی و دانش جهانی، جلب اعتماد مشتریان.