ربات انسان نما کیمرا (Kimera) و تحقیقات بر روی آن به تازگی توسط آزمایشگاه تحقیقات ارتش آمریکا، دفتر تحقیقات نیروی دریایی و آزمایشگاه MIT لینکلن انجام شده و نتایج تحقیقات به طور رسمی منتشر شده است. با عامر اندیش همراه باشید تا در مورد این دستاورد عظیم در صنع رباتیک بیشتر آشنا شوید.
ربات انسان نما کیمرا (Kimera)
آیا همه ما از کمی کمک در امور خانه خوشحال نمیشویم؟ به ویژه اگر این کمک بدون هیچ شکایتی از جانب رباتی مسئولیت پذیر و باهوش باشد؟ مهندسان MIT رباتی طراحی کردند که میتواند در کارهای خانه به ما کمک کند. وی قادر است تا فرمانهای نظیر” برو آشپزخانه و برای من یک فنجان قهوه بیار” به خوبی درک کند.
با انجام چنین وظایف سطح بالایی، محققان اعتقاد دارند که رباتها قادر به درک محیط فیزیکی پیرامون خود درست شبیه انسانها هستند.
برای تصمیمگیری در این جهان، شما نیاز دارید که مدلهای فیزیکی از محیط پیرامون خود در ذهن خود داشته باشید. این مدل ذهنی چیزی است که انسانها بدون کوچکترین تلاشی در اختیار دارند.
اما در مورد رباتها، مساله به همین سادگی نیست. آنان باید هر پیکسلی که توسط دوربین از محیط پیرامون خود دریافت میدارند، درک نمایند. هم اکنون مهندسان MIT با استفاده از شبیه سازی مغزی، ربات انسان نما را به وجود آوردهاند که همچون انسان قادر به درک و حرکت در دنیای فیزیکی است.
در مدل جدید که آن را گراف تصویری دینامیکی 3 بعدی (3-D Dynamic Scene Graphs) مینامند، ربات انسان نما قادر به تولید تصویری 3 بعدی از محیط پیرامون خود است که در آن اشیایی با برچسبهای معنایی نظیر صندلی، میز، انسان، اتاقها، دیوارها و دیگر ساختارها قرار دارد.
این مدل همچنین رباتها را قادر میسازد تا اطلاعات را از نقشه 3 بعدی استخراج نمایند. این اطلاعات استخراج شده شامل جستوجوی مکان اشیا مانند اتاقها یا حرکت انسانها در مسیر است.
این ارائه فشرده از محیط برای ربات انسان نما مفید است زیرا به وی اجازه میدهد تا سریع تصمیمگیری کند و مسیر خود را برنامهریزی نماید. این مدل پویایی برای یک ربات، بسیار شبیه حرکات ما انسانهاست. به عنوان مثال، اگر شما نیاز داشته باشید تا مسیر خانه تا محل کار خود را طی نمایید، احتیاجی به برنامهریزی برای تک تک موقعیتهای مجزا ندارید. تنها کاری که شما انجام میدهید فکر کردن در مورد خیابانهایی است که شما را سریعتر به آدرس موردنظر میرساند.
علاوه بر کمک در کارهای منزل، رباتهای ساخته شده با چنین فناوری قادرند مدلهای جدید ادراکی از محیط اطراف را کاملا درک نمایند. این ویژگی آنان را قادر میسازد تا همپای انسان کارهای پر خطری مانند معدنکاوی در عمق زمین یا جستجوی بازماندگان در زیر آوار هنگام بروز حوادثی همچون زلزله را با موفقیت به انجام رسانند.
زیربنای اصلی ربات انسان نما ترکیب همزمان نقشهبرداری و تقسیمبندی معنایی همزمان 3 بعدی
در حال حاضر بینایی و پیمایش رباتها در دو مسیر اصلی پیش رفته است: نقشه برداری 3 بعدی که به رباتها این امکان را میدهد تا محیط پیرامون خود را در چارچوب زمانبندی صحیح بازسازی نمایند؛ و تقسیمبندی معنایی که ربات انسان نما کیمرا را در طبقهبندی اشیای موجود در محیط پیرامون خود مانند اتوموبیل در برابر دوچرخه یاری میرساند. این ویژگی تا کنون بیشتر در مورد تصاویر 2 بعدی انجام گرفته است.
در تمام طول تاریخ رباتیک، این اولین باری است که رباتی قادر به درک محیط پیرامون است و میتواند با تصویرسازی 3 بعدی از اطراف خود، جهتیابی صحیحی در چارچوب زمانبندی واقعی را انجام دهد. در عین حال آنان قادر به برچسب گذاری اشیا، انسان (که برخلاف اشیا پویا هستند) و ساختارهاییاند که در نقشه آنان موجود است.
مولفه اصلی ساخت ربات انسان نما هوشمند کیمرا (Kimera)، کتابخانه منبع بازی است که قبلا توسط همین تیم برای شبیهسازی ساختار مدل هندسی 3 بعدی از محیط اطراف گسترش داده شده بود. در آن مدل اشیای احتمالی نظیر صندلی در برابر میز کدنویسی شده بود.
براساس گفتههای سازندگان این ربات، هدف از ساخت کیمرا ترکیب همزمان نقشهبرداری و درک معنایی در یک مدل 3 بعدی است؛ درست همانند موجودات افسانهای که ترکیبی از حیوانات مختلفیاند.
کیمرا با در نظر گرفتن جریان تصاویر گرفته شده از دوربین خود و اندازهگیری اینرسی حاصل از حسگرهای پردازنده، مسیر خود را تخمین زده و در چارچوب زمانبندی صحیح تمامی اشیای موجود در مسیر را در یک مدل 3 بعدی برای خود بازسازی میکند.
برای تولید یک شبکه 3 بعدی معنایی، ربات انسان نما کیمرا از یک شبکه عصبی متکی بر میلیونها تصاویر در دنیای واقعی برای پیشبینی برچسب هر پیکسلها استفاده میکند. این تکنیک که بیشتر در گرافیک رایانهها برای تفسیر چارچوب زمانی صحیح استفاده میشود، به ریختهگری پرتویی معروف است.
نتیجه به صورت نقشهای از محیط پیرامون ربات است که شبیه شبکههای 3 بعدی متراکمی است که در آن افراد و اشیا به صورت کد رنگی مجزایی تعریف میشوند.
استفاده از صحنه لایهباز برای پردازش عمل دیدن در ربات انسان نما کیمرا
تکیه رباتی که به تنهایی بتواند مسیریابی صحیحی از دنیای پیرامون خود داشته باشد، کاری بسیار پرهزینه و وقتگیر است. بنابراین محققان به ساخت کیمرا روی آوردند. در ساخت کیمرا، از الگوریتمهای ساختار 3 بعدی پویا از مدلهای اولیه، بسیار متراکم و شبکه معنایی 3 بعدی استفاده شده است.
مدلهای گراف دینامیکی 3 بعدی پویا، مدلهای گرافیکیاند که بیشتر در بازیهای ویدیویی برای ارائه محیط 3 بعدی اعمال میشوند.
ربات انسان نما کیمرا قادر به دیدن از طریق لایه ویژه یا لنز است. این مهم از طریق الگوریتمهای وابسته به انتزاع و تجزیه در مدل گراف دینامیکی 3 بعدی و همچنین وارد ساختن جزییات شبکه معنایی 3 بعدی به لایههای معنایی جدا از هم، امکانپذیر میشود. لایهها در سلسه مراتب از اشیا و افراد پیش میروند تا فضاها و ساختارهایی مانند سقفها، اتاقها، راهروها، سالنها و در نهایت همه ساختمان به صورت کامل پیش چشمان ربات گسترش یابد.
محققان با استفاده از این لایههای باز قادرند تا الگوریتمهایی برای حرکات و شکلهای افراد در محیط پیرامون و در چارچوب زمانبندی واقعی و صحیح پیگیری نمایند.
تست مسیریابی صحیح ربات کیمرا در یک محیط دینامیک پویا که مملو از افراد در حال حرکت است، با همکاری آزمایشگاه MIT لینکلن با موفقیت انجام شد.
براساس گفتههای محققان، هدف از ساخت ربات انسان نما کیمرا، دادن مدلهای ذهنی مشابه مدلهای ذهنی انسان است. چنین پیشرفتی در کیمرا بر آینده صنایعی همچون اتوموبیلهای خودران، عملیات جستوجو و نجات توسط رباتها، رباتهای استفاده شده در کارخانجات و رباتهایی که کارهای منزل را انجام میدهند، تاثیرگذار است.
دامنه دیگر، واقعیت مجازی و افزودنی (AR) است. تصور کنید از عینک AR استفاده میکنید که الگوریتم ما را اجرا میکند: عینک می تواند به شما در پاسخ به پرسشهایی مانند زیر کمک کند؟
“فنجان قرمز رنگم را کجا گذاشتم؟ و یا نزدیکترین راه خروج کدام است؟”
شما میتوانید به این دستاورد جدید همچون الکسا فکر کنید که از محیط اطراف شما آگاه است و اشیاء، انسانها و روابط آنها را متوجه میشود.
جمعبندی نهایی
دستیابی به چنین دستاوردی، به لطف پیشرفتهای اخیر در یادگیری عمیق (deep learning)، هوش مصنوعی و دهها سال تحقیق در بومی سازی و نقشه برداری همزمان، امکانپذیر شده است. با این کار، ما در حال جهش به سمت دوره جدیدی از درک روباتیک به نام spatial-AI هستیم که اگر چه هنوز در مراحل ابتدایی خود قرار دارد، اما آیندهای بسیار روشن در پیش دارد.