کمپانی DeepMind از جزئیات الگوی جدید خود میگوید که میتواند در محیطهای پیچیده در دنیای واقعی قابل استفاده باشد.
در کنفرانس هوش مصنوعی در لندن شرکت DeepMind جزئیات جدیدی را در مورد الگوریتمی منتشر کرده که میتواند بازیها را در سطوح فوق بشری یاد بگیرد و این یادگیری در شرایطی اتفاق خواهد افتاد که سیستم از قواعد بازی بیاطلاع است. دستاوردی بزرگ که به گفته این شرکت گامی عظیم در جهت پیشبرد هوش مصنوعی است و نوید سیستمهایی را میدهد که میتوانند با شرایط پیچیده و نامشخص در دنیای واقعی کنار بیایند.
الگوریتمی که شرکت DeepMind آن را MuZero مینامد ، توانسته بازی شطرنج، بازی Go و بازی استراتژیک ژاپنی شوگی (Shogi) و همچنین تعداد زیادی بازی ویدیویی کلاسیک آتاری را در سطوح فوق بشری فرا بگیرد. پیش از این نیز DeepMind الگوریتمهایی ساخته بود که میتوانستند بر هر یک از این بازیها مسلط شوند، اما تا امروز هرگز یک الگوریتم که بتواند هم بازیهای رومیزی و هم بازیهای ویدیویی را فرا بگیرد ساخته نشده بود. همچنین، الگوریتم قبلی DeepMind برای تسلط بر بازی های رومیزی مانند AlphaZero نیاز به دانستن قوانین و یادگیری آنها داشت در حالی که MuZero این کار را نمیکند و هیچ نیازی به آموزش ندارد.
AlphaZero خود یک نوع کلیتر از AlphaGo بود، الگوریتم Go-playing DeepMind در سال 2016 با شکست لی سدول، در آن زمان بهترین بازیکن Go در جهان بود و توانست این را در یک مسابقه در کره جنوبی نشان دهد. DeepMind که متعلق به شرکت Alphabet است، اولین بار در سال 2019 از پلتفرم MuZero رونمایی کرده بود اما در روز چهارشنبه اطلاعات بیشتری در مورد این الگوریتم در یک مقاله در یک مجله معتبر علمی منتشر کرد.
MuZero با ساخت الگوریتمی از نحوه بازی که انجام میدهد و سپس استفاده از آن برای برنامهریزی سودمندتر در بازیهای بعدی کار میکند. به این شیوه MuZero یاد میگیرد که با انجام بازی و دفعات زیادی تلاش، مدل و اقدامات برنامهریزی شده آن را بهبود ببخشد. به عبارتی MuZero با بازی در برابر نسخه های قبلی خود هرچه بیشتر یاد خواهد گرفت.
الگویی که سیستم از قواعد بازی ایجاد میکند لازم نیست 100٪ دقیق، یا حتی کامل باشد. فقط باید به اندازه کافی مفید باشد تا MuZero بتواند در بازی پیشرفت کند و از آن برای پیشرفت بیشتر خود استفاده کند. دیوید سیلور، دانشمند حوزه کامپیوتر در شرکت DeepMind که تیم ساخت MuZero را رهبری میکند، به Fortune گفت: “ما اساساً به این سیستم میگوییم، برو و داستان خودت را در مورد چگونگی انجام یک کار بساز.”
هرچه زمان بیشتری برای برنامهریزی به MuZero اختصاص داده شود، سیستم عملکرد بهتری ارائه خواهد داد. MuZero چندین بار در بازی Go تفاوت بین یک آماتور و یک بازیکن حرفهای را به نمایش گذاشت. به او زمانی 50 ثانیهای برای بررسی حرکت داده شد و در عوض او با صرف زمانی در حدود یک دهم ثانیه حرکت صحیح را انجام داد. این اختلاف حتی در بازیهای آتاری نیز وجود دارد، جایی که تصور میشد واکنش سریع بیش از تفکر استراتژیک مهم است.
در بازی Go، زمان بیشتر به MuZero اجازه داد تا آنچه را که ممکن است در اغلب سناریوها اتفاق بیفتد پیشبینی کند. محققان خاطرنشان کردند که این سیستم در بازی Pac-Man به عملکرد بسیار خوبی دست یافت، حتی زمانی که فرصت فقط برای تفکر درباره شش یا هفت حرکت کافی بود و باید خاطر نشان کرد که زمان برای دستیابی به تمام احتمالات بسیار کم بود.
DeepMind تا کنون سیستم MuZero را روی بازیهای چند نفره که اطلاعات پنهان در آنها نقش مهمی دارند مانند پوکر آزمایش نکرده است اما سیلور در این رابطه گفت که او تقریبا مطمئن است MuZero به راحتی میتواند یاد بگیرد این بازیها را انجام دهد و این شرکت به زودی قصد دارد این موضوع را به وسیله آزمایشات بیشتر مشخص کند. در گذشته محققان هوش مصنوعی دانشگاه کارنگی ملون با همکاری فیسبوک سیستمهایی که قادر به شکست بازیکنان قهرمان پوکر باشند را ارائه کرده بودند. اما ارائه سیستمی که بتواند از بازیهای چند نفره که تا حدی به ارتباطات متکی است سربلند بیرون بیاید همچنان یک چالش است.
سیلور گفت DeepMind چندین کاربرد اصلی را برای MuZero در نظر گرفته است. یکی از امیدوار کنندهترین این موارد تاکنون فشرده سازی فیلمها است، جایی که روشهای مختلفی برای فشردهسازی ویدئوها وجود دارد، اما هیچ قانون مشخصی در مورد اینکه کدام روش برای کدام نوع مختلف از ویدیو بهترین است وجود ندارد. وی گفت آزمایشات اولیه با الگوریتم MuZero نشان داده كه دستیابی به كاهش 5٪ در پهنای باند نسبت به بهترین روشهای فشردهسازی قبلی امكان پذیر است. سیلور همچنین گفت که MuZero ممکن است برای ساخت رباتها و دستیارهای دیجیتال با توانایی بیشتر و همچنین دستیابی به موفقیت اخیر DeepMind در پیشبینی ساختار پروتئینها مفید باشد.
با این حال، شرکتهای مختلف در حال استفاده از MuZero در جهات متفاوتی هستند. هفته گذشته، نیروی هوایی ایالات متحده فاش کرد از الگوی MuZero که شرکت DeepMind سال گذشته آن را به طور رایگان در دسترس عموم قرار داده بود برای کمک به ایجاد یک سیستم جنگی بر پایه هوش مصنوعی استفاده کرده است. سیستمی که میتواند رادار هواپیمای جاسوسی U-2 را به طور مستقل کنترل کند. نیروی هوایی سیستم هوش مصتوعی خود که آن را ARTUMu مینامد ، در هواپیمای جاسوسی U-2 Dragon Lady هنگام حمله موشکی شبیه سازی شده در یک مأموریت آموزشی در 14 دسامبر آزمایش کرد.
یک کمپین به رهبری دانشمندان کامپیوتر، کارشناسان کنترل سلاح و فعالان حقوق بشر اذعان داشتند که تحقیقات نیروی هوایی گامی خطرناک در جهت ایجاد سلاحهای کشندهی خودمختار است. DeepMind بعد از پخش خبر توسط نیروی هوایی به Fortune گفت: “هیچ نقشی در تحقیقات نیروی هوایی نداشته و تا زمان مشاهده گزارشهای خبری در مورد ماموریت آموزشی هفته گذشته از آن بی اطلاع بوده است.”
پیش از این DeepMind متعهد شده بود که از کار و تحقیق در راستای تواناییهای تسلیحاتی و تهاجمی که از هوش مصنوعی بهره میبرد و میتواند اهداف را شناسایی و ردیابی کرده و اسلحه را علیه آنها مستقر کند بدون اینکه بشر نقشی در تصمیم نهایی در مورد حمله به آن اهداف داشته باشد جلوگیری کند.