تیمی از محققان در آزمایشگاه هوش مصنوعی اوبر (Uber AI Labs) در سانفرانسیسکو مجموعهای از الگوریتمهای یادگیری تقویت را ایجاد کردهاند که ثابت شده در انجام بازیهای ویدیویی کلاسیک بهتر از بازیکنان انسانی یا سایر سیستمهای هوش مصنوعی عمل میکند.
محققان در مقاله خود که در ژورنال Nature منتشر شده است توضیح میدهند که الگوریتمهای آنها با دیگران چه تفاوتی دارد و چرا آنها معتقدند که الگوریتمشان میتواند در رباتیک، پردازش زبان و حتی طراحی داروهای جدید کاربرد داشته باشد.
الگوریتمهای یادگیری تقویت شده یاد میگیرند که چگونه با تلفیق اطلاعات ارائه شده در یک مجموعه از دادهی بزرگ آموزش ببینند و طبق آن کارها را انجام دهند. آنها الگوها را تشخیص میدهند و از آنها برای حدس زدن در مورد دادههای جدید استفاده میکنند، به این ترتیب است که از الگوریتمهای یادگیری تقویت برای تشخیص سرطان ریه به وسیله اشعه ایکس استفاده میشود.
اما همانطور که محققان در مقالهی خود به آن اشاره کردند، این الگوریتمها وقتی با دادههایی روبرو میشوند که با دادههای آموزشی سازگار نباشند و الگویی برای درک آن نداشته باشند، معمولاً دچار مشکل میشوند. به همین دلیل است که چنین سیستمهایی در برخی اوقات میتوانند نتایج نادرستی را ثبت کنند.
در این تحقیق جدید محققان با افزودن الگوریتمی که توسط آن سیستم تمام مسیری را که الگوریتم در پیش گرفته به یاد میآورد و به این ترتیب سعی در حل مسئله دارد بر این مشکل فائق آمدهاند. بدین ترتیب سیستم وقتی یک داده پیدا میکند که به نظر درست نیست و نمیتواند آن را تجزیه و تحلیل کند، دوباره به نقشه حافظه خود برمیگردد و مسیر دیگری را امتحان میکند.
این الگوریتم برای انجام بازیهای ویدئویی، هنگام بازی صفحه نمایش را حفظ میکند و وقتی خود را بازنده میبیند به نقطه دیگری از بازی برمیگردد و روش دیگری را امتحان میکند. این الگوریتم همچنین تصاویری را جمع میکند که شبیه به هم هستند تا بفهمد در صورت خراب شدن شرایط باید به چه بازه زمانی بازگردد.
محققان رویکرد جدید خود را با افزودن قوانین بازی و یک هدف آزمایش کردند. قانون این است که بیشترین امتیاز ممکن را کسب کنید و هر بار سعی کنید به یک امتیاز بالاتر برسید. آنها از سیستم خود برای انجام 55 بازی آتاری استفاده کردند که با گذشت زمان به معیارهایی برای آزمایش سیستمهای هوش مصنوعی تبدیل شدهاند.
سیستم جدید در 85.5 درصد از زمان آزمایش موفق بود و توانست سایر سیستمهای هوش مصنوعی را شکست دهد. این سیستم به ویژه در بازی انتقام مونتزوما عملکرد خوبی کسب کرد و امتیاز بیشتری از هر سیستم هوش مصنوعی دیگر کسب کرد و رکورد یک انسان را هم شکست. محققان معتقدند الگوریتم آنها میتواند به سایر برنامهها مانند پردازش تصویر یا زبان توسط رباتها منتقل شده و برای پیشرفت آنها بسیار مفید باشد.