یک رویکرد جدید میتواند هزینههای محاسباتی را کاهش و قابلیت پردازش پیشرفته زبان طبیعی را افزایش دهد. شبکههای عصبی یادگیری عمیق میتوانند بیش از حد نیاز بزرگ باشند و به توان محاسباتی بالایی نیاز داشته باشند. در آزمایشی تحت عنوان “بلیط بخت آزمایی” محققان دانشگاه MIT متوجه شدهاند که شبکههای فرعی کوچکتر و کارآمدتری در مدلهای BERT پنهان شدهاند.
جاناتان فرانکل در حال تحقیق روی هوش مصنوعی است و معتقد است که شبکههای فرعی کوچکتر که در شبکههای عظیم عصبی پنهان شدهاند، میتوانند همان کارها را با کارآیی بیشتری انجام دهند. هدف این رویکرد یافتن این شبکههای فرعی “خوش شانس” که بلیط بخت آزمایی برنده شدهاند، در دل شبکههای عصبی بزرگ است.
دراین مقاله جدید، فرانکل و همکارانش شبکههای فرعی پنهان در BERT که یک رویکرد پیشرفته شبکه عصبی برای پردازش زبان طبیعی (NLP) است را کشف کردند. NLP به عنوان شاخهای از هوش مصنوعی، با کمک گرفتن از برنامههایی مانند تولید متن پیشبینی یا چتباتهای آنلاین، اقدام به رمزگشایی و تجزیه و تحلیل زبان انسان میکند. BERT از نظر محاسباتی بسیار حجیم است و به طور معمول برای انجام محاسبات نیاز به قدرت فوق رایانهای دارد که برای اکثر کاربران در دسترس نیست. استفاده از الگوریتمهای فرعی کوچکتر پنهان در BERT میتواند شرایط بازی را مساوی کند و به طور بالقوه به کاربران بیشتری امکان توسعه ابزارهای NLP موثر برای اجرا بر روی تلفن هوشمند را بدهد.
فرانکل میگوید: “ما در حال رسیدن به نقطهای هستیم که باید این مدلها را کوچکتر و کارآمدتر کنیم. این پیشرفت میتواند روزی موانع استفاده از NLP را از بین ببرد.” فرانکل دانشجوی دکترای گروه مایکل کاربین در آزمایشگاه علوم رایانهای و هوش مصنوعی MIT و نویسنده این تحقیق است.
شما احتمالا تا به امروز بدون اینکه آگاه باشید با یک شبکه BERT ارتباط برقرار کردهاید. BERT یکی از فنآوریهایی است که زیربنای موتور جستجوی گوگل است و هنگامی که در سال 2018 توسط گوگل منتشر شد، هیجان زیادی را در میان محققان ایجاد کرد. BERT روشی برای ایجاد شبکههای عصبی، یعنی الگوریتمهایی که از نودهای لایهای یا “نورونها” استفاده میکنند تا از طریق تمرین بر روی مثالهای متعدد یاد بگیرند که یک کار را انجام دهند، میباشد.BERT برای پر کردن کلماتی از متن که جا افتادهاند، آموزش داده میشود و قدرت آن به اندازه دادههای اولیه بستگی دارد. سپس کاربران میتوانند برای شبکه عصبی BERT یک کار خاص، مانند ایجاد یک سرویس دهنده خدمات مشتری، مشخص کنند. اما اینکار به قدرت پردازشی زیادی نیاز دارد.
فرانكل میگوید: “این روزها یك مدل استاندارد BERT به 340 میلیون پارامتر نیاز دارد” و اضافه كرد كه این تعداد حتی میتواند به 1 میلیارد هم برسد. تنظیم دقیق چنین شبکه عظیمی نیاز به توان محاسباتی بالایی دارد. وی گفت: “این توان پردازشی مورد نیاز بسیار گران است و فراتر از توان محاسباتی شما یا من است. با وجود محبوبیت BERT چنین مدلهایی از مشکل بزرگی شبکه رنج میبرند. اما خوشبختانه به نظر میرسد فرضیه بلیط بخت آزمایی راه حل موثری برای حل این مشکل باشد.”
برای کاهش هزینههای محاسباتی، فرانکل و همکارانش تلاش کردند مدل کوچکتر پنهان شده در BERT را مشخص کنند. آنها شبکه کامل BERT را با یکسری پارامتر مشخص هرس کردند و پس از کوچک سازی شبکه عملکرد زیر شبکه جدید را با مدل اصلی BERT مقایسه کردند. آنها این مقایسه را بر روی طیف وسیعی از وظایف NLP از پاسخ دادن به سوالات تا پر کردن جای خالی در یک جمله، انجام دادند.
محققان زیر شبکههایی را یافتند که بسته به نوع کاری که میکردند 40 تا 90 درصد باریکتر از مدل اولیه BERT بودند. به علاوه این محققان توانستند بلیطهای بختآزمایی برنده را قبل از اجرای هرگونه تنظیم دقیق مشخص کنند. این یافته میتواند هزینههای محاسباتی NLP را به حداقل برساند. در بعضی موارد زیر شبکهای که برای انجام یک کار انتخاب میشود میتواند برای کار دیگری دوباره استفاده شود. اگرچه فرانکل اظهار داشت که این قابلیت انتقال جامع نیست اما با این حال به نظر او یافتههای این تحقیق خوشحالکننده بود.
او میگوید: “من در ابتدا از این که این رویکرد نتیجهبخش بود شوکه شدم. از اینکه این روش به نتیجه برسد، مطمئن نبودم. من انتظار داشتم شبکه عصبی هرسشده، نسبت به آنچه که به دست آمده بسیار بزرگتر باشد.”
طبق نظر آری مورکوس دانشمند مرکز تحقیقات هوش مصنوعی فیسبوک، کشف یک بلیط بخت آزمایی در مدل BERT یک کشف “قانعکننده” است. مورکوس میگوید: “این کشف میتواند به طور فزایندهای رواج پیدا کند. این یافتهها میتواند به مدلهای BERT اجازه دهد که با استفاده از قدرت محاسباتی کمتری اجرا شوند. با توجه به اینکه اجرای مدلهای بزرگ شبکههای عصبی در حال حاضر بسیار پرهزینه است، پس این رویکرد جدید میتواند بسیار تأثیرگذار باشد.”
فرانکل میگوید: “من امیدوارم که این رویکرد جدید بتواند دسترسپذیری BERT را افزایش دهد، زیرا استفاده از شبکههای عصبی مصنوعی بسیار رو به رشد است و من نمیدانم با استفاده از این محاسبات به سبک ابر رایانه چقدر میتوانیم شبکههای بزرگتر را پردازش کنیم. ما مجبور خواهیم بود شبکههای عصبی را هرس کنیم. شناسایی یک زیر شبکه کوچکتر و استفاده از رویکرد بلیط بخت آزمایی دقیقاً همین کار را میکند. این روش به توسعهدهندگانی که فاقد قدرت رایانهای مانند Google یا Facebook هستند امکان استفاده از NLP پیشرفته را میدهد. امید این است كه این رویکرد جدید باعث كاهش هزینهها شود و استفاده از شبکههای عصبی مصنوعی برای پردازش زبان طبیعی را در دسترس همه، حتی بچههای كوچكی كه فقط لپتاپ نیز دارند قرار دهد. برای من این واقعا هیجان انگیز است.”