کوچک کردن شبکه‌های عصبی عظیم با هدف افزایش قابلیت توان پردازش پیشرفته زبان طبیعی

یک رویکرد جدید می‌­تواند هزینه‌­های محاسباتی را کاهش و قابلیت پردازش پیشرفته زبان طبیعی را افزایش دهد. شبکه‌های عصبی یادگیری عمیق می‌­توانند بیش از حد نیاز بزرگ باشند و به توان محاسباتی بالایی نیاز داشته باشند. در آزمایشی تحت عنوان “بلیط بخت آزمایی” محققان دانشگاه MIT متوجه شده­‌اند که شبکه‌­های فرعی کوچک‌­تر و کارآمدتری در مدل­‌های BERT پنهان شده‌­اند.

جاناتان فرانکل در حال تحقیق روی هوش مصنوعی است و معتقد است که شبکه‌­های فرعی کوچک­‌تر که در شبکه‌­های عظیم عصبی پنهان شده­‌اند، می‌­توانند همان کارها را با کارآیی بیشتری انجام دهند. هدف این رویکرد یافتن این شبکه­‌های فرعی “خوش شانس” که بلیط بخت آزمایی برنده شده‌­اند، در دل شبکه‌های عصبی بزرگ است.

دراین مقاله جدید، فرانکل و همکارانش شبکه­‌های فرعی پنهان در BERT که یک رویکرد پیشرفته شبکه عصبی برای پردازش زبان طبیعی (NLP) است را کشف کردند. NLP به عنوان شاخه‌­ای از هوش مصنوعی، با کمک گرفتن از برنامه‌­هایی مانند تولید متن پیش­‌بینی یا چت‌بات‌­های آنلاین، اقدام به رمزگشایی و تجزیه و تحلیل زبان انسان می‌­کند. BERT از نظر محاسباتی بسیار حجیم است و به طور معمول برای انجام محاسبات نیاز به قدرت فوق رایانه‌­ای دارد که برای اکثر کاربران در دسترس نیست. استفاده از الگوریتم‌­های فرعی کوچک‌تر پنهان در BERT می‌­تواند شرایط بازی را مساوی کند و به طور بالقوه به کاربران بیشتری امکان توسعه ابزارهای NLP موثر برای اجرا بر روی تلفن هوشمند را بدهد.

فرانکل می­‌گوید: “ما در حال رسیدن به نقطه­‌ای هستیم که باید این مدل‌­ها را کوچک‌تر و کارآمدتر کنیم. این پیشرفت می‌­تواند روزی موانع استفاده از NLP را از بین ببرد.” فرانکل دانشجوی دکترای گروه مایکل کاربین در آزمایشگاه علوم رایانه‌­ای و هوش مصنوعی MIT و نویسنده این تحقیق است.

شما احتمالا تا به امروز بدون این‌که آگاه باشید با یک شبکه BERT ارتباط برقرار کرده­‌اید. BERT یکی از فن‌آوری‌هایی است که زیربنای موتور جستجوی گوگل است و هنگامی که در سال 2018 توسط گوگل منتشر شد، هیجان زیادی را در میان محققان ایجاد کرد. BERT روشی برای ایجاد شبکه‌های عصبی، یعنی الگوریتم­‌هایی که از نوده‌ای لایه‌ای یا “نورون‌ها” استفاده می‌کنند تا از طریق تمرین بر روی مثال‌­های متعدد یاد بگیرند که یک کار را انجام دهند، می­‌باشد.BERT برای پر کردن کلماتی از متن که جا افتاده‌اند، آموزش داده می‌شود و قدرت آن به اندازه داده‌­های اولیه بستگی دارد. سپس کاربران می‌توانند برای شبکه عصبی BERT یک کار خاص، مانند ایجاد یک سرویس دهنده خدمات مشتری، مشخص کنند. اما اینکار به قدرت پردازشی زیادی نیاز دارد.

فرانكل می­‌گوید: “این روزها یك مدل استاندارد BERT به 340 میلیون پارامتر نیاز دارد” و اضافه كرد كه این تعداد حتی می­‌تواند به 1 میلیارد هم برسد. تنظیم دقیق چنین شبکه عظیمی نیاز به توان محاسباتی بالایی دارد. وی گفت: “این توان پردازشی مورد نیاز بسیار گران است و فراتر از توان محاسباتی شما یا من است. با وجود محبوبیت BERT چنین مدل­‌هایی از مشکل بزرگی شبکه رنج می­‌برند. اما خوشبختانه به نظر می­رسد فرضیه بلیط بخت آزمایی راه حل موثری برای حل این مشکل باشد.”

برای کاهش هزینه‌­های محاسباتی، فرانکل و همکارانش تلاش کردند مدل کوچک‌تر پنهان شده در BERT را مشخص کنند. آن‌ها شبکه کامل BERT را با یکسری پارامتر مشخص هرس کردند و پس از کوچک سازی شبکه عملکرد زیر شبکه جدید را با مدل اصلی BERT مقایسه کردند. آن‌ها این مقایسه را بر روی طیف وسیعی از وظایف NLP از پاسخ دادن به سوالات تا پر کردن جای خالی در یک جمله، انجام دادند.

محققان زیر شبکه‌­هایی را یافتند که بسته به نوع کاری که می­‌کردند 40 تا 90 درصد باریک‌­تر از مدل اولیه BERT بودند. به علاوه این محققان توانستند بلیط‌های بخت‌آزمایی برنده را قبل از اجرای هرگونه تنظیم دقیق مشخص کنند. این یافته می‌­تواند هزینه­‌های محاسباتی NLP را به حداقل برساند. در بعضی موارد زیر شبکه‌­ای که برای انجام یک کار انتخاب می‌شود می­‌تواند برای کار دیگری دوباره استفاده شود. اگرچه فرانکل اظهار داشت که این قابلیت انتقال جامع نیست اما با این حال به نظر او یافته‌­های این تحقیق خوشحال‌کننده بود.

او می‌­گوید: “من در ابتدا از این که این رویکرد نتیجه‌بخش بود شوکه شدم. از اینکه این روش به نتیجه برسد، مطمئن نبودم. من انتظار داشتم شبکه عصبی هرس­‌شده، نسبت به آنچه که به دست آمده بسیار بزرگتر باشد.”

طبق نظر آری مورکوس دانشمند مرکز تحقیقات هوش مصنوعی فیسبوک، کشف یک بلیط بخت آزمایی در مدل BERT یک کشف “قانع‌کننده” است. مورکوس می‌­گوید: “این کشف می‌تواند به طور فزاینده‌ای رواج پیدا کند. این یافته‌ها می‌تواند به مدل‌های BERT اجازه دهد که با استفاده از قدرت محاسباتی کمتری اجرا شوند. با توجه به اینکه اجرای مدل­‌های بزرگ شبکه‌­های عصبی در حال حاضر بسیار پرهزینه است، پس این رویکرد جدید می‌­تواند بسیار تأثیرگذار باشد.”

فرانکل می‌گوید: “من امیدوارم که این رویکرد جدید بتواند دسترس­‌پذیری BERT را افزایش دهد، زیرا استفاده از شبکه­‌های عصبی مصنوعی بسیار رو به رشد است و من نمی‌دانم با استفاده از این محاسبات به سبک ابر رایانه چقدر می‌­توانیم شبکه­‌های بزرگتر را پردازش کنیم. ما مجبور خواهیم بود شبکه­‌های عصبی را هرس کنیم. شناسایی یک زیر شبکه کوچک‌تر و استفاده از رویکرد بلیط بخت آزمایی دقیقاً همین کار را می‌­کند. این روش به توسعه‌دهندگانی که فاقد قدرت رایانه­‌ای مانند Google یا Facebook هستند امکان استفاده از NLP پیشرفته را می‌­دهد. امید این است كه این رویکرد جدید باعث كاهش هزینه‌­ها شود و استفاده از شبکه­‌های عصبی مصنوعی برای پردازش زبان طبیعی را در دسترس همه، حتی بچه‌های كوچكی كه فقط لپ‌تاپ نیز دارند قرار دهد. برای من این واقعا هیجان انگیز است.”

 

1/5 - (1 امتیاز)
لینک کوتاه شده : https://amerandish.com/TGB5O

به اشتراک بگذارید

دیدگاهتان را بنویسید

نشانی ایمیل شما منتشر نخواهد شد. بخش‌های موردنیاز علامت‌گذاری شده‌اند *

_ مطالب مرتبط _

درخواست شما با موفقیت ارسال شد.

ضمن تشکر بابت ارسال پیام، در سریع‌ترین زمان ممکن کارشناسان شرکت عامراندیش درخواست شما را بررسی خواهند نمود.