محققان دانشگاه MIT سیستمی سختافزاری و نرمافزاری ایجاد کردهاند که تجزیه و تحلیل پیشرفته جملات را سادهتر میکند. زبان انسانی همواره میتواند ناکارآمد باشد. برخی از کلمات حیاتی و برخی دیگر قابل چشمپوشی هستند.
جمله اول این مقاله را دوباره بخوانید. فقط دو کلمه (زبان) و (ناکارآمد) تقریباً معنی کل جمله را منتقل میکنند. اهمیت کلمات کلیدی زمینهساز ایجاد یک ابزار جدید و محبوب برای پردازش زبان طبیعی (NLP) توسط رایانهها شده است.
مکانیسم توجه هنگامی که در الگوریتم تشخیص زبان (NLP) جاگذاری میشود، اکثرا کلمات کلیدی را در خود جای میدهد تا اینکه هر کلمه را با همان اهمیت صرف کند. این روش به نتایج بهتری در زمینههای مختلف تشخیص زبان NLP مانند تشخیص احساسات مثبت یا منفی یا پیشبینی کلمات در جمله دست خواهد یافت.
دقت مکانیزم توجه اغلب به ایجاد هزینههای گزاف برای رسیدن به سرعت و قدرت محاسباتی بالا میانجامد. این مکانیزم برروی پردازندههای عمومی مانند آنچه در رایانههای شخصی پیدا میکنید به آرامی کار میکند. بنابراین محققان MIT یک سیستم نرمافزاری – سختافزاری را با نام SpAtten طراحی کردهاند که به طور تخصصی برای اجرای مکانیسم توجه طراحی شده است.
SpAtten اجرای الگوریتم تشخیص زبان سادهتر را با قدرت محاسباتی کمتری امکانپذیر میکند. هانروی وانگ میگوید: “سیستم ما شبیه نحوه پردازش زبان توسط مغز انسان عمل میکند. ما خیلی سریع میخوانیم و فقط روی کلمات کلیدی تمرکز میکنیم. این ایدهی نوآورانهی SpAtten است.”
این تحقیق در این ماه در سمپوزیوم بینالمللی IEEE در زمینه معماری با کارایی بالا ارائه خواهد شد. وانگ نویسنده اصلی مقاله و دانشجوی دکترای گروه مهندسی برق و علوم کامپیوتر است و از جمله نویسندگان مشترک این مقاله میتوان به ژکی ژانگ و مشاور آنها استادیار سونگ هان اشاره کرد. از زمان معرفی مکانیسم توجه در سال 2015، این سیستم برای NLP یک مزیت بزرگ بوده و در پیشرفتهترین مدلهای الگوریتمهای تشخیص زبان (NLP) مانند BERT Google و سیستم GPT-3 شرکت OpenAI گنجانده شده است.
نوآوری کلید قدرت و پیشرفت مکانیسم توجه است. مکانیسم توجه میتواند بر اساس مقایسه با الگوهای کلمهای که الگوریتم قبلاً در مرحله آموزش با آن روبرو شده است مهمترین کلمات یا عبارات را از یک جمله استنباط کند. با وجود پذیرش سریع مکانیسم توجه در مدلهای تشخیص زبان NLP این سیستم همچنان بسیار پرهزینه است. مدلهای NLP به دلیل کمبود حافظه در مکانیزم توجه به مقدار زیادی کامپیوتر نیاز دارند.
وانگ میگوید: “این مشکل در واقع گلوگاه مدلهای NLP است. یکی از چالشهایی که وی به آن اشاره کرد کمبود سختافزار تخصصی برای اجرای مدلهای NLP با مکانیزم توجه است.” پردازندههای عمومی مانند CPU ها و GPU ها در محاسبه توالی پیچیده دادهها برای اجرای مکانیسم توجه مشکل دارند و با پیچیدگی هرچه بیشتر مدلهای NLP به ویژه برای جملات طولانی این مشکل بدتر خواهد شد.
وانگ میگوید: “ما برای پردازش تقاضای محاسباتی روزافزون به بهینه سازی الگوریتمی و سخت افزار اختصاصی نیاز داریم.” در همین راستا محققان برای اجرای موثر مکانیزم توجه، سیستمی به نام SpAtten ایجاد کردند.
طراحی آنها شامل هر دو بخش یعنی نرمافزار و سخت افزار تخصصی است. یکی از مهمترین پیشرفتهای نرمافزاری SpAtten استفاده از سیستم هرس آبشاری یا حذف دادههای غیرضروری از محاسبات است. هنگامی که مکانیسم توجه به انتخاب کلمات کلیدی در جمله میپردازد سیستم SpAtten نشانههای غیر مهم را بریده و محاسبات مربوطه را از بین میبرد. به این ترتیب سیستم بار محاسباتی و میزان استفاده ازحافظه را به شدت کاهش میدهد.
محققان همچنین برای بهینهسازی بیشتر استفاده از حافظه تکنیکی به نام کوانتهسازی تدریجی را ایجاد کردند. این روش به الگوریتم اجازه میدهد تا دادهها را به تکههای کوچکتر بیت تبدیل کند و تا آنجا که ممکن است حافظه را پر کرده و از آن استفاده کند. برای جملات ساده از دقت پایین تر داده و برای جملات پیچیده از دقت بالاتر استفاده میشود. به عنوان مثال عبارت cmptr prog به عنوان نسخه با دقت کم برنامه رایانه خوانده میشود.
در کنار این پیشرفتهای نرم افزاری محققان همچنین معماری سخت افزاری را برای اجرای SpAtten و مکانیسم توجه همزمان با به حداقل رساندن دسترسی به حافظه توسعه دادند. طراحی معماری آنها درجه بالایی از موازی کاری را به کار میبرد. به این معنی که چندین عملیات به طور همزمان روی چندین عنصر پردازشی پردازش میشوند که امری بسیار مفید است زیرا مکانیسم توجه هر کلمه از جمله را به طور همزمان تجزیه و تحلیل میکند. این طرح SpAtten را قادر میسازد تا اهمیت نشانهها را در مقدار کمی کارکرد رایانهای رتبهبندی کند.
به طور کلی اجزای نرم افزاری و سخت افزاری SpAtten برای از بین بردن دستکاری غیرضروری یا ناکارآمد دادهها فقط بر وظایف مورد نیاز برای تکمیل هدف کاربر متمرکز هستند. فلسفه موجود در پشت سیستم در نام آن ثبت شده است. SpAtten یک نمونه از توجه کم است و محققان در مقاله متذکر میشوند که SpAtten همگون با اسپارتان به معنی ساده و صرفه جو است.
وانگ میگوید: “این دقیقاً مانند تکنیک ماست، خلاصه کردن جمله. این نتیجهگیری در آزمایش به اثبات رسیده است.” محققان یک شبیهسازی از طراحی سختافزاری SpAtten را ایجاد کردند کههنوز تراشهای فیزیکی برای آن نساختهاند. آنها SpAtten را در برابر پردازندههای مختلف عمومی آزمایش کردند که SpAtten بیش از 100 برابر سریعتر از نزدیکترین رقیب خود یعنی (GPU TITAN Xp) بود.
علاوه بر این SpAtten بیش از 1000 برابر در صرفهجویی انرژی نسبت به رقبا کارآمدتر بود که نشان میدهد SpAtten میتواند به تقاضای قابل توجه انرژی در سیستمهای NLP کمک کند. محققان فکر میکنند SpAtten در دستان شرکتهایی که از مدل NLP استفاده میکنند میتواند در زمینههای بیشتری از هوش مصنوعی مفید باشد.
وانگ میگوید: “چشم انداز ما برای آینده این است که الگوریتمها و سختافزارهای جدیدی که زائدات را در زبانها حذف میکنند، هزینه را کاهش خواهند داد و باعث صرفه جویی در بودجه برای سیستمهای NLP میشوند.” در انتهای ویژگیها SpAtten میتواند NLP را به دستگاههای شخصی و کوچکتر وارد کند.
وانگ با اشاره به موارد متصل به اینترنت مانند تلویزیونها، بلندگوهای هوشمند و مواردی از این دست میگوید: “ما میتوانیم عمر باتری تلفنهای همراه یا دستگاههای اینترنت اشیاء را بهبود ببخشیم. این از اهمیت ویژهای برخوردار است زیرا در آینده بسیاری از دستگاههای اینترنت اشیاء با صوت و زبان طبیعی با انسان ارتباط برقرار میکنند، بنابراین NLP اولین برنامهای است که میخواهیم استفاده کنیم.”
هان میگوید تمرکز SpAtten بر کارآیی و حذف افزونگی راه پیشرفت در تحقیقات NLP است. مغز انسان به ندرت توسط کلمات کلیدی فعال میشود و در این بین مدلهای NLP که به ندرت فعال میشوند امیدوارکننده خواهند بود. همه کلمات یکسان نیستند پس فقط به موارد مهم توجه کنید.