سیستمی جدید تحت عنوان Text Fooler که توسط دانشگاه MIT گسترش داده شده است میتواند سیستمهای پردازش زبان طبیعی شرکت Google و به طور تخصصی نرمافزار Google Home که برای کمک به یافتن نتایج جستجوی بهتر و بهینهتر طراحی شده را فریب دهد.
یک انسان به احتمال زیاد میتواند تفاوت بین لاکپشت و تفنگ را تشخیص دهد اما در گذشته پاسخ درست به چنین موضوع سادهای برای هوش مصنوعی گوگل چندان راحت نبود و اغلب به پرسشها پاسخ اشتباه داده میشد. برای مدتی طولانی زیرمجموعهای از تیم تحقیقات علوم کامپیوتری به درک بهتر چگونگی عملکرد مدلهای یادگیری ماشین در برابر یک سری از این دست اشتباهات و رفع آنها اختصاص یافته بودند. این نوع از اطلاعات ورودیهایی هستند که عمداً برای فریب الگوریتمهای یادگیری ماشین ایجاد شدهاند.
در حالی که عمده این تلاشها بر روی رفع مشکلات مربوط به درک گفتار و تصاویر متمرکز بوده، اخیراً تیمی از آزمایشگاه علوم رایانهای و هوش مصنوعی MIT CSAIL مشکلات مربوط به دادههای متنی را مورد آزمایش قرار دادهاند . در نهایت آنها Text Fooler را ارائه کردند. این سیستم یک چارچوب کلی است که میتواند با موفقیت سیستمهای پردازش زبان طبیعی (NLP) را دور بزند، یعنی همان سیستمهایی که به ما این امکان را میدهد تا با دستیارهای صوتی مانند Siri و Alexa ارتباط برقرار کنیم. Text Fooler به راحتی آنها را در پیشبینیهایشان دچار اشتباه میکند.
حال تصور کنید که از Text Fooler برای بسیاری از برنامههای مرتبط با ایمنی در اینترنت مانند Firewall، ایمیلهای اسپم و یا تشخیص متن در گفتارهای سیاسی حساس که براساس الگوریتمهای متنی طبقهبندی میشوند استفاده شود. دی جین، دانشجوی دکترای MIT و نویسنده اصلی این مقاله درباره Text Fooler میگوید:
“اگر از این ابزارها برای مقاصد اشتباه و در جهت سوء استفاده شود ممکن است عواقب آن فاجعهبار باشد. ابزارهایی مانند Siri و Alexa و غیره باید از روشهای دفاعی موثر برای محافظت از خود برخوردار باشند و برای ایجاد چنین سیستم دفاعی، ابتدا باید نقاط ظعف خود را بشناسند.”
Text Fooler در دو بخش کار میکند: تغییر متن داده شده و سپس استفاده از آن متن برای آزمایش دو نتیجه مختلف زبانی تا متوجه شود که آیا سیستم میتواند با موفقیت مدلهای یادگیری ماشین را فریب دهد. این سیستم ابتدا کلمات مهمی که بر پیش بینی تأثیر میگذارد را شناسایی کرده و سپس مترادفهای مناسب با آن متن را انتخاب میکند، Text Fooler در حالی این کار را انجام میدهد که دستور زبان و معنای اصلی آن حفظ شود. سپس، جملات ساخته شده برای دو وظیفه مختلف جهت تاثیر بر طبقهبندی و دلالت در متن اعمال میشود. هدف کلی تغییر طبقه بندی یا بی اعتبار کردن قضاوت در مورد جملات اصلی است.
یک مثال برای ورودی و خروجی Text Fooler در زیر آمده است:
- کاراکترهایی که در موقعیتهای غیرممکن ساخته شدهاند، کاملاً از واقعیت دور هستند.
- کاراکترهایی که در شرایطی غیرممکن مهندسی شدهاند، کاملاً از واقعیت دور هستند.
در حالت فوق، هنگام آزمایش روی یک مدل پردازش زبان طبیعی NLP، ورودی اول صحیح است اما پس از آن ورودی اصلاح شده دوم اشتباه است. در کل سیستم Text Fooler توانست با موفقیت سه مدل از معروفترین الگوریتمهای پردازش زبان طبیعی را فریب دهد. از جمله این مدلها، BERT محبوب ترین مدل پردازش زبان طبیعی منبع باز بود. Text Fooler این مدلها که ادعای دقتی بیش از 90 درصد دارند را با تغییر تنها 10 درصد کلمات در متن داده شده، فریب داد.
این تیم موفقیت را بر اساس سه معیار ارزیابی کردند:
- تغییر پیشبینی مدل برای طبقهبندی یا درک مفهوم
- درک معنا کاملا شبیه به یک خواننده انسانی در مقایسه با مثال اصلی
- اینکه آیا متن به اندازه کافی طبیعی به نظر می رسد یا خیر
محققان متذکر میشوند که حمله به مدلهای موجود هدف نهایی نیست و آنها امیدوارند که این کار به هرچه بهتر شدن مدلهای انتزاعی و نسل های آینده پردازش زبان طبیعی کمک کند. جین میگوید: “این سیستم میتواند برای حمله به هر مدل پردازش زبان طبیعی مبتنی بر طبقهبندی، برای آزمایش قدرت آنها استفاده شده یا گسترش یابد. از سوی دیگر، از این سیستم میتوان برای تقویت قدرت الگوریتمها و تعمیم مدلهای یادگیری از طریق آموزش استفاده کرد که اقدامی حیاتی در این حوزه است.”
جین این مقاله را با همکاری پروفسور دانشگاه MIT، پیتر سولوویتس، ژیژینگ جین از دانشگاه هنگ کنگ و جوی تیانی ژو از A * STAR سنگاپور نوشته است. آنها مقاله را در کنفرانس AAAI که در زمینه هوش مصنوعی در نیویورک برگزار میشود ارائه میدهند.