اخیراً هوش مصنوعی در زمینه پردازش زبان طبیعی (NLP) گامهای بلندی برداشته است، اما واقعا هوش مصنوعی چه مقدار از چیزی که میخواند را درک میکند؟
طبق ادعای محققان دپارتمان علوم کامپیوتر(USC)، مقدار درک هوش مصنوعی خیلی کمتر از آن چیزی است که تاکنون تصور میشده. مقالهای که اخیرا توسط استادیار شیانگ رن و دانشجوی دکترا یوچن لین ارائه شده حاکی از این است که علی رغم پیشرفتهای قابل توجه، هوش مصنوعی هنوز هم ذکاوت کافی برای تولید جملات قابل قبول را ندارد.
دکتر یوچن لین در همین راستا گفت:
“مدلهای فعلی ماشینهای تولید متن میتوانند جملاتی بنویسند كه شاید برای بسیاری از انسانها قانعكننده باشد، اما آنها اساساً در حال تقلید از چیزی هستند که در زمان آموزش آن را فرا گرفتهاند. هدف ما در این مطالعه بررسی این مسئله بود که آیا مدلهای پیشرفتهی کنونی تولید متن، میتوانند جملاتی برای توصیف سناریوهای طبیعی در زندگی روزمره ارائه کنند یا صرفا چیزی را میگویند که به آنها یاد دادهایم؟”
درک سناریوها در زندگی روزمره
به طور خاص، رن و لین توانایی استدلال این مدلهای پیشرفته را آزمایش کردند و ثابت کردند که بین ماشینهای تولید متن فعلی و عملکرد انسانی فاصله زیادی وجود دارد. در این آزمایش با توجه به مجموعهای از اسامی و افعال رایج، مدلهای رایانهای پیشرفته در حوزه پردازش زبان طبیعی (NLP) وظیفه ایجاد جملات باورپذیر در توصیف یک سناریوی روزمره داشتند. در حالی که این مدلها جملات صحیح دستوری تولید میکردند که در اغلب اوقات حتی از نظر منطق با هم سازگار نبودند.
به عنوان مثال، در زیر یک جمله وجود دارد که با استفاده از کلمات «سگ، فریزبی، پرتاب، گرفتن» از یک مدل پیشرفته تولید شده است:
“دو سگ در حال انداختن فریزبی به طرف یکدیگر هستند.”
این آزمون بر این فرض استوار است که ایدههای منسجم (در این مورد شخصی فریزبی را پرتاب می کند و سگ آن را می گیرد) بدون آگاهی عمیقتر از مفاهیم، تولید نمیشوند. به عبارت دیگر، عقل سلیم فراتر از درک دستور صحیح زبان است. این بدان معناست که لازم نیست همه چیز را در یک جمله توضیح دهید. این یک چالش اساسی در هدف توسعه هوش مصنوعی است اما فراتر از دانشگاه، برای مصرف کنندگان این موضوع نیز بسیار مهم است.
بدون درک کافی از زبان، چتباتها و دستیارهای صوتی ساخته شده بر اساس این مدلهای پیشرفته زبان طبیعی خیلی زود در معرض شکست قرار خواهند گرفت. همچنین رفع این مشکل برای حضور بیشتر رباتها در محیطهای انسانی نیز بسیار مهم است. برای مثال اگر شما از یک ربات شیر گرم بخواهید، انتظار دارید تا او بداند که شما یک فنجان شیر داغ میل دارید نه کل حجم شیر موجود را!
لین گفت: “آزمایش ما نشان میدهد برای اینکه یک مدل بتواند عملکرد بهتری را ارائه کند، باید تواناییهای ادراک و تشخیص بیشتری داشته باشد. رباتها باید قبل از اقدام عملی برای تعامل با مردم، سناریوهای طبیعی که در زندگی روزمره ما اتفاق خواهند افتاد را درک کنند.”
Wangchunshu Zhou ، Ming Shen ، Pei Zhou از دپارتمان علوم کامپیوتر USC به همراه Chandra Bhagavatula از انستیتوی هوش مصنوعی آلن و Yejin Choi از دانشکده علوم و مهندسی کامپیوتر پل جی آلن دانشگاه واشنگتن به لین و رن پیوستند.
آزمون تشخیص عقل سلیم
استدلال عقل سلیم یا توانایی هوش مصنوعی در درک صحیح با استفاده از دانش اولیه در مورد خصوصیات جهان، مانند این واقعیت که سگها نمیتوانند به سمت یکدیگر فریزبی پرتاب کنند، برای دههها در برابر تلاشهای محققان هوش مصنوعی مقاومت کرده است. اکنون مدلهای پیشرفته میتوانند به دقتی در حدود 90٪ برسند، بنابراین به نظر میرسد که پردازش زبان طبیعی (NLP) به هدف خود خیلی نزدیک شده است اما نباید خیلی هیجان زده شد.
رن متخصص پردازش زبان طبیعی و لین، دانش آموز وی، به صحت این آمار مشکوک بودند و برای باور آن به دلایل بیشتری نیاز داشتند. آنها در مقاله خود كه در كنفرانس یافتههای تجربی در زمینه پردازش زبان طبیعی (EMNLP) منتشر شد، دقت معیاری که برای این آمار مطرح شده بود را بررسی کردند و به همین سادگی توانستند سطح پیشرفت این علم را به چالش بکشند.
لین گفت: “انسانها با یادگیری و درك مفاهیم متداولی كه در محیط پیرامون خود تشخیص میدهند، توانایی ساخت جملات را پیدا میكنند”. وی افزود: “به دست آوردن توانایی ساخت جملات به عنوان یک نقطه عطف مهم در توسعه روابط انسانی قلمداد میشود. اما ما میخواستیم آزمایش کنیم که آیا ماشینها واقعاً میتوانند چنین توانایی را در سطحی نزدیک به انسان داشته باشند.”
برای ارزیابی مدلهای مختلف ماشین، محققان یک سیستم تولید متن به نام CommonGen ایجاد کردند که میتواند به عنوان معیاری برای آزمایش حس مشترک در ماشینهای تولیدکننده متن به کار رود. محققان مجموعهای از دادههای متشکل از 35141 مفهوم مرتبط با 77449 جمله را برای ماشینها ارائه کردند و نتیجه حیرتآور بود. آنها دریافتند که حتی بهترین و پیشرفتهترین مدلها نیز تنها به میزان 31.6٪ موفقیت در مقابل 63.5٪ که برای انسان ثبت شده رسیدهاند.
لین گفت: “ما متعجب شدیم كه چگونه این مدلها نمیتوانند دانش ساده و عادی را ارائه کنند. آنها حتی درک این را نداشتند كه انسانی كه یك فریزبی را پرتاب میکند، میتواند بسیار منطقیتر از سگهایی باشد که به سمت یکدیگر فریزبی پرتاب میکنند. ما پس از آموزش با یک مجموعه عظیم از دادهها به یکی از قویترین مدلها به نام T5 پی بردیم که این مدلها هنوز هم میتواند اشتباهات احمقانهای انجام دهند.”
به گفته محققان، به نظر میرسد كه آزمونهای قبلی به اندازه كافی تواناییهای مربوط به عقل سلیم در مدلهای پردازش زبان طبیعی را به چالش نکشیده است، در عوض آنچه كه آنها در مرحله آموزش فراگرفتهاند به عنوان آزمون برایشان تعریف شده است. رن گفت: “مطالعات قبلی عمدتاً بر عقل سلیم برپایه انتخاب تمرکز داشتند. آنها ماشینها را با سوالات چند گزینهای آزمایش میکنند، به گونهای که فضای جستجو برای ماشین کم است. معمولاً چهار یا پنج گزینه وجود دارد و این طبیعی است که ماشین از آزمون سربلند بیرون بیاید.”
یک آزمون معمول برای تست عقل سلیم پاسخ به چند سوال است. به عنوان مثال: بزرگسالان از چسبهای مخصوص چوب کجا استفاده میکنند؟ الف: کلاس – B: دفتر – C : کشوی میز. پاسخ در اینجا (B: office) است.
حتی رایانههای شخصی هم بدون دردسر زیاد میتوانند این مسئله را کشف کنند. اما در مقابل، یک آزمون تولید متن وسعت بیشتری از درک دنیای واقعی را میطلبد مانند سیستمی که در آن از یک مدل خواسته میشود یک جمله طبیعی را از مفاهیم داده شده تولید کند.
رن توضیح میدهد که: “با آموزشهای گسترده به مدل، انجام چنین وظایفی بسیار آسان است. اما بر خلاف آن آزمون پیشنهادی ما بر جنبهی مولد عقل سلیم در ماشینها تمرکز دارد.”
رن و لین امیدوارند که این آزمون و مجموعهی دادههای آنها به عنوان یک معیار جدید برای سنجش موفقیت و پیشرفت مدلها باشد و در تحقیقات آینده در مورد معرفی و بررسی عقل سلیم در حوزه زبان های طبیعی استفاده شود. آنها یک صفحه اصلی دارند که نمرات کسب شده توسط مدلهای مختلف محبوب را نشان میدهد تا به محققان کمک کند که برای پروژههای آینده خود اهدافی بهینهتر تعیین کنند.
لین افزود: “با پیشرفت عقل سلیم و سایر دانشهای حوزه هوش مصنوعی در ماشینها، من معتقدم که یک روز میتوانیم مدلی مانند سامانتا در فیلم Her را ببینیم که پاسخهای طبیعی ایجاد میکند و کاملا با زندگی ما تعامل دارد.”