اولین مطالعه محاسباتی درمورد پیشرفتهترین مدلهای زبان عصبی، توسط محققان اسکولتک و همکارانشان انجام گرفت. این مقاله که در نوع خود بزرگترین مطالعه محاسباتی در این زمینه بوده، قرار است تا چگونگی جایگزینی واژگان در پردازش زبان طبیعی را بررسی کند. این مقاله در 28مین کنفرانس بین المللی زبان شناسی محاسباتی (COLING-2020) ارائه شد.
جایگزینی واژگان توسط هوش مصنوعی
جایگزینی واژگان، شامل جایگزینی یک کلمه با کلمه مترادف دیگر در جمله است، این جایگزینی متناسب با متن جمله انجام میشود. به عنوان مثال، در جمله “چه کسی لورا پالمر را کشت؟” کلمه “کشت” را میتوان با مترادف “به قتل رساند” جایگزین کرد.
جایگزینی واژگانی برای افراد بومی یک زبان بسیار آسان است، اما برای ماشینهایی که باید پردازش زبان طبیعی (NLP) را انجام دهند کار بسیار سختتری است. آنها ممکن است برای شناسایی معنای خاص کلمه در متن، تصحیح املا بر اساس معنی کلمه و حتی کارهای پیچیدهتر مانند پاراگراف بندی یا سادهسازی یک متن، به آن نیاز داشته باشند. برای این منظور، مدلهای زبانی مبتنی بر شبکههای عصبی عمیق ساخته میشوند که میتوانند تعداد زیادی جایگزین برای کلمه مورد نظر بر اساس کلمات پس و پیش آن تولید کند.
الكساندر پانچنكو، استادیار اسکولتک و همكارانش از مركز تحقیقات سامسونگ روسیه، دانشگاه HSE و دانشگاه دولتی لومونوسف مسكو تصمیم گرفتند كه رقابتی بین پنج مدل زبان عصبی را برگزار كنند. آنها این مدلها را بر روی دو مورد آزمایش کردند: خودجایگزینی واژگان و پیدا کردن کلمه متناسب (زمانی که یک ماشین باید بین لغت “bank” به معنای کنار رودخانه و لغت “bank” به معنی بانک تمایز قائل شود).
محققان بر این باورند که نتایج آنها ممکن است برای توسعه دهندگان NLP مفید باشد. آنها توانستند در موارد دیگر، نشان دهند كه كدام مدلها به ایجاد روابط معنایی از انواع (مترادف، حروف اضافه و غیره كه قبلاً به آنها اشاره شد) تمایل دارند. اطلاعات اضافی در مورد كلمه مورد نظر میتواند كیفیت جایگزینی واژگان را به طور قابل ملاحظهای افزایش دهد. طبق نتایج به دست آمده، جایگزینی واژگان ممکن است برای یادگیری زبان مفید باشد (جایگزینی کلمات با معادلهای سادهتر آنها). ضمنا میتواند برای افزایش دادههای متنی برای آموزش شبکههای عصبی مفید باشد؛ به مانند روشهای مشابه افزونگی داده که در دید رایانهای رایج است اما در تجزیه و تحلیل متن چندان رایج نیست. پانچنکو میگوید: «یکی دیگر از برنامهها، “کمک نوشتار” است که پیشنهاد خودکار مترادف و فرمولبندی مجدد متن را میدهد.
منبع: techxplore