ترجمه زبان‌های ناشناخته گذشته با استفاده از یادگیری ماشین

سیستم توسعه یافته در MIT CSAIL با هدف کمک به زبان شناسان در رمزگشایی زبان‌هایی قدیمی کار خود را آغاز کرده است.

 

زبان‌ها در گذر زمان

تحقیقات اخیر نشان می دهد که بیشتر زبان‌هایی که تاکنون وجود داشته اند دیگر مورد استفاده قرار نمی‌گیرند. ده‌ها مورد از این زبان‌های از دست رفته؛ گم شده یا “رمزگشایی نشده” تلقی می شوند. یعنی ما درباره دستور زبان، واژگان یا صرف و نحو آن‌ها اطلاعات کافی نداریم تا بتوانیم متونی که به این زبان‌ها نوشته شده‌اند را بفهمیم.

 

رمزگشایی زبان‌ها

درک زبان‌های قدیمی چیزی بیش از یک کنجکاوی علمی است. بدون آن‌ها، ما دانش کامل در مورد افرادی که با استفاده آن‌ها صحبت می‌کردند را از دست می‌دهیم. متأسفانه، اکثر آن‌ها نمونه‌های کمی در دسترس دارند که دانشمندان نمی‌توانند با استفاده از الگوریتم های ترجمه ماشین مانند Google Translate، آن‌ها را رمزگشایی کنند. بر روی برخی از این زبان‌های “نسبی” تحقیق شده خوبی برای مقایسه ندارند. اغلب فاقد تقسیم کننده‌های سنتی مانند فضای سفید و علائم نگارشی،برای نشان دادن ، تصور کردن و رمزگشایی زبان پیشین و نحوه نوشتار مختلف، هستند.

 

پیشرفت در زبان شناسی با کمک هوش مصنوعی

با این حال، محققان آزمایشگاه علوم رایانه ای و هوش مصنوعی MIT (CSAIL) اخیراً پیشرفت بزرگی در این زمینه حاصل کرده‌اند: سیستم جدیدی که نشان داده شده است بدون نیاز به دانش پیشرفته در مورد ارتباط آن با سایر زبان‌ها، می توان به طور خودکار زبان قدیمی را رمزگشایی کرد. آنها همچنین نشان دادند که سیستم آن‌ها می‌تواند روابط بین زبان‌ها را تعیین کند. آن‌ها از این سیستم برای تأیید تحقیقات اخیر استفاده کردند که نشان می‌دهد زبان عبری در واقع با زبان باسک یکی نیست. هدف نهایی تیم این است که سیستم بتواند با استفاده از فقط چند هزار کلمه، زبان‌های از دست رفته ای را که دهه‌ها از زبان شناسان دور مانده اند، رمزگشایی کند.

روند کار هوش مصنوعی

این سیستم با هدایت پروفسور دانشگاه MIT، رجینا بارزیلای، به چندین اصل مبتنی بر بینش زبان‌شناسی تاریخی متکی است. از جمله به این واقعیت متکی است که زبان‌ها معمولاً فقط به روش‌های خاص قابل پیش‌بینی تکامل می یابند. به عنوان مثال، در حالی که یک زبان معین به ندرت کل صدا را اضافه یا حذف می کند، به احتمال زیاد تعویض‌های صوتی خاصی اتفاق می افتد. یک کلمه با “p” در زبان مادر ممکن است به “b” تبدیل شود، اما تغییر به “k” به دلیل شکاف تلفظ قابل توجه کمتر است.

الگوریتم هوش مصنوعی

با ادغام این محدودیت های زبانی و سایر محدودیت های زبانی، بارزیلای و دانشجوی دکترای MIT، جیامینگ لو، یک الگوریتم رمزگشایی ایجاد کردند. این الگوریتم می تواند فضای وسیع تحولات احتمالی و کمبود سیگنال راهنمای ورودی را کنترل کند. این الگوریتم می آموزد که اصوات زبانی را در یک فضای چند بعدی جاسازی کند. جایی که تفاوت در تلفظ در فاصله بین بردارهای مربوطه منعکس می شود.

این طراحی آنها را قادر می سازد تا الگوهای مربوط به تغییر زبان را به دست آورند و آن‌ها را به عنوان محدودیت‌های محاسباتی بیان کنند. مدل بدست آمده می‌تواند کلمات را در یک زبان باستانی تقسیم بندی کرده و آنها را با نمونه های مشابه در یک زبان مرتبط ترسیم کند. این پروژه فعلا روی کاغذ است. بارزیلا و لو سال گذشته نوشتند که رمزگشایی زبان‌های مرده اوگاریتی یک مسئله Linear B  است، که قبلاً چندین دهه رمزگشایی آن طول کشیده بود.

با این حال، یک تفاوت اساسی در این پروژه این بود که تیم می‌دانست این زبان‌ها به ترتیب به اشکال اولیه عبری و یونانی مربوط هستند. با استفاده از سیستم جدید، رابطه بین زبان‌ها توسط الگوریتم استنباط می شود. این سوال یکی از بزرگترین چالش‌های رمزگشایی است. در مورد Linear B ، چندین دهه طول کشید تا نسل دقیق شناخته شده کشف شود.

دیدگاه محققین در مورد ترجمه زبان‌های ناشناخته گذشته با استفاده از هوش مصنوعی

محققان هنوز نمی‌توانند در مورد زبان مرتبط به توافق برسند: برخی باسک می گویند  برخی دیگر این فرضیه را رد می کنند و ادعا می کنند که عبری به هیچ زبان شناخته شده ای ارتباط ندارد. الگوریتم پیشنهادی می تواند نزدیکی بین دو زبان را ارزیابی کند. در حقیقت، وقتی روی زبان‌های شناخته شده آزمایش شود، حتی می تواند خانواده های زبانی را به طور دقیق شناسایی کند. این تیم الگوریتم خود را با در نظر گرفتن زبان باسک و همچنین نامزدهای کم احتمال از خانواده های رومانس، ژرمنی ، ترک و اورالی به زبان ایبری استفاده کرد. در حالی که باسک و لاتین نسبت به زبان‌های دیگر به زبان ایبری نزدیکتر بودند. آنها هنوز بسیار متفاوت هستند و نمی‌توان آنها را به هم مرتبط دانست.

 

سخن پایانی

در آینده، تیم امیدوار است که کار خود را فراتر از اتصال متون به کلمات مرتبط به یک زبان شناخته شده گسترش دهد، رویکردی که به عنوان “رمزگشایی مبتنی بر همبستگی” شناخته می شود. این الگو فرض می‌کند که چنین زبان شناخته شده ای وجود دارد. اما مثال زبان عبری نشان می دهد که همیشه اینگونه نیست. رویکرد جدید تیم شامل شناسایی معنای معنایی کلمات است، حتی اگر ندانند چگونه آن‌ها را بخوانند. برزیلی می‌گوید: “به عنوان مثال، ما می توانیم تمام ارجاعات به افراد یا مکان‌های موجود در سند را شناسایی کنیم که پس از آن با توجه به شواهد تاریخی شناخته شده بیشتر مورد بررسی قرار می گیرد”. این روش‌های” شناسایی موجودیت ” امروزه معمولاً در برنامه‌های مختلف پردازش متن مورد استفاده قرار می‌گیرد و بسیار دقیق هستند، اما سوال اصلی تحقیق این است که آیا این کار بدون هیچ گونه آموزش زبان‌های باستانی امکان پذیر است؟ این پروژه تا حدی توسط فعالیت تحقیقاتی پیشرفته اطلاعات (IARPA) پشتیبانی شده است.

لینک کوتاه شده : https://amerandish.com/Tl3lU

به اشتراک بگذارید

دیدگاهتان را بنویسید

نشانی ایمیل شما منتشر نخواهد شد. بخش‌های موردنیاز علامت‌گذاری شده‌اند *

_ مطالب مرتبط _

درخواست شما با موفقیت ارسال شد.

ضمن تشکر بابت ارسال پیام، در سریع‌ترین زمان ممکن کارشناسان شرکت عامراندیش درخواست شما را بررسی خواهند نمود.