سیستم توسعه یافته در MIT CSAIL با هدف کمک به زبان شناسان در رمزگشایی زبانهایی قدیمی کار خود را آغاز کرده است.
زبانها در گذر زمان
تحقیقات اخیر نشان می دهد که بیشتر زبانهایی که تاکنون وجود داشته اند دیگر مورد استفاده قرار نمیگیرند. دهها مورد از این زبانهای از دست رفته؛ گم شده یا “رمزگشایی نشده” تلقی می شوند. یعنی ما درباره دستور زبان، واژگان یا صرف و نحو آنها اطلاعات کافی نداریم تا بتوانیم متونی که به این زبانها نوشته شدهاند را بفهمیم.
رمزگشایی زبانها
درک زبانهای قدیمی چیزی بیش از یک کنجکاوی علمی است. بدون آنها، ما دانش کامل در مورد افرادی که با استفاده آنها صحبت میکردند را از دست میدهیم. متأسفانه، اکثر آنها نمونههای کمی در دسترس دارند که دانشمندان نمیتوانند با استفاده از الگوریتم های ترجمه ماشین مانند Google Translate، آنها را رمزگشایی کنند. بر روی برخی از این زبانهای “نسبی” تحقیق شده خوبی برای مقایسه ندارند. اغلب فاقد تقسیم کنندههای سنتی مانند فضای سفید و علائم نگارشی،برای نشان دادن ، تصور کردن و رمزگشایی زبان پیشین و نحوه نوشتار مختلف، هستند.
پیشرفت در زبان شناسی با کمک هوش مصنوعی
با این حال، محققان آزمایشگاه علوم رایانه ای و هوش مصنوعی MIT (CSAIL) اخیراً پیشرفت بزرگی در این زمینه حاصل کردهاند: سیستم جدیدی که نشان داده شده است بدون نیاز به دانش پیشرفته در مورد ارتباط آن با سایر زبانها، می توان به طور خودکار زبان قدیمی را رمزگشایی کرد. آنها همچنین نشان دادند که سیستم آنها میتواند روابط بین زبانها را تعیین کند. آنها از این سیستم برای تأیید تحقیقات اخیر استفاده کردند که نشان میدهد زبان عبری در واقع با زبان باسک یکی نیست. هدف نهایی تیم این است که سیستم بتواند با استفاده از فقط چند هزار کلمه، زبانهای از دست رفته ای را که دههها از زبان شناسان دور مانده اند، رمزگشایی کند.
روند کار هوش مصنوعی
این سیستم با هدایت پروفسور دانشگاه MIT، رجینا بارزیلای، به چندین اصل مبتنی بر بینش زبانشناسی تاریخی متکی است. از جمله به این واقعیت متکی است که زبانها معمولاً فقط به روشهای خاص قابل پیشبینی تکامل می یابند. به عنوان مثال، در حالی که یک زبان معین به ندرت کل صدا را اضافه یا حذف می کند، به احتمال زیاد تعویضهای صوتی خاصی اتفاق می افتد. یک کلمه با “p” در زبان مادر ممکن است به “b” تبدیل شود، اما تغییر به “k” به دلیل شکاف تلفظ قابل توجه کمتر است.
الگوریتم هوش مصنوعی
با ادغام این محدودیت های زبانی و سایر محدودیت های زبانی، بارزیلای و دانشجوی دکترای MIT، جیامینگ لو، یک الگوریتم رمزگشایی ایجاد کردند. این الگوریتم می تواند فضای وسیع تحولات احتمالی و کمبود سیگنال راهنمای ورودی را کنترل کند. این الگوریتم می آموزد که اصوات زبانی را در یک فضای چند بعدی جاسازی کند. جایی که تفاوت در تلفظ در فاصله بین بردارهای مربوطه منعکس می شود.
این طراحی آنها را قادر می سازد تا الگوهای مربوط به تغییر زبان را به دست آورند و آنها را به عنوان محدودیتهای محاسباتی بیان کنند. مدل بدست آمده میتواند کلمات را در یک زبان باستانی تقسیم بندی کرده و آنها را با نمونه های مشابه در یک زبان مرتبط ترسیم کند. این پروژه فعلا روی کاغذ است. بارزیلا و لو سال گذشته نوشتند که رمزگشایی زبانهای مرده اوگاریتی یک مسئله Linear B است، که قبلاً چندین دهه رمزگشایی آن طول کشیده بود.
با این حال، یک تفاوت اساسی در این پروژه این بود که تیم میدانست این زبانها به ترتیب به اشکال اولیه عبری و یونانی مربوط هستند. با استفاده از سیستم جدید، رابطه بین زبانها توسط الگوریتم استنباط می شود. این سوال یکی از بزرگترین چالشهای رمزگشایی است. در مورد Linear B ، چندین دهه طول کشید تا نسل دقیق شناخته شده کشف شود.
دیدگاه محققین در مورد ترجمه زبانهای ناشناخته گذشته با استفاده از هوش مصنوعی
محققان هنوز نمیتوانند در مورد زبان مرتبط به توافق برسند: برخی باسک می گویند برخی دیگر این فرضیه را رد می کنند و ادعا می کنند که عبری به هیچ زبان شناخته شده ای ارتباط ندارد. الگوریتم پیشنهادی می تواند نزدیکی بین دو زبان را ارزیابی کند. در حقیقت، وقتی روی زبانهای شناخته شده آزمایش شود، حتی می تواند خانواده های زبانی را به طور دقیق شناسایی کند. این تیم الگوریتم خود را با در نظر گرفتن زبان باسک و همچنین نامزدهای کم احتمال از خانواده های رومانس، ژرمنی ، ترک و اورالی به زبان ایبری استفاده کرد. در حالی که باسک و لاتین نسبت به زبانهای دیگر به زبان ایبری نزدیکتر بودند. آنها هنوز بسیار متفاوت هستند و نمیتوان آنها را به هم مرتبط دانست.
سخن پایانی
در آینده، تیم امیدوار است که کار خود را فراتر از اتصال متون به کلمات مرتبط به یک زبان شناخته شده گسترش دهد، رویکردی که به عنوان “رمزگشایی مبتنی بر همبستگی” شناخته می شود. این الگو فرض میکند که چنین زبان شناخته شده ای وجود دارد. اما مثال زبان عبری نشان می دهد که همیشه اینگونه نیست. رویکرد جدید تیم شامل شناسایی معنای معنایی کلمات است، حتی اگر ندانند چگونه آنها را بخوانند. برزیلی میگوید: “به عنوان مثال، ما می توانیم تمام ارجاعات به افراد یا مکانهای موجود در سند را شناسایی کنیم که پس از آن با توجه به شواهد تاریخی شناخته شده بیشتر مورد بررسی قرار می گیرد”. این روشهای” شناسایی موجودیت ” امروزه معمولاً در برنامههای مختلف پردازش متن مورد استفاده قرار میگیرد و بسیار دقیق هستند، اما سوال اصلی تحقیق این است که آیا این کار بدون هیچ گونه آموزش زبانهای باستانی امکان پذیر است؟ این پروژه تا حدی توسط فعالیت تحقیقاتی پیشرفته اطلاعات (IARPA) پشتیبانی شده است.