موتور تشخیص گفتار خودکار فیسبوک برای 51 زبان مختلف در قالب یک مدل پیادهسازی شد
تشخیص گفتار خودکار (ASR) در فیسبوک با تحولی عظیمی روبهرو شده است. طوریکه این موتور از تمامی رقیبان خود متمایز و برجسته ساخته است. با عامر اندیش همراه باشید تا با این دستاورد عظیم فیسبوک بیشتر آشنا شوید.
موتور جدید فیسبوک
دانشمندان تشخیص گفتار خودکار (ASR) در فیسبوک مدل جدیدی را توسعه دادند که قابلیت درک 51 زبان مختلف را دارد. این مدل که با بیش از 16000 ساعت ضبط صدا ساخته شده، از بزرگترین طراحیهای این شرکت به شمار میآید.
گفتنی است موتورهای ASR معمولا قادر به درک تنها یک زبان هستند. بدین ترتیب، برای ارتباط برقرار ساختن با بیش از یک زبان، ترکیب مدلهای مختلف ASR برای دستیار صوتی و بالا بردن تکنولوژیهای گفتار لازم و ضروری است. فیسبوک با استفاده از مدلی که توسعهدهندگان آن را مدل رشته به رشته (sequence-to-sequence model) مینامند، قرار دادن زبانهای مختلف در یک سیستم واحد را ممکن ساخته است. در اصل، فیسبوک برای ساختن این مدل از ساعتها دادههای صوتی جمعآوری شده از و فیلمهای ناشناس بارگذاری شده بر اپلیکیشن فیسبوک استفاده کرده است. هدف نهایی موتور تشخیص گفتار، تمیز قایل شدن زبان متکلم است و آنچه که سعی در بیان آن را دارد.
در این سیستم زبانهای مختلف به چندین زیرشاخه تبدیل میشوند. این کار به منظور پاسخ به زبانی است که شخص در حال گفتوگو با آن است.
مدل واحد ارائه شده تویط فیسبوک، قابلیت تشخیص همزمان چندین زبان را دارد. این پروژه از جمله پروژههای بلند مدت فیسبوک بود که با موفقیت انجام شد. به طور کل، پردازش گفتار به چند زبان مختلف، دهههاست که به منطقه فعال تحقیقاتی تبدیل شده است.
تقریبا بیلیونها بیلیون پارامتر مختلف برای زبان در مدل جدید فیسبوک در نظر گرفته شده که فرایند تشخیص گفتار را در مقایسه با مدلهای معمولی برجستهتر ساخته است. گفتنی است که پیشرفت عملکرد مدل جدید ارائه شده توسط فیسبوک، 28.8% است.
زبانهایی که ساعات ضبط کمتری داشتهاند، از نظر میزان خطای واژگانی، درصد خطای بیشتری دارند. علت را میتوان در این امر جستوجو کرد که این زبانها به طور معمول برای طراحیهای استانداردهای روز دنیا استفاده نمیشوند.
مطابق با سخنگوی فیسبوک، این پروژه، اولین و بزرگترین پروژه در زمینه تشخیص گفتار در جهان است که در مقیاسی بزرگ، زبانهای زنده گوناگون جهان را مورد مطالعه قرار داده است. سخنگوی فیسبوک همچنین ادامه داد که “ما نشان دادیم که امکان برقراری 51 زبان زنده مختلف در دنیا در یک ساختمان واحد و حجیم ASR وجود دارد.
صدای تشخیص گفتار فیسوک
علاقه فیسبوک به مدل واحد پردازش گفتار که قادر به درک و ارتباط به زبانهای متفاوت باشد، فراتر از حد آکادمیک و دانشگاهی است. به همین منظور، این شرکت سرمایهگذاری عظیمی در بهبود هوش مصنوعی مکالمهای در جبهههای مختلف کرده است. این شرکت، اخیرا فعالیت بر یک چتبات جدید مبنع باز (open source) با نام بلندر (Blender) را آغاز کرده است. ظاهرا، این چتبات نسبت به بسیاری از چتباتهای رقیب مانند چتبات جدید گوگل مینا (Google’s new Meena Chatbot) قویتر و پیشرفتهتر است. بلندر برای ادامه گفتوگو با کاربران در هر زمینهای و نشان دادن همدلی با آنان طراحی شده است. فیسبوک همچنان تلاش دارد تا با استفاده از جمعآوری دادههای صوتی موتورهای تشخیص گفتار خود را قویتر از پیش نماید. برای این منظور، به کاربرانی که فایلهای صوتی خود را از طریق اپلیکیشن تحقیقاتی Viewpoint market فیسبوک بارگذاری کنند، هزینه کمی پرداخت مینماید.
چنین پروژههایی به همراه آزمایشهای جدید، ممکن است زمینه جدیدی برای دستیار صوتی در سیستم عامل فیسبوک فراهم آورد. سیستم واحدی که قادر به تکلم و ارتباط برقرار کردن به چندین و چند زبان زنده دنیا باشد، برای بقای این شرکت در صحنه بینالملل لازم و ضروری است.
جمعبندی
الکسا و دستیار گوگل (Google Assistant)، بسیار قبلتر از فیسبوک از موتورهای تشخیص گفتار استفاده میکردند و قادر به تکلم به زبانهای مختلفی بودند، اما حالتهای چند زبانه آنان دارای محدودیتهای قابل توجهی است. الکسا توانایی تشخیص و پاسخگویی به زبانهای انگلیسی، اسپانیایی، فرانسوی و هندی با توجه به موقعیت جغرافیایی گوینده دارد. در همین حال، دستیار گوگل (Google Assistant) قادر به تشخیص و پاسخگویی دو زبان، انگلیسی و هر زبان دیگری که قبلا توسط دستیار صوتی گوگل (voice assistant) با آن صحبت شده، است.