تشخیص گفتار خودکار فیسبوک برای 51 زبان مختلف

تشخیص گفتار خودکار فیسبوک برای ۵۱ زبان مختلف

موتور تشخیص گفتار خودکار فیسبوک برای ۵۱ زبان مختلف در قالب یک مدل پیاده‌سازی شد

تشخیص گفتار خودکار (ASR) در فیسبوک با تحولی عظیمی روبه‌رو شده است. طوری‌که این موتور از تمامی رقیبان خود متمایز و برجسته ساخته است. با عامر اندیش همراه باشید تا با این دستاورد عظیم فیسبوک بیشتر آشنا شوید.

موتور جدید فیسبوک

دانشمندان تشخیص گفتار خودکار (ASR) در فیسبوک مدل جدیدی را توسعه دادند که قابلیت درک ۵۱ زبان مختلف را دارد. این مدل که با بیش از ۱۶۰۰۰ ساعت ضبط صدا ساخته شده، از بزرگ‌ترین طراحی‌های این شرکت به شمار می‌آید.

گفتنی است موتورهای ASR معمولا قادر به درک تنها یک زبان هستند. بدین ترتیب، برای ارتباط برقرار ساختن با بیش از یک زبان، ترکیب مدل‌های مختلف ASR برای دستیار صوتی و بالا بردن تکنولوژی‌های گفتار لازم و ضروری است. فیسبوک با استفاده از مدلی که توسعه‌دهندگان آن را مدل رشته به رشته (sequence-to-sequence model) می‌نامند، قرار دادن زبان‌های مختلف در یک سیستم واحد را ممکن ساخته است. در اصل، فیسبوک برای ساختن این مدل از ساعت‌ها داده‌های صوتی جمع‌آوری شده از و فیلم‌های ناشناس بارگذاری شده بر اپلیکیشن فیسبوک استفاده کرده است. هدف نهایی موتور تشخیص گفتار، تمیز قایل شدن زبان متکلم است و آنچه که سعی در بیان آن را دارد.

در این سیستم زبان‌های مختلف به چندین زیرشاخه تبدیل می‌شوند. این کار به منظور پاسخ به زبانی است که شخص در حال گفت‌وگو با آن است.

مدل واحد ارائه شده تویط فیسبوک، قابلیت تشخیص همزمان چندین زبان را دارد. این پروژه از جمله پروژه‌های بلند مدت فیسبوک بود که با موفقیت انجام شد. به طور کل، پردازش گفتار به چند زبان مختلف، دهه‌هاست که به منطقه فعال تحقیقاتی تبدیل شده است.

تقریبا بیلیون‌ها بیلیون‌ پارامتر مختلف برای زبان در مدل جدید فیسبوک در نظر گرفته شده که فرایند تشخیص گفتار را در مقایسه با مدل‌های معمولی برجسته‌تر ساخته است. گفتنی است که پیشرفت عملکرد مدل جدید ارائه شده توسط فیسبوک، ۲۸.۸% است.

زبان‌هایی که ساعات ضبط کمتری داشته‌اند، از نظر میزان خطای واژگانی، درصد خطای بیشتری دارند. علت را می‌توان در این امر جست‌وجو کرد که این زبان‌ها به طور معمول برای طراحی‌های استانداردهای روز دنیا استفاده نمی‌شوند.

مطابق با سخنگوی فیسبوک، این پروژه، اولین و بزرگ‌ترین پروژه در زمینه تشخیص گفتار در جهان است که در مقیاسی بزرگ، زبان‌های زنده گوناگون جهان را مورد مطالعه قرار داده است. سخنگوی فیسبوک همچنین ادامه داد که “ما نشان دادیم که امکان برقراری ۵۱ زبان زنده مختلف در دنیا در یک ساختمان واحد و حجیم ASR وجود دارد.

صدای تشخیص گفتار فیسوک

علاقه فیسبوک به مدل واحد پردازش گفتار که قادر به درک و ارتباط به زبان‌های متفاوت باشد، فراتر از حد آکادمیک و دانشگاهی است. به همین منظور، این شرکت سرمایه‌گذاری عظیمی در بهبود هوش مصنوعی مکالمه‌ای در جبهه‌های مختلف کرده است. این شرکت، اخیرا فعالیت بر یک چت‌بات جدید مبنع باز (open source) با نام بلندر (Blender) را آغاز کرده است.  ظاهرا، این چت‌بات نسبت به بسیاری از چت‌بات‌های رقیب مانند چت‌بات جدید گوگل مینا (Google’s new Meena Chatbot) قوی‌تر و پیشرفته‌تر است. بلندر برای ادامه گفت‌وگو با کاربران در هر زمینه‌ای و نشان دادن همدلی با آنان طراحی شده است. فیسبوک همچنان تلاش دارد تا با استفاده از جمع‌آوری داده‌های صوتی موتورهای تشخیص گفتار خود را قوی‌تر از پیش نماید. برای این منظور، به کاربرانی که فایل‌های صوتی خود را از طریق اپلیکیشن تحقیقاتی Viewpoint market فیس‌بوک بارگذاری کنند، هزینه کمی پرداخت می‌نماید.

چنین پروژه‌هایی به همراه آزمایش‌های جدید، ممکن است زمینه جدیدی برای دستیار صوتی در سیستم عامل فیسبوک فراهم آورد. سیستم واحدی که قادر به تکلم و ارتباط برقرار کردن به چندین و چند زبان زنده دنیا باشد، برای بقای این شرکت در صحنه بین‌الملل لازم و ضروری است.

جمع‌بندی

الکسا و دستیار گوگل (Google Assistant)، بسیار قبل‌تر از فیسبوک از موتورهای تشخیص گفتار استفاده می‌کردند و قادر به تکلم به زبان‌های مختلفی بودند، اما حالت‌های چند زبانه آنان دارای محدودیت‌های قابل توجهی است. الکسا توانایی تشخیص و پاسخگویی به زبان‌های انگلیسی، اسپانیایی، فرانسوی و هندی با توجه به موقعیت جغرافیایی گوینده دارد. در همین حال، دستیار گوگل (Google Assistant) قادر به تشخیص و پاسخگویی دو زبان، انگلیسی و هر زبان دیگری که قبلا توسط دستیار صوتی گوگل (voice assistant) با آن صحبت شده، است.

 

لینک کوتاه شده : https://amerandish.com/9qPTQ
به این مطلب امتیاز دهید
0.0/5

به اشتراک بگذارید

اشتراک گذاری در whatsapp
اشتراک گذاری در telegram
اشتراک گذاری در linkedin
اشتراک گذاری در twitter
اشتراک گذاری در email

دیدگاهتان را بنویسید

نشانی ایمیل شما منتشر نخواهد شد. بخش‌های موردنیاز علامت‌گذاری شده‌اند *

فارس آوا

تبدیل گفتار به متن

باتاوا

دستیارسازمانی - چت بات

هوشتل

اپراتورهوشمند مرکز تماس

بینایار

درک هوشمند ویدیو و تصویر

_ مطالب مرتبط _