پژوهشگران فیسبوک الگوریتم جدید منبع باز wav2vec 2.0 را برای آموزش زبان با نظارت خود را منتشر کرد. این مدل جدید واحدهای اصلی گفتار را که برای مقابله با یک کار تحت نظارت خود استفاده میشود، میآموزد. این مدل آموزش داده میشود تا واحد گفتار صحیح را برای قسمتهای نامفهوم صدا پیشبینی کند، در حالی که در عین حال یاد میگیرد که واحدهای گفتاری باید چگونه باشند.
برنامههای گفتار به متن هیچگاه تا این اندازه فراوان، محبوب و قدرتمند نبودهاند به لطف پیشرفتهای زیاد در فناوری یادگیری ماشین و افزایش دسترسپذیری دادههای بزرگ گفتاری، پژوهشگران به دنبال عملکرد بهتر و بهتر سیستمهای تشخیص گفتار خودکار (Automatic Speech Recognition_ASR) هستند. در ادامه این مقاله با ما همراه باشید تا بیشتر با این الگوریتم جدید آشنا شوید.
الگوریتم تشخیص گفتار خودکار wav2v3c 2.0
سیستمهای تشخیص خودکار کنونی نیازمند هزاران ساعت رونویسی برای رسیدن به یک عملکرد قابلقبولی هستند. با اینوجود، فقدان دادههای صوتی رونویسی شده برای مناطقی که کمتر صحبت شده، کاملا مشهود است.
پژوهشگران هوش مصنوعی فیسبوک برای کمک به پیشرفت ASR، برای زبانها و گویشهایی که منبع کمی برایشان موجود است، الگوریتم منبع باز جدیدی با نام wav2vec 2.0 را برای آموزش زبان با نظارت خود، ایجاد کردند.
Wav2vec 2.0 چارچوبی است برای یادگیری نمایش گفتاری با نظارت خود است که ادعا دارد که که:” برای اولینبار، یادگیری نمایشهای قدرتمند از فایلهای گفتاری به تنهایی و به دنبال آن تنظیم دقیق رونویسی گفتار میتواند درحالیکه از نظر مفهومی سادهتر است، از بهترین روشهای نیمهنظارتشده بهتر عمل نماید.” توییت هوش مصنوعی فیسبوک میگوید که الگوریتم جدید میتواند فقط با 10 دقیقه داده گفتاری رونویسیشده، مدلهای تشخیص گفتار خودکار فعال کند.
در آزمایشها، wave2vec 2.0 از متد کنونی تشخیص گفتار SOTA Noisy Student در زیرمجموعه 100 ساعته مقیاس بزرگ مجموعه گفتارهای انگلیسی رونویسی Librispeech، عملکرد بهتری داشت، حتی وقتی که مقدار دادههای برچسبگذاری شده به 1 ساعت کاهش یافت.
چه چیزی wave2vec 2.0 را تا این اندازه قدرتمند ساخته است؟
محققان هوش مصنوعی فیسبوک بر این باورند که نمایشهای خوب یادگیری گفتار کلید موفقیت این الگوریتم جدید است. “یادگیری صرفا از نمونههای برچسب زده شده شبیه به اکتساب زبان در انسان نیست: نوزادان زبان را تنها از طریق گوش دادن به بزرگسالان اطراف خود میآموزند- پروسهای که مستلزم ارایهها و نمایشهای گفتاری خوب است.” به همین منظور، پژوهشگران چارچوبی را برای یادگیری نمایشها با نظارت خود از دادههای خام ویدیویی طراحی کردند. پژوهشگران توانستند با رمزگذاری فایلهای صوتی گفتاری از طریق شبکه عصبی چندلایه کانولوشن و سپس پوشاندن نتیجه محدودههای ارایههای گفتاری نهفته، نمایشهای نهان را به شبکه مبدل (تبدیلکننده، ترانسفورماتور) تغذیه کنند تا نمایشهایی ایجاد نمایند که اطلاعات را از کل دنباله دریافت میدارد.
به این ترتیب، مدل تشخیص گفتار جدیدی آموزش داده میشود تا در عین اینکه واحد گفتاری صحیح را برای قسمتهای پوشانده شده صوت پیشبینی نماید، میآموزد تا واحدهای گفتاری باید چگونه باشند. این طرح به مدل اجازه میدهد تا بازنماییهای زمینه و محتوا را بر نمایشهای گفتاری مداوم و وابستگی به کل توالی نمایشهای پنهان را تولید نماید.
این چارچوب اساسا منجر به آموزش قویتر مدل میشود تا شکلهای موج خام مرتبط با گفتار را بهتر درک کند.
wav2vec 2.0 مدل تشخیص گفتار خودکار توانمند شده با آهنگ خطای واژه (word error rate-WER) 8.6 درصد در یک گفتار با پسزمینه پرهیاهو و پرسروصدا و خطای 5.2% در یک فایل صوتی (تمیز و بدون نویز و هیاهیو) در استاندارد معیار LibriSpeech دست یافت. این مدل تنها از 10 دقیقه از گفتار رونویسیشده یا به اصطلاح دادههای دادههای برچسبگذاری شده را برای تنظیم دقیق با پیش آموزش k53 ساعت از دادههای بدون برچسب استفاده کرده است.
هوش مصنوعی فیسبوک معتقد است که الگوریتم خودنظارتی جدید wav2vac 2.0 میتواند مدلهای تشخیص گفتار خودکار بسیار دقیق و توانمندی را با مقادیر بسیار کمی از دادههای رونویسیشده خلق نماید. این الگوریتم برای ساخت مدلهای تشخیص گفتار زبانها و گویشهایی که منابع کمی برای آنان وجود است، بسیار مفید است و میتواند طیف گستردهای از برنامههای مرتبط را ایجاد نماید. هوش مصنوعی فیسبوک اکنون در حال سازگاری با پیادهسازی wav2vec 2.0 برای اجرا در در Cloud TPU است.
تشخیص گفتار با عملکرد بالا و بدون نظارت
چرا هوش مصنوعی برای فیسبوک اهمیت دارد؟
فناوریهای هوش مصنوعی مانند تشخیص گفتار نباید تنها برای افرادی مفید باشد که به یکی از رایجترین زبانهای دنیا مسلط هستند. کاهش وابستگی ما به دادههای بدون ساختار، بخش مهمی از گسترش دسترسی به این ابزارها است.
هوش مصنوعی فیس بوک اخیراً پیشرفت سریعی در این زمینه داشته است؛ ابتدا با معرفی wav2vec و سپس wav2vec 2.0 و اکنون با wav2vec-U. امیدواریم این امر به فناوری تشخیص گفتار بسیار موثرتری برای بسیاری از زبانها و گویشهای دیگر در سراسر جهان منجر شود. فیسبوک کد ایجاد سیستمهای تشخیص گفتار را با استفاده از ضبطهای صوتی بدون برچسب و متن بدون برچسب منتشر میکند. به طور کلی، افراد بسیاری از مهارتهای مربوط به گفتار را فقط با گوش دادن به دیگران در اطراف خود یاد میگیرند. این نشان میدهد که روش بهتری برای آموزش مدلهای تشخیص گفتار وجود دارد. راهی که به حجم زیادی از دادههای برچسبدار نیاز ندارد. توسعه این نوع سیستمهای هوشمندتر یک چشم انداز بلندپروازانه و بلندمدت علمی است و ما معتقدیم wav2vec-U به ما در پیشبرد آن هدف مهم و هیجان انگیز کمک میکند.