الگوریتم جدید تشخیص گفتار خودکار فیسبوک: Wav2vec 2.0

الگوریتم جدید تشخیص گفتار خودکار فیسبوک: Wav2vec 2.0

هوش مصنوعی فیسبوک  wav2vec2.0: نمونه تشخیص گفتار خودکار ۱۰ دقیقه‌ای

مقدمه

پژوهشگران فیسبوک  الگوریتم جدید منبع باز wav2vec 2.0 را برای آموزش زبان با نظارت خود را منتشر کرد. با عامراندیش همراه باشید تا با این الگوریتم جدید فیسبوک بیشتر آشنا شوید.

الگوریتم تشخیص گفتار خودکار wav2v3c 2.0

برنامه‌های گفتار به متن هیچ‌گاه تا این اندازه فراوان، محبوب و قدرتمند نبوده‌اند به لطف پیشرفت‌های زیاد در فناوری یادگیری ماشین و افزایش دسترس‌پذیری داده‌های بزرگ گفتاری، پژوهشگران به دنبال عملکرد بهتر و بهتر سیستم‌های تشخیص گفتار خودکار (Automatic Speech Recognition_ASR)  هستند.

سیستم‌های تشخیص خودکار کنونی نیازمند هزاران ساعت رونویسی برای رسیدن به یک عملکرد قابل‌قبولی هستند. با این‌وجود، فقدان داده‌های صوتی رونویسی شده برای مناطقی که کمتر صحبت شده، کاملا مشهود است.

پژوهشگران هوش مصنوعی فیسبوک برای کمک به پیشرفت ASR، برای زبان‌ها و گویش‌هایی که منبع کمی برایشان موجود است، الگوریتم منبع باز جدیدی با نام wav2vec 2.0 را برای آموزش زبان با نظارت خود، ایجاد کردند.

Wav2vec 2.0 چارچوبی است برای یادگیری نمایش گفتاری با نظارت خود است که ادعا دارد که که:” برای اولین‌بار، یادگیری نمایش‌های قدرتمند از فایل‌های گفتاری به تنهایی و به دنبال آن تنظیم دقیق رونویسی گفتار می‌تواند درحالی‌که از نظر مفهومی ساده‌تر است، از بهترین روش‌های نیمه‎نظارت‌شده بهتر عمل نماید.” توییت هوش مصنوعی فیسبوک می‌گوید که الگوریتم جدید می‌تواند فقط با ۱۰ دقیقه داده گفتاری رونویسی‌شده، مدل‌های تشخیص گفتار خودکار فعال کند.

در آزمایش‌ها، wave2vec 2.0 از متد کنونی تشخیص گفتار SOTA Noisy Student در زیرمجموعه ۱۰۰ ساعته مقیاس بزرگ مجموعه گفتارهای انگلیسی رونویسی Librispeech، عملکرد بهتری داشت، حتی وقتی که مقدار داده‎های برچسب‌گذاری شده به ۱ ساعت کاهش یافت.

چه چیزی wave2vec 2.0 را تا این اندازه قدرتمند ساخته است؟

محققان هوش مصنوعی فیسبوک بر این باورند که نمایش‌های خوب یادگیری گفتار کلید موفقیت این الگوریتم جدید است. “یادگیری صرفا از نمونه‌های برچسب زده شده شبیه به اکتساب زبان در انسان نیست: نوزادان زبان را تنها از طریق گوش دادن به بزرگسالان اطراف خود می‌آموزند- پروسه‌ای که مستلزم ارایه‌ها و نمایش‌های گفتاری خوب است.” به همین منظور، پژوهشگران چارچوبی را برای یادگیری نمایش‌ها با نظارت خود از داده‌های خام ویدیویی طراحی کردند. پژوهشگران توانستند با رمزگذاری فایل‌های صوتی گفتاری از طریق شبکه عصبی چندلایه کانولوشن و سپس پوشاندن نتیجه محدوده‌های ارایه‌های گفتاری نهفته، نمایش‌های نهان را به شبکه‌ مبدل (تبدیل‌کننده، ترانسفورماتور) تغذیه کنند تا نمایش‌هایی ایجاد نمایند که اطلاعات را از کل دنباله دریافت می‌دارد.

به این ترتیب، مدل تشخیص گفتار جدیدی آموزش داده می‌شود تا در عین اینکه واحد گفتاری صحیح را برای قسمت‌های پوشانده شده صوت پیش‌بینی نماید، می‌آموزد تا واحدهای گفتاری باید چگونه باشند. این طرح به مدل اجازه می‌دهد تا بازنمایی‌های زمینه‌ و محتوا را بر نمایش‌های گفتاری مداوم و وابستگی به کل توالی نمایش‌های پنهان را تولید نماید.

این چارچوب اساسا منجر به آموزش قوی‌تر مدل می‌شود تا شکل‌های موج خام مرتبط با گفتار را بهتر درک کند.

wav2vec 2.0 مدل‌ تشخیص گفتار خودکار توانمند شده با آهنگ خطای واژه (word error rate-WER)  ۸.۶ درصد در یک گفتار با پس‌زمینه پرهیاهو و پرسروصدا و  خطای ۵.۲% در یک فایل صوتی (تمیز و بدون نویز و هیاهیو) در استاندارد معیار LibriSpeech دست یافت. این مدل تنها از ۱۰ دقیقه از گفتار رونویسی‌شده یا به اصطلاح داده‌های داده‌های برچسب‌گذاری شده را برای تنظیم دقیق با پیش آموزش k53 ساعت از داده‌های بدون برچسب استفاده کرده است.

هوش مصنوعی فیسبوک معتقد است که الگوریتم خودنظارتی جدید wav2vac 2.0 می‌تواند مدل‌های تشخیص گفتار خودکار بسیار دقیق و توانمندی را با مقادیر بسیار کمی از داده‌های رونویسی‌شده خلق نماید. این الگوریتم برای ساخت مدل‌های تشخیص گفتار زبان‌ها و گویش‌هایی که منابع کمی برای آنان وجود است، بسیار مفید است و می‌تواند طیف گسترده‌ای از برنامه‌های مرتبط را ایجاد نماید. هوش مصنوعی فیسبوک اکنون در حال سازگاری با پیاده‌سازی wav2vec 2.0 برای اجرا در در Cloud TPU است.

لینک کوتاه شده : https://amerandish.com/bcGG0

به این مطلب امتیاز دهید

به اشتراک بگذارید

اشتراک گذاری در whatsapp
اشتراک گذاری در telegram
اشتراک گذاری در linkedin
اشتراک گذاری در twitter
اشتراک گذاری در email

نظرات شما

فارس آوا

تبدیل گفتار به متن

باتاوا

دستیارسازمانی - چت بات

هوشتل

اپراتورهوشمند مرکز تماس

بینایار

درک هوشمند ویدیو و تصویر

_ مطالب مرتبط _