الگوریتم جدید تشخیص گفتار خودکار فیسبوک: Wav2vec 2.0

پژوهشگران فیسبوک  الگوریتم جدید منبع باز wav2vec 2.0 را برای آموزش زبان با نظارت خود را منتشر کرد. این مدل جدید واحدهای اصلی گفتار را که برای مقابله با یک کار تحت نظارت خود استفاده می‌شود، می‌آموزد. این مدل آموزش داده می‌شود تا واحد گفتار صحیح را برای قسمت‌های نامفهوم صدا پیش‌بینی کند، در حالی که در عین حال یاد می‌گیرد که واحدهای گفتاری باید چگونه باشند.

برنامه‌های گفتار به متن هیچ‌گاه تا این اندازه فراوان، محبوب و قدرتمند نبوده‌اند به لطف پیشرفت‌های زیاد در فناوری یادگیری ماشین و افزایش دسترس‌پذیری داده‌های بزرگ گفتاری، پژوهشگران به دنبال عملکرد بهتر و بهتر سیستم‌های تشخیص گفتار خودکار (Automatic Speech Recognition_ASR)  هستند. در ادامه این مقاله با ما همراه باشید تا بیشتر با این الگوریتم جدید آشنا شوید.

الگوریتم تشخیص گفتار خودکار wav2v3c 2.0

سیستم‌های تشخیص خودکار کنونی نیازمند هزاران ساعت رونویسی برای رسیدن به یک عملکرد قابل‌قبولی هستند. با این‌وجود، فقدان داده‌های صوتی رونویسی شده برای مناطقی که کمتر صحبت شده، کاملا مشهود است.

پژوهشگران هوش مصنوعی فیسبوک برای کمک به پیشرفت ASR، برای زبان‌ها و گویش‌هایی که منبع کمی برایشان موجود است، الگوریتم منبع باز جدیدی با نام wav2vec 2.0 را برای آموزش زبان با نظارت خود، ایجاد کردند.

Wav2vec 2.0 چارچوبی است برای یادگیری نمایش گفتاری با نظارت خود است که ادعا دارد که که:” برای اولین‌بار، یادگیری نمایش‌های قدرتمند از فایل‌های گفتاری به تنهایی و به دنبال آن تنظیم دقیق رونویسی گفتار می‌تواند درحالی‌که از نظر مفهومی ساده‌تر است، از بهترین روش‌های نیمه‎نظارت‌شده بهتر عمل نماید.” توییت هوش مصنوعی فیسبوک می‌گوید که الگوریتم جدید می‌تواند فقط با 10 دقیقه داده گفتاری رونویسی‌شده، مدل‌های تشخیص گفتار خودکار فعال کند.

در آزمایش‌ها، wave2vec 2.0 از متد کنونی تشخیص گفتار SOTA Noisy Student در زیرمجموعه 100 ساعته مقیاس بزرگ مجموعه گفتارهای انگلیسی رونویسی Librispeech، عملکرد بهتری داشت، حتی وقتی که مقدار داده‎های برچسب‌گذاری شده به 1 ساعت کاهش یافت.

چه چیزی wave2vec 2.0 را تا این اندازه قدرتمند ساخته است؟

محققان هوش مصنوعی فیسبوک بر این باورند که نمایش‌های خوب یادگیری گفتار کلید موفقیت این الگوریتم جدید است. “یادگیری صرفا از نمونه‌های برچسب زده شده شبیه به اکتساب زبان در انسان نیست: نوزادان زبان را تنها از طریق گوش دادن به بزرگسالان اطراف خود می‌آموزند- پروسه‌ای که مستلزم ارایه‌ها و نمایش‌های گفتاری خوب است.” به همین منظور، پژوهشگران چارچوبی را برای یادگیری نمایش‌ها با نظارت خود از داده‌های خام ویدیویی طراحی کردند. پژوهشگران توانستند با رمزگذاری فایل‌های صوتی گفتاری از طریق شبکه عصبی چندلایه کانولوشن و سپس پوشاندن نتیجه محدوده‌های ارایه‌های گفتاری نهفته، نمایش‌های نهان را به شبکه‌ مبدل (تبدیل‌کننده، ترانسفورماتور) تغذیه کنند تا نمایش‌هایی ایجاد نمایند که اطلاعات را از کل دنباله دریافت می‌دارد.

به این ترتیب، مدل تشخیص گفتار جدیدی آموزش داده می‌شود تا در عین اینکه واحد گفتاری صحیح را برای قسمت‌های پوشانده شده صوت پیش‌بینی نماید، می‌آموزد تا واحدهای گفتاری باید چگونه باشند. این طرح به مدل اجازه می‌دهد تا بازنمایی‌های زمینه‌ و محتوا را بر نمایش‌های گفتاری مداوم و وابستگی به کل توالی نمایش‌های پنهان را تولید نماید.

این چارچوب اساسا منجر به آموزش قوی‌تر مدل می‌شود تا شکل‌های موج خام مرتبط با گفتار را بهتر درک کند.

wav2vec 2.0 مدل‌ تشخیص گفتار خودکار توانمند شده با آهنگ خطای واژه (word error rate-WER)  8.6 درصد در یک گفتار با پس‌زمینه پرهیاهو و پرسروصدا و  خطای 5.2% در یک فایل صوتی (تمیز و بدون نویز و هیاهیو) در استاندارد معیار LibriSpeech دست یافت. این مدل تنها از 10 دقیقه از گفتار رونویسی‌شده یا به اصطلاح داده‌های داده‌های برچسب‌گذاری شده را برای تنظیم دقیق با پیش آموزش k53 ساعت از داده‌های بدون برچسب استفاده کرده است.

هوش مصنوعی فیسبوک معتقد است که الگوریتم خودنظارتی جدید wav2vac 2.0 می‌تواند مدل‌های تشخیص گفتار خودکار بسیار دقیق و توانمندی را با مقادیر بسیار کمی از داده‌های رونویسی‌شده خلق نماید. این الگوریتم برای ساخت مدل‌های تشخیص گفتار زبان‌ها و گویش‌هایی که منابع کمی برای آنان وجود است، بسیار مفید است و می‌تواند طیف گسترده‌ای از برنامه‌های مرتبط را ایجاد نماید. هوش مصنوعی فیسبوک اکنون در حال سازگاری با پیاده‌سازی wav2vec 2.0 برای اجرا در در Cloud TPU است.

تشخیص گفتار با عملکرد بالا و بدون نظارت

امروزه تشخیص گفتار کاربردهای زیادی در زندگی ما انسان‌ها دارد. اما این فناوری تنها برای بخش کوچکی از هزاران زبانی که در سراسر جهان صحبت می‌شود در دسترس است. این امر به این دلیل است که سیستم‌های با کیفیت بالا باید با مقدار زیادی صدای گفتاری رونویسی آموزش داده شوند. این داده‌ها به سادگی برای هر زبان، گویش و سبک صحبت کردن در دسترس نیست. به عنوان مثال، صوت رمان‌های انگلیسی زبان، کمک چندانی به ماشین‌ها نمی‌کند.
به همین دلیل است که فیسبوک wav2vec Unsupervised (wav2vec-U) را توسعه داده است. این الگوریتم راهی برای ایجاد سیستم‌های تشخیص گفتار که به هیچ وجه به داده‌های رونویسی نیاز ندارد، است. این دستگاه با بهترین مدل‌های تحت نظارت چند سال پیش که در حدود 1000 ساعت گفتار رونویسی آموزش دیده بودند، رقابت می کند. فیسبوک، wav2vec-U را با زبان‌هایی مانند سواحیلی و تاتاری آزمایش کرده‌، که در حال حاضر مدل‌های تشخیص گفتار با کیفیت بالا در این زبان‌ها دسترس نیستند زیرا فاقد مجموعه گسترده ای از داده‌های برچسب گذاری شده آموزشی هستند.
Wav2vec-U نتیجه سال‌ها فعالیت هوش مصنوعی فیسبوک در زمینه تشخیص گفتار، یادگیری تحت نظارت خود و ترجمه ماشینی بدون نظارت است. این یک گام مهم در جهت ساخت ماشین‌هایی است که می‌توانند طیف وسیعی از وظایف را فقط با یادگیری از مشاهدات خود حل کنند. فیسبوک اعتقاد دارد که این کار، ما را به دنیایی نزدیک می‌کند که در آن فناوری گفتار برای افراد بیشتری در دسترس است.

چرا هوش مصنوعی برای فیسبوک اهمیت دارد؟

فناوری‌های هوش مصنوعی مانند تشخیص گفتار نباید تنها برای افرادی مفید باشد که به یکی از رایج‌ترین زبان‌های دنیا مسلط هستند. کاهش وابستگی ما به داده‌های بدون ساختار، بخش مهمی از گسترش دسترسی به این ابزارها است.

هوش مصنوعی فیس بوک اخیراً پیشرفت سریعی در این زمینه داشته است؛ ابتدا با معرفی wav2vec و سپس wav2vec 2.0 و اکنون با wav2vec-U. امیدواریم این امر به فناوری تشخیص گفتار بسیار موثرتری برای بسیاری از زبان‌ها و گویش‌های دیگر در سراسر جهان منجر شود. فیسبوک کد ایجاد سیستم‌های تشخیص گفتار را با استفاده از ضبط‌های صوتی بدون برچسب و متن بدون برچسب منتشر می‌کند. به طور کلی، افراد بسیاری از مهارت‌های مربوط به گفتار را فقط با گوش دادن به دیگران در اطراف خود یاد می‌گیرند. این نشان می‌دهد که روش بهتری برای آموزش مدل‌های تشخیص گفتار وجود دارد. راهی که به حجم زیادی از داده‌های برچسب‌دار نیاز ندارد. توسعه این نوع سیستم‌های هوشمندتر یک چشم انداز بلندپروازانه و بلندمدت علمی است و ما معتقدیم wav2vec-U به ما در پیشبرد آن هدف مهم و هیجان انگیز کمک می‌کند.

5/5 - (1 امتیاز)
لینک کوتاه شده : https://amerandish.com/bcGG0

به اشتراک بگذارید

دیدگاهتان را بنویسید

نشانی ایمیل شما منتشر نخواهد شد. بخش‌های موردنیاز علامت‌گذاری شده‌اند *

_ مطالب مرتبط _

پردازش گفتار در الکسا
پردازش گفتار

پردازش گفتار در الکسا

پردازش گفتار در الکسا در ابتدا اجازه دهید تا در مورد تشخیص گفتار کمی توضیح دهیم. تشخیص خودکار گفتار (ASR) فناوری است که گفتار را

درخواست شما با موفقیت ارسال شد.

ضمن تشکر بابت ارسال پیام، در سریع‌ترین زمان ممکن کارشناسان شرکت عامراندیش درخواست شما را بررسی خواهند نمود.