جداسازی گفتار، مدل جدید ارائه شده توسط فیسبوک که قادر به پردازش صدا همزمان چندین گوینده در یک فایل صوتی است
محققان هوش مصنوعی فیسبوک روشی طراحی کردند که قادر به جداسازی همزمان گفتگوی حداکثر 5 گوینده، در یک میکروفون واحد است. این مدل، نسبت به مدلهای پیشین پردازش گفتار کارآیی بسیار بهتر و پیشرفتهتری دارد، به ویژه اگر چندین منبع صدا وجود داشته باشد و یا اینکه گوینده در یک محیط بسیار شلوغ و پر سر و صدا باشد. با عامراندیش همراه باشید تا با آخرین دستاورد فیسبوک بیشتر آشنا شوید.
جداسازی گفتار، آخرین دستاورد بشر در پردازش صدا
این مدل توسعه داده شده توسط فیسبوک، با استفاده از گروه دادههای WSJ0-2mix و WSJ0-3mix، توانست مقیاس ثابت SI-SNR (نسبت سیگنال به صدا، یک اندازهگیری معمول کیفیت جداسازی) را به دست آورد. در این مدل شاهد پیشرفت 1.5 دسیبل نسبت به دیگر مدلهای موجود هستیم. مدلهای پیشین، از یک ماسک و رمزگشا برای صدای هر گوینده استفاده میکنند. بنابراین، با افزایش تعداد گویندگان، عملکرد این مدلها تا اندازه چشمگیری کاهش مییابد. برای حل این مشکل، از معماری شبکه عصبی استفاده شد که به صورت مستقیم بر شکل امواج صوتی فایل خام صوتی (Audio) تمرکز میکند.
شبیه دیگر سامانههای تشخیص گفتار، این سامانه هم نیازمند داشتن اطلاعاتی همچون تعداد گویندگان است. در بیشتر موارد، مشکل از جایی آغاز میگردد که تعداد گویندگان مشخص نباشد. اینجاست که این مدل کارآیی بالای خود را نشان میدهد. ساختار این مدل به گونهای است که توانایی تشخیص دادن همه گویندگان و انتخاب گویندگان اصلی از متن فایل صوتی را دارد.
چگونگی جداسازی گفتار توسط این مدل
هدف اساسی از این مدل شناسایی گفتار، تخمین منابع ورودی با توجه به سیگنالهای وارد شده بدان و تولید خروجی و کانالهای مجزا برای هر گوینده است.
این مدل از یک شبکه رمزگذاری تفکیک صوت استفاده میکند. چنین شبکهای این امکان را فراهم میآورد که هدف یا هدفهای اصلی که در سیگنالهای ورودی پنهاناند، شناسایی شده و برای هر گوینده کانال مجزایی به صورت خروجی فراهم شود. روشهای پیشین برای تفکیک صوتی، معمولا از یک ماسک استفاده میکنند که در صورت تعریف نشدن دقیق این ماسک، اطلاعات برخی از سیگنالها در طی فرایند کاملا از دست میرود.
این مدل بدین صورت بهینه شده است که در صورت از دست دادن چند تابع، فاکتورها و توابع ثابت را جایگزین آنهایی کن که طی فرایند از دست رفتهاند. برای بهبود و بهینهسازی بیشتر، پس از هر بلوک جداسازی و تفکیک صدا، عملکرد فقدان به مدل اضافه میشود. افزودن “فقدان تابعهای ادراکی” باعث اطمینان از تشکیل پایدار کانال خروجی ویژهای برای هر گوینده میشود.
در این مدل، سامانههای جدیدی برای مدیریت تفکیک و جداسازی گفتار همزمان چندین گوینده ساخته شده است. این مسئله، توسط آموزش مدلهای مختلف برای تفکیک دو، سه، چهار و پنج گوینده امکان پذیر شده است. گاهی در یک فایل صوتی، افراد مختلفی در حال گفتوگو و ایجاد سروصدا و هیاهویند. در این حالت، آن قدر عمل پردازش گفتار توسط مدل تکرار میشود تا گویندگان اصلی را از دیگر سیگنالها تشخیص داده شوند و برای آنها یک کانال خروجی در نظر گرفته شود.
اهداف ابزار جداسازی گفتار
- تخمین سیگنالهای ورودی
- تولید یک کانال خروجی برای هر گوینده با توجه به ترکیب سیگنالهای گفتاری موجود در فایل ورودی.
این نوآوری چه ارمغانی برای جامعه دارد؟
- به افرادی که با مشکلات شنوایی دستوپنجه نرم میکنند، کمک میکند تا به صورت کاملا واضح صدای افراد حاضر در یک محیط شلوغ و پرهیاهو همچون رستوران را بشنوند.
- این ابزار جداسازی گفتار ، همچنین برای جداسازی صدای پیشزمینه از صدای اصلی به صورتی موثر، مورد استفاده قرار میگیرد.
اهمیت این نوآوری در چیست؟
امکان تفکیک و جداسازی گفتار، میتواند موجب بهبود چشمگیر برنامههای ارتباطیای شوند که در زندگی روزمره از آنها بسیار استفاده میکنیم. برنامههایی چون ابزاریهای ارسال پیامهای صوتی، دستیاران هوشمند صوتی و یا ابزارهای پردازش ویدویی و نوآوریهایی همچون AR/VR از این سرویس تاثیر میگیرند.
ورای جداسازی گفتار، این سیستم خارقالعاده میتواند برای تفکیک دیگر سیگنالهای صوتی، مانند صدای شخص گوینده از صدای پیشزمینه و هیاهوی محیط، اعمال شود. این سامانه همچنین در ضبط موسیقی و آهنگهای جدید توسط خوانندگان نیز میتواند مورد استفاده قرار بگیرد. مدل جدید در مقایسه با پلتفرمهای قبلی استفاده شده در این صنعت، پیشرفت خیرهکننده و قابل ملاحظهای دارد.
در مرحله بعدی این فرایند، تمرکز بر روی بهبود خصوصیات این مدل قرار میگیرد تا در شرایط واقعی، عملکرد بسیار بالا و دقیقی داشته باشد.