جداسازی گفتار ، آخرین دستاورد فیسبوک در حوزه پردازش گفتار

جداسازی گفتار، مدل جدید ارائه شده توسط فیسبوک که قادر به پردازش صدا همزمان چندین گوینده در یک فایل صوتی است

محققان هوش مصنوعی فیسبوک روشی طراحی کردند که قادر به جداسازی همزمان گفتگوی حداکثر 5 گوینده، در یک میکروفون واحد است. این مدل، نسبت به مدل‌های پیشین پردازش گفتار کارآیی بسیار بهتر و پیشرفته‌تری دارد، به ویژه اگر چندین منبع صدا وجود داشته باشد و یا اینکه گوینده در یک محیط بسیار شلوغ و پر سر و صدا باشد. با عامراندیش همراه باشید تا با آخرین دستاورد فیسبوک بیشتر آشنا شوید.

جداسازی گفتار، آخرین دستاورد بشر در پردازش صدا

این مدل توسعه داده شده توسط فیسبوک، با استفاده از گروه داده‌های WSJ0-2mix و WSJ0-3mix، توانست مقیاس ثابت SI-SNR (نسبت سیگنال به صدا، یک اندازه‌گیری معمول کیفیت جداسازی) را به دست آورد. در این مدل شاهد پیشرفت 1.5 دسی‌بل نسبت به دیگر مدل‌های موجود هستیم. مدل‌های پیشین، از یک ماسک و رمزگشا برای صدای هر گوینده استفاده می‌کنند. بنابراین، با افزایش تعداد گویندگان، عملکرد این مدل‌ها تا اندازه چشم‌‌گیری کاهش می‌یابد. برای حل این مشکل، از معماری شبکه عصبی استفاده شد که به صورت مستقیم بر شکل امواج صوتی فایل خام صوتی (Audio) تمرکز می‌کند.

شبیه دیگر سامانه‌های تشخیص گفتار، این سامانه هم نیازمند داشتن اطلاعاتی همچون تعداد گویندگان است. در بیشتر موارد، مشکل از جایی آغاز می‌گردد که تعداد گویندگان مشخص نباشد. اینجاست که این مدل کارآیی بالای خود را نشان می‌دهد. ساختار این مدل به گونه‌ای است که توانایی تشخیص دادن همه گویندگان و انتخاب گویندگان اصلی از متن فایل صوتی را دارد.

چگونگی جداسازی گفتار توسط این مدل

هدف اساسی از این مدل شناسایی گفتار، تخمین منابع ورودی با توجه به سیگنال‌های وارد شده بدان و تولید خروجی و کانا‌ل‌های مجزا برای هر گوینده است.

این مدل از یک شبکه رمزگذاری تفکیک صوت استفاده می‌کند. چنین شبکه‌ای این امکان را فراهم می‌آورد که هدف یا هدف‌های اصلی که در سیگنال‌های ورودی پنهان‌اند، شناسایی شده و برای هر گوینده کانال مجزایی به صورت خروجی فراهم شود. روش‌های پیشین برای تفکیک صوتی، معمولا از یک ماسک استفاده می‌کنند که در صورت تعریف نشدن دقیق این ماسک، اطلاعات برخی از سیگنال‌ها در طی فرایند کاملا از دست می‌رود.

این مدل بدین صورت بهینه شده است که در صورت از دست دادن چند تابع، فاکتورها و توابع ثابت را جایگزین آن‌هایی کن که طی فرایند از دست رفته‌اند. برای بهبود و بهینه‌سازی بیشتر، پس از هر بلوک جداسازی و تفکیک صدا، عملکرد فقدان به مدل اضافه می‌شود. افزودن “فقدان تابع‌های ادراکی” باعث اطمینان از تشکیل پایدار کانال خروجی ویژه‌ای برای هر گوینده می‌شود.

در این مدل، سامانه‌های جدیدی برای مدیریت تفکیک و جداسازی گفتار همزمان چندین گوینده ساخته شده است. این مسئله، توسط آموزش مدل‌های مختلف برای تفکیک دو، سه، چهار و پنج گوینده امکان پذیر شده است. گاهی در یک فایل صوتی، افراد مختلفی در حال گفت‌وگو و ایجاد سروصدا و هیاهویند. در این حالت، آن قدر عمل پردازش گفتار توسط مدل تکرار می‌شود تا گویندگان اصلی را از دیگر سیگنال‌ها تشخیص داده شوند و برای آن‌ها یک کانال خروجی در نظر گرفته شود.

جداسازی گفتار
جداسازی گفتار

اهداف ابزار جداسازی گفتار

  • تخمین سیگنال‌های ورودی
  • تولید یک کانال خروجی برای هر گوینده با توجه به ترکیب سیگنال‌های گفتاری موجود در فایل ورودی.

این نوآوری چه ارمغانی برای جامعه دارد؟

  • به افرادی که با مشکلات شنوایی دست‌وپنجه نرم می‌کنند، کمک می‌کند تا به صورت کاملا واضح صدای افراد حاضر در یک محیط شلوغ و پرهیاهو همچون رستوران را بشنوند.
  • این ابزار جداسازی گفتار ، همچنین برای جداسازی صدای پیش‌زمینه از صدای اصلی به صورتی موثر، مورد استفاده قرار می‌گیرد.

اهمیت این نوآوری در چیست؟

امکان تفکیک و جداسازی گفتار، می‌تواند موجب بهبود چشمگیر برنامه‌های ارتباطی‌ای شوند که در زندگی روزمره از آن‌ها بسیار استفاده می‌کنیم. برنامه‌هایی چون ابزاریهای ارسال پیام‌های صوتی، دستیاران هوشمند صوتی و یا ابزارهای پردازش ویدویی و نوآوری‌هایی همچون AR/VR از این سرویس تاثیر می‌گیرند.

ورای جداسازی گفتار، این سیستم خارق‌العاده می‌تواند برای تفکیک دیگر سیگنال‌های صوتی، مانند صدای شخص گوینده از صدای پیش‌زمینه و هیاهوی محیط، اعمال شود. این سامانه همچنین در ضبط موسیقی و آهنگ‌های جدید توسط خوانندگان نیز می‌تواند مورد استفاده قرار بگیرد. مدل جدید در مقایسه با پلتفرم‌های قبلی استفاده شده در این صنعت، پیشرفت خیره‌کننده و قابل ملاحظه‌ای دارد.

در مرحله بعدی این فرایند، تمرکز بر روی بهبود خصوصیات این مدل قرار می‌گیرد تا در شرایط واقعی، عملکرد بسیار بالا و دقیقی داشته باشد.

لینک کوتاه شده : https://amerandish.com/q6Hrt

به اشتراک بگذارید

دیدگاهتان را بنویسید

نشانی ایمیل شما منتشر نخواهد شد. بخش‌های موردنیاز علامت‌گذاری شده‌اند *

_ مطالب مرتبط _

تکنولوژی تبدیل متن به گفتار چیست؟

تبدیل متن به گفتار یک تکنولوژی است که حروف و کلمات موجود در یک متن دیجیتال را بلند و برای کاربر می‌خواند. این تکنولوزی در

درخواست شما با موفقیت ارسال شد.

ضمن تشکر بابت ارسال پیام، در سریع‌ترین زمان ممکن کارشناسان شرکت عامراندیش درخواست شما را بررسی خواهند نمود.