تشخیص گفتار در تلفنهای همراه : گوگل مدل جدیدی برای دستگاههای موبایل ایجاد کرده است.
پژوهشگران گوگل یک سیستم تشخیص صوتی (voice recognition system) پیشرفته را طراحی کردند که میتواند صدای گوینده خاص که در زمان واقعی با چند نفر در حال صحبت است، به صورت یک نمونه صوتی موجود، شناسایی نماید. طبق یک مقاله جدید دانشگاهی، مدل جدید VoiceFilter-Lite ضمن اینکه روند پردازش صدا را سرعت میبخشد، میزان قدرت محاسباتی لازم را نیز کاهش میدهد.
تشخیص گفتار در تلفنهای همراه: گوش دهید و فیلتر کنید
وقتی VoiceFilter (فیلتر صوتی) در سال 2018 منتشر شد، دستیار گوگل را قادر ساخت تا صدای یک فرد را ضبط و علامتگذاری کرده و به خاطر بسپارد. این امکان به گوگل توانایی آن را داد که بر روی صدای افراد گوناگون، شخصیسازیهای بیشتری اعمال کند. ولی این ویژگی گوگل، یک ویژگی کامل و عالی به شمار نمیرفت. دلیل آن را میتوان در عدم تطابق صداها و محدودیتهایی جستوجو کرد که مانع یکپارچهسازی و استفاده گسترده آن در دستگاههای تلفن همراه میشد. این مشکل با پلتفرم جدید گوگل با نام VoiceFilter-Lite تا حدودی برطرف شده است. مدل جدید تشخیص گفتار در تلفنهای همراه گوگل میتواند در زمان واقعی صداهایی را فیلتر نماید که توسط گوینده اصلی تولید نشده باشد. فیلتر کردن صداهای پسزمینه توسط این پلتفرم، پیش از پردازش فایل صوتی انجام میشود. این ویژگی پلتفرم جدید درست برخلاف دیگر پلتفرمهای موجود در بازار است که صداهای پسزمینه را پس از پردازش صدای گوینده اصلی فیلتر میکنند. VoiceFilter-Lite، به طور قابلتوجهی باعث کم شدن حجم فایل صوتی شده، درنتیجه برای دستگاههایی بسیار مناسب است که به پریز برق متصل نیستند (همچون تلفنهای همراه). همچنین عملکرد این پلتفرم هوش مصنوعی در درک سخنهای کاربر به صورت خارقالعادهای عالی است.
پژوهشگران توضیح دادند که: “مهم این است که مدل تشخیص گفتار در تلفنهای همراه میتواند به راحتی با دیگر برنامههای پردازش صدا موجود در دستگاهها ادغام شود، به کاربر اجازه میدهد تا در شرایط پر سروصدا حتی اگر اتصال به اینترنت ممکن نباشد به ویژگیهای کمکی صدا دسترسی داشته باشد. آزمایشهای ما نشان میدهد که یک مدل 2.2 مگابایتی VoiceFilter-Lite ، به میزان 25.1% باعث بهبود نرخ خطای کلمه (WER_word error rate) هنگام تداخل و همپوشانی گفتار میشود.”
ادامه روند کار بر روی دستگاههای موبایل، گسترش طبیعی روش گوگل برای توسعه مطابقت صدا (Voice Match) خواهد بود. گوگل در ماه ژوئن همین سال، شروع به افزودن این ویژگی به هر دستگاهی کرده که دستیار گوگل را به صورت پیشفرض نصب دارد. پس از مدت کوتاهی از نصب این ویژگی، گوگل در صدد ایمنتر و دقیقتر ساختن این ویژگی برآمد. برای استفاده از نخستین نسخه تشخیص گفتار در تلفنهای همراه گوگل تنها نیاز بود که کاربر چند بار جمله “hey, google” را به زبان آورد. اکنون گفتن تنها چهار جمله کافی است تا تمامی دستورهای این ویژگی برای کاربر فعال شود. دقیقا همانند مدل موبایلپسند (mobile-friendly model)، در پروفایل بهبود یافته Voice Match (مطابقت صدا) دیگر نیازی به فضای ابری نیست. بنابراین دستیار گوگل در دستگاههای تلفن همراه میتواند حتی در صورت عدم دسترسی کاربر به اینترنت، او را شناسایی نماید.
نویز و صدا
گوگل و آمازون هر دو به دنبال ادامه روند پژوهشی خود برای بهبود تواناییهای تشخیص گفتار در تلفنهای همراه هستند. به همین دلیل آمازون نرمافزاری چون فیلتر نویز با نام TalkTo DSP Concepts را برای دستگاههای داخلی الکسا تولید کرده است. بدینترتیب، تولیدکنندگان میتوانند با سهولت بیشتری الکسا را به محصولات خود اضافه کرده و اطمینان حاصل نمایند که کاملا مطابق با استانداردهای آمازون برای فیلتر کردن صدا است. آنان همچنین میتوانند از این حقیقت که الکسا قادر به درک درست صحبتهای کاربر است کاملا اطمینان یابند.
کمک به دستیارهای صوتی تنها دلیل درج مدلهای بهبود یافته تشخیص صدا در پلتفرمهای هوش مصنوعی (AI) نیست. استفاده از پلتفرمهای ارتباطات صوتی و تصویری هنگامیکه در یک مکان شلوغ نشستهاید و یا تلفن همراه شما به اینترنت متصل نیست، میتواند دشوار باشد. این امر به ویژه در شرایط بحرانی و پاندمیک کوید-19 نیز صادق است که سبب شده تا افراد در خانه بمانند و همزمان فعالیتهای متفاوت و گاه بلندی داشته باشند. هر پلتفرم تماس کنفرانسی باید به نوعی دارای فناوری تشخیص گفتار باشد. به همین دلیل، آمازون ویژگی Voice Focus (تمرکز صوتی) را برای پلتفرم Chime خود ایجاد کرده است تا صداهای نامربوط در یک جلسه آنلاین کنفرانسی را شناسایی و فیلتر نماید. به طور مشابه، ویژگی De-Noiser به اپلیکیشن Google Meet اضافه شده تا صداهایی که کاربر خواهان شنیدن آن نیست، فیلتر گردد. این ویژگی با آموزش هوش مصنوعی برای تشخیص صدا از دیگر پارمترهای ورودیهای صوتی انجام شده است.