تشخیص گفتار در تلفن‌های همراه

تشخیص گفتار در تلفن‌های همراه : گوگل مدل جدیدی برای دستگاه‌های موبایل ایجاد کرده است.

پژوهشگران گوگل یک سیستم تشخیص صوتی (voice recognition system) پیشرفته را طراحی کردند که می‌تواند صدای گوینده خاص که در زمان واقعی با چند نفر در حال صحبت است، به صورت یک نمونه صوتی موجود، شناسایی نماید. طبق یک مقاله جدید دانشگاهی، مدل جدید VoiceFilter-Lite ضمن این‎که روند پردازش صدا را سرعت می‌بخشد، میزان قدرت محاسباتی لازم را نیز کاهش می‌دهد.

تشخیص گفتار در تلفن‌های همراه: گوش دهید و فیلتر کنید

وقتی VoiceFilter (فیلتر صوتی) در سال 2018 منتشر شد، دستیار گوگل را قادر ساخت تا صدای یک فرد را ضبط و علامت‎گذاری کرده و به خاطر بسپارد. این امکان به گوگل توانایی آن را داد که بر روی صدای افراد گوناگون، شخصی‌سازی‌های بیشتری اعمال کند. ولی این ویژگی گوگل، یک ویژگی کامل و عالی به شمار نمی‌رفت. دلیل آن را می‌توان در عدم تطابق صداها و محدودیت‌هایی جست‌وجو کرد که مانع یکپارچه‌سازی و استفاده گسترده آن در دستگاه‌های تلفن همراه می‌شد. این مشکل با پلتفرم جدید گوگل با نام VoiceFilter-Lite تا حدودی برطرف شده است. مدل جدید تشخیص گفتار در تلفن‌های همراه گوگل می‌تواند در زمان واقعی صداهایی را فیلتر نماید که توسط گوینده اصلی تولید نشده باشد. فیلتر کردن صداهای پس‌زمینه توسط این پلتفرم، پیش از پردازش فایل صوتی انجام می‌شود. این ویژگی پلتفرم جدید درست برخلاف دیگر پلتفرم‌های موجود در بازار است که صداهای پس‌زمینه را پس از پردازش صدای گوینده اصلی فیلتر می‌کنند. VoiceFilter-Lite، به طور قابل‌توجهی باعث کم شدن حجم فایل صوتی شده، درنتیجه برای دستگاه‌هایی بسیار مناسب است که به پریز برق متصل نیستند (همچون تلفن‌های همراه). همچنین عملکرد این پلتفرم هوش مصنوعی در درک سخن‌های کاربر به صورت خارق‌العاده‌ای عالی است.

تشخیص گفتار در تلفن‌های همراه

پژوهشگران توضیح دادند که: “مهم این است که مدل تشخیص گفتار در تلفن‌های همراه می‌تواند به راحتی با دیگر برنامه‌های پردازش صدا موجود در دستگاه‌ها ادغام شود، به کاربر اجازه می‌دهد تا در شرایط پر سروصدا حتی اگر اتصال به اینترنت ممکن نباشد به ویژگی‌های کمکی صدا دسترسی داشته باشد. آزمایش‌های ما نشان می‌دهد که یک مدل 2.2 مگابایتی VoiceFilter-Lite ، به میزان 25.1% باعث بهبود نرخ خطای کلمه (WER_word error rate)  هنگام تداخل و همپوشانی گفتار می‌شود.”

ادامه روند کار بر روی دستگاه‌های موبایل، گسترش طبیعی روش گوگل برای توسعه مطابقت صدا (Voice Match) خواهد بود. گوگل در ماه ژوئن همین سال، شروع به افزودن این ویژگی به هر دستگاهی کرده که دستیار گوگل را به صورت پیش‌فرض نصب دارد. پس از مدت کوتاهی از نصب این ویژگی، گوگل در صدد ایمن‌تر و دقیق‌تر ساختن این ویژگی برآمد. برای استفاده از نخستین نسخه تشخیص گفتار در تلفن‌های همراه گوگل تنها نیاز بود که کاربر چند بار جمله “hey, google” را به زبان آورد. اکنون گفتن تنها چهار جمله کافی است تا تمامی دستورهای این ویژگی برای کاربر فعال شود. دقیقا همانند مدل موبایل‌پسند (mobile-friendly model)، در پروفایل بهبود یافته Voice Match (مطابقت صدا) دیگر نیازی به فضای ابری نیست. بنابراین دستیار گوگل در دستگاه‌های تلفن همراه می‌تواند حتی در صورت عدم دسترسی کاربر به اینترنت، او را شناسایی نماید.

نویز و صدا

گوگل و آمازون هر دو به دنبال ادامه روند پژوهشی خود برای بهبود توانایی‌های تشخیص گفتار در تلفن‌های همراه هستند. به همین دلیل آمازون نرم‌افزاری چون فیلتر نویز با نام TalkTo DSP Concepts را برای دستگاه‌های داخلی الکسا تولید کرده است. بدین‌ترتیب، تولیدکنندگان می‌توانند با سهولت بیشتری الکسا را ​​به محصولات خود اضافه کرده و اطمینان حاصل نمایند که کاملا مطابق با استانداردهای آمازون برای فیلتر کردن صدا است. آنان همچنین می‌توانند از این حقیقت که الکسا قادر به درک درست صحبت‌های کاربر است کاملا اطمینان یابند.

کمک به دستیارهای صوتی تنها دلیل درج مدل‌های بهبود یافته تشخیص صدا در پلتفرم‌های هوش مصنوعی (AI) نیست. استفاده از پلتفرم‌های ارتباطات صوتی و تصویری هنگامی‌که در یک مکان شلوغ نشسته‌اید و یا تلفن همراه شما به اینترنت متصل نیست، می‌تواند دشوار باشد. این امر به ویژه در شرایط بحرانی و پاندمیک کوید-19 نیز صادق است که سبب شده تا افراد در خانه بمانند و همزمان فعالیت‌های متفاوت و گاه بلندی داشته باشند. هر پلتفرم تماس کنفرانسی باید به نوعی دارای فناوری تشخیص گفتار باشد. به همین دلیل، آمازون ویژگی Voice Focus (تمرکز صوتی) را برای پلتفرم Chime خود ایجاد کرده است تا صداهای نامربوط در یک جلسه آنلاین کنفرانسی را شناسایی و فیلتر نماید. به طور مشابه، ویژگی De-Noiser به اپلیکیشن Google Meet اضافه شده تا صداهایی که کاربر خواهان شنیدن آن نیست، فیلتر گردد. این ویژگی با آموزش هوش مصنوعی برای تشخیص صدا از دیگر پارمترهای ورودی‌های صوتی انجام شده است.

 

لینک کوتاه شده : https://amerandish.com/HDV6U

به اشتراک بگذارید

دیدگاهتان را بنویسید

نشانی ایمیل شما منتشر نخواهد شد. بخش‌های موردنیاز علامت‌گذاری شده‌اند *

_ مطالب مرتبط _

درخواست شما با موفقیت ارسال شد.

ضمن تشکر بابت ارسال پیام، در سریع‌ترین زمان ممکن کارشناسان شرکت عامراندیش درخواست شما را بررسی خواهند نمود.