فناوری تشخیص گفتار on-device گوگل، جدیدترین دستاورد این شرکت در تکنولوژی پردازش گفتار

گوگل همچنین از جدیدترین فناوری تشخیص گفتار که به صورت واضح‌تر و بهتری پاسخگوست، رونمایی کرد. در این فناوری جدید، کنترل صدا به اندازه کافی مقاومت‌ناپذیرند. این شرکت همچنین علام کرده که برخی از تلفن‌های نسل آینده، مجهز به این نرم‌افزار خواهند بود که به صورت بالقوه چگونگی وظایف افراد را تغییر می‌دهد. با عامراندیش همراه باشید تا با آخرین دستاورد گوگل در پردازش صدا بیشتر آشنا شوید.

فناوری تشخیص گفتار on-device گوگل

در کنفرانس سالانه، گوگل اعلام داشت جدیدترین نرم‌افزار پردازش صدا کوچکترین اندازه خود را داراست (1.25 کوچکتر از ورژن‌‌های قبلی). ساندار پیچای (Sundar Pichai)، مدیرعامل گوگل این نرم‌افزار را “نقطه عطف” نام‌گذاری کرد . زیرا ورژن‌های قبلی از این دسته نرم‌افزارها تنها می‌توانستند در فضای ابری فعال باشند، ولی نسل جدید به راحتی و بدون نیاز به فضای ابر در گوشی‌های هوشمند پیکسلی گوگل قابل نصب‌اند که احتمالا در آخر امسال وارد بازار می‌شود. این نرم‌افزار، امکان پاسخگویی بهتر و سریع‌تر وسایل دیجیتالی به صدای انسان را می‌دهد.

در دمویی که در سه‌شنبه هفته‌ای که گذشت برگزار گردید، گوگل تلفن‌هایی را نشان داد که قادر به شناسایی کلمات در لحظه بودند، بدون آنکه آنان نیازی به برقراری ارتباط با سرور داشته باشند.. این پاسخگویی سریع، به صورت بالقوه‌‌ای وابستگی مردم به این وسایل را بیشتر و بیشتر می‌کند. در این کنفرانس گوگل نشان داد که دستیار مجازی گوگل، از رقیب خود سیری، بسیار قدرتمندتر و خصوصی‌تر است.

در این دمو، مگی هالینجر، کارمند گوگل نشان داد که چگونه می‌تواند از طریق فناوری تشخیص گفتار on-device کارهایش را که از طریق تلفن و تنها با استفاده از چند دستو ساده صوتی انجام دهد. هر یک از دستورات وی بسیار سریع‌تر از سیری و دیگر دستیاران صوتی انجام می‌شد و البته از اصطلاح “ok google” بین تقاضاهای صوتی خود استفاده نکرد. دستیاران صوتی معمولا  از این روش استفاده می‌کنند تا به آنان در شناسایی صوت برای ارسال به فضای ابر کمک کنند.

هالینجر  برای این منظور، تنها از 3 عبارت ساده استفاده کرد: عکس‌های Yellowstone به من نشان بده؛ آن‌هایی که شامل عکس‌های حیوانات است؛ آنان را به جاستین ارسال کن. تنها در عرض چند ثانیه، برنامه عکس گوگل از میان آلبوم عکس وی، عکس‌های گاومیش‌های yelloestone را شناسایی کرد و سپس به شخص مورد نظر (به صورت خودکار) ارسال کرد.

رئیس دپارتمان هوش مصنوعی گوگل، جف دین اینگونه توییت کرد که فناوری تشخیص گفتار on-device ، چگونه تعامل انسان‌ها را با دستگاه‌ها و گوشی‌هایشان تغییر می‌دهد. پیش‌تر گوگل بر روی دستگاه‌ها از الگوریتم پردازش ابری و on-device استفاده می‌کرد، ولی درسه شنبه هفته گذشته اعلام نمود که دستگاه‌هایش آمادگی دست کشیدن از فضای ابری در بسیاری از موقعیت‌ها دارند.

سرعت بهبودیافته و اشتباهات کم می‌تواند از فاکتورهای بسیار مهم باشد تا یک تکنولوژی را به بخش مهمی از نیازهای مردم تبدیل کند. برای روشن‌تر شدن این موضوع می‌توانید به سرعت رایانه‌های شخصی و پهنای باند توجه کنید که انجام چت‌های ویدویی و بازی‌های آنلاین و غیرآنلاین چندنفره را عملی ساخته است. گوگل هنوز دستگاه پردازش صدا خود را منتشر نساخته است ولی سه شنبه هفته گذشته مشخص شد که این فناوری تجربه صحبت با تلفن همراه را در شما برای همیشه تغییر خواهد داد.

دستیاران صوتی مدرن نتایج تحقیقات هوش مصنوعی از سال 2012 هستند  که نشان داد روشی به نام یادگیری عمیق می‌تواند فناوری تشخیص گفتار on-device را بسیار دقیق‌تر کند. گوگل اعلام داشته كه این فناوری بلافاصله میزان خطای خود را 25 درصد كاهش داده است. با این حال و در این زمان، فناوری باید بر روی سرورها به درستی کند؛ ارسال فایل‌های صوتی به ابر محدودیت‌های سرعت را تحمیل می‌کند و اشکالاتی به علت خطای شبکه ایجاد می‌کند. به همین دلیل نسل جدید این فناوری به صورت on-device و بدون نیاز به اتصال به فضای ابر و اینترنت است.

نکاتی بیشتر در مورد این دستاور جدید گوگل

گوگل سالها در مورد چگونگی کوچک‌کردن نرم افزارهای یادگیری عمیق وقت صرف کرده است و در سال 2019 مدل‌های پردازش صدا خود را زیر یک آستانه مهم قرار داد. این شرکت روز سه‌شنبه اعلام کرد نسخه‌های پیشین پردازش گفتار در فضای ابری در حدود 2 گیگابایت فضا نیاز داشت. در حالیکه ورژن جدید فناوری تشخیص گفتار on-device ، تنها به فضایی در حدود 80 مگابایت نیاز دارد است.

پردازش صدا که به طور قابل ملاحظه‌ای نسبت به اولین نسل از فناوری یادگیری عمیق مبتنی بر فضای ابر مورد پذیرش همگان قرار گرفته و می‌تواند باعث افزایش کاربران در استفاده از دستورات صوتی شوند. این دستاورد گوگل، باعث پیشی گرفتن در این فناوری از شرکت‌های رقیب خود یعنی اپل و آمازون شده است.

گوگل از فناوری تشخیص گفتار on-device برای ایجاد یک ویژگی جدید در نسل آینده گوشی‌های همراه با نام Live Caption استفاده خواهد کرد. به محض فعال شدن این نرم‌افزار بر گوشی‌های همراه، هر گونه گفتاری (چه گفتمان‌های ویدویی و چه صوتی) انجام شده توسط تلفن، به صورت زیرنویس در پایین صفحه نمایش داده خواهد ‌شد. از آنجا که این پردازش تنها از طریق خود تلفن انجام می‌شود، می‌توان در حالت airplane نیز از آن استفاده کرد.

این شرکت همچنین در سه شنبه هفته گذشته درباره پروژه‌ای با نام یوفونیا (Euphonia) توضیحاتی را نیز ارایه داد. یوفونیا نام پروژه‌ای است که با کمک پردازش صدا به افرادی که به نحوی با مشکلات گفتاری دست‌وپنجه نرم‌ می‌کنند، کمک میکند. برای این منظور گوگل از داوطلبانی کمک گرفته تا از صدای آنان در این پروژه استفاده کنند. مسئولان گوگل امیدوارند که پردازش صدا مبتنی بر دستگاه (on-device) به بزرگ‌ترین محصول تبدیل شود زیرا این نرم‌افزارها قابلیت تنظیم  براساس صدای افراد را دارند. این همان فرصت شخصی‌سازی این تکنولوژی است.

فناوری تشخیص گفتار on-device به جای انتقال به فضای ابری در حفظ حریم شخصی نسبت به دیگر مدل‌های مرسوم بهتر عمل می‌کند. گرچه در برخی از موارد، متن رونویسی شده به گوگل ارسال می‌شود. پیچای و دیگر مدیران اجرایی گوگل در روز سه شنبه هفته پیش، حفظ حریم خصوصی افراد را مهم‌ترین موضوعات پیش روی گوگل اعلام کردند. به همین منظور، تنظیمات حریم خصوصی را مجدداً طراحی نموده و “حالت ناشناس” جدیدی را برای Google Maps ایجاد کرده که مانع ردیابی پیش فرض سرویس از حرکات یک دستگاه می شود. این عمل گوگل، در پاسخ با انتقادات جدیدی از این شرکت است که اعلام شده گوگل با استفاده از داده‌ها، حریم خصوصی افراد را نقض می‌کند.

معرفی یک نرم‌افزار فناوری تشخیص گفتار برای زبان فارسی

یکی از برترین نرم‌افزارهای پردازش صدا، برای زبان فارسی که قابل مقایسه با رقبای خارجی خود مانند کورتانا مایکروسافت، سیری اپل و غیره است، فارس آوا می‌باشد.

فارس آوا یک اپلیکیشن گفتار به نوشتار است که امکان یک ارتباط میان انسان با رایانه شخصی و یا دیگر وسایل دیجیتالی همانند گوشی‌های همراه هوشمند فراهم ساخته است.

این اپلیکیشن با استفاده از آخرین فناوری روز دنبا و جمع‌آوری داده‌های بزرگ در زبان فارسی، پیشرفت نوینی در زمینه هوش مصنوعی برای زبان فارسی به شمار می‌آید.

سرعت بالا، فهم انواع گویش‌ها و لهجه‌ها، تشخیص صدای گوینده از میان شلوغی و هم‌همه پس زمینه، تشخیص اصطلاحات و واژگان معمول و غیر معمول در زبان فارسی تنها بخشی کوچک از قابلیت‌های بی‌شمار ان برنامه است.

 

 

5/5 - (1 امتیاز)
لینک کوتاه شده : https://amerandish.com/lVWYW

به اشتراک بگذارید

دیدگاهتان را بنویسید

نشانی ایمیل شما منتشر نخواهد شد. بخش‌های موردنیاز علامت‌گذاری شده‌اند *

_ مطالب مرتبط _

درخواست شما با موفقیت ارسال شد.

ضمن تشکر بابت ارسال پیام، در سریع‌ترین زمان ممکن کارشناسان شرکت عامراندیش درخواست شما را بررسی خواهند نمود.