گوگل همچنین از جدیدترین فناوری تشخیص گفتار که به صورت واضحتر و بهتری پاسخگوست، رونمایی کرد. در این فناوری جدید، کنترل صدا به اندازه کافی مقاومتناپذیرند. این شرکت همچنین علام کرده که برخی از تلفنهای نسل آینده، مجهز به این نرمافزار خواهند بود که به صورت بالقوه چگونگی وظایف افراد را تغییر میدهد. با عامراندیش همراه باشید تا با آخرین دستاورد گوگل در پردازش صدا بیشتر آشنا شوید.
فناوری تشخیص گفتار on-device گوگل
در کنفرانس سالانه، گوگل اعلام داشت جدیدترین نرمافزار پردازش صدا کوچکترین اندازه خود را داراست (1.25 کوچکتر از ورژنهای قبلی). ساندار پیچای (Sundar Pichai)، مدیرعامل گوگل این نرمافزار را “نقطه عطف” نامگذاری کرد . زیرا ورژنهای قبلی از این دسته نرمافزارها تنها میتوانستند در فضای ابری فعال باشند، ولی نسل جدید به راحتی و بدون نیاز به فضای ابر در گوشیهای هوشمند پیکسلی گوگل قابل نصباند که احتمالا در آخر امسال وارد بازار میشود. این نرمافزار، امکان پاسخگویی بهتر و سریعتر وسایل دیجیتالی به صدای انسان را میدهد.
در دمویی که در سهشنبه هفتهای که گذشت برگزار گردید، گوگل تلفنهایی را نشان داد که قادر به شناسایی کلمات در لحظه بودند، بدون آنکه آنان نیازی به برقراری ارتباط با سرور داشته باشند.. این پاسخگویی سریع، به صورت بالقوهای وابستگی مردم به این وسایل را بیشتر و بیشتر میکند. در این کنفرانس گوگل نشان داد که دستیار مجازی گوگل، از رقیب خود سیری، بسیار قدرتمندتر و خصوصیتر است.
در این دمو، مگی هالینجر، کارمند گوگل نشان داد که چگونه میتواند از طریق فناوری تشخیص گفتار on-device کارهایش را که از طریق تلفن و تنها با استفاده از چند دستو ساده صوتی انجام دهد. هر یک از دستورات وی بسیار سریعتر از سیری و دیگر دستیاران صوتی انجام میشد و البته از اصطلاح “ok google” بین تقاضاهای صوتی خود استفاده نکرد. دستیاران صوتی معمولا از این روش استفاده میکنند تا به آنان در شناسایی صوت برای ارسال به فضای ابر کمک کنند.
هالینجر برای این منظور، تنها از 3 عبارت ساده استفاده کرد: عکسهای Yellowstone به من نشان بده؛ آنهایی که شامل عکسهای حیوانات است؛ آنان را به جاستین ارسال کن. تنها در عرض چند ثانیه، برنامه عکس گوگل از میان آلبوم عکس وی، عکسهای گاومیشهای yelloestone را شناسایی کرد و سپس به شخص مورد نظر (به صورت خودکار) ارسال کرد.
رئیس دپارتمان هوش مصنوعی گوگل، جف دین اینگونه توییت کرد که فناوری تشخیص گفتار on-device ، چگونه تعامل انسانها را با دستگاهها و گوشیهایشان تغییر میدهد. پیشتر گوگل بر روی دستگاهها از الگوریتم پردازش ابری و on-device استفاده میکرد، ولی درسه شنبه هفته گذشته اعلام نمود که دستگاههایش آمادگی دست کشیدن از فضای ابری در بسیاری از موقعیتها دارند.
سرعت بهبودیافته و اشتباهات کم میتواند از فاکتورهای بسیار مهم باشد تا یک تکنولوژی را به بخش مهمی از نیازهای مردم تبدیل کند. برای روشنتر شدن این موضوع میتوانید به سرعت رایانههای شخصی و پهنای باند توجه کنید که انجام چتهای ویدویی و بازیهای آنلاین و غیرآنلاین چندنفره را عملی ساخته است. گوگل هنوز دستگاه پردازش صدا خود را منتشر نساخته است ولی سه شنبه هفته گذشته مشخص شد که این فناوری تجربه صحبت با تلفن همراه را در شما برای همیشه تغییر خواهد داد.
دستیاران صوتی مدرن نتایج تحقیقات هوش مصنوعی از سال 2012 هستند که نشان داد روشی به نام یادگیری عمیق میتواند فناوری تشخیص گفتار on-device را بسیار دقیقتر کند. گوگل اعلام داشته كه این فناوری بلافاصله میزان خطای خود را 25 درصد كاهش داده است. با این حال و در این زمان، فناوری باید بر روی سرورها به درستی کند؛ ارسال فایلهای صوتی به ابر محدودیتهای سرعت را تحمیل میکند و اشکالاتی به علت خطای شبکه ایجاد میکند. به همین دلیل نسل جدید این فناوری به صورت on-device و بدون نیاز به اتصال به فضای ابر و اینترنت است.
نکاتی بیشتر در مورد این دستاور جدید گوگل
گوگل سالها در مورد چگونگی کوچککردن نرم افزارهای یادگیری عمیق وقت صرف کرده است و در سال 2019 مدلهای پردازش صدا خود را زیر یک آستانه مهم قرار داد. این شرکت روز سهشنبه اعلام کرد نسخههای پیشین پردازش گفتار در فضای ابری در حدود 2 گیگابایت فضا نیاز داشت. در حالیکه ورژن جدید فناوری تشخیص گفتار on-device ، تنها به فضایی در حدود 80 مگابایت نیاز دارد است.
پردازش صدا که به طور قابل ملاحظهای نسبت به اولین نسل از فناوری یادگیری عمیق مبتنی بر فضای ابر مورد پذیرش همگان قرار گرفته و میتواند باعث افزایش کاربران در استفاده از دستورات صوتی شوند. این دستاورد گوگل، باعث پیشی گرفتن در این فناوری از شرکتهای رقیب خود یعنی اپل و آمازون شده است.
گوگل از فناوری تشخیص گفتار on-device برای ایجاد یک ویژگی جدید در نسل آینده گوشیهای همراه با نام Live Caption استفاده خواهد کرد. به محض فعال شدن این نرمافزار بر گوشیهای همراه، هر گونه گفتاری (چه گفتمانهای ویدویی و چه صوتی) انجام شده توسط تلفن، به صورت زیرنویس در پایین صفحه نمایش داده خواهد شد. از آنجا که این پردازش تنها از طریق خود تلفن انجام میشود، میتوان در حالت airplane نیز از آن استفاده کرد.
این شرکت همچنین در سه شنبه هفته گذشته درباره پروژهای با نام یوفونیا (Euphonia) توضیحاتی را نیز ارایه داد. یوفونیا نام پروژهای است که با کمک پردازش صدا به افرادی که به نحوی با مشکلات گفتاری دستوپنجه نرم میکنند، کمک میکند. برای این منظور گوگل از داوطلبانی کمک گرفته تا از صدای آنان در این پروژه استفاده کنند. مسئولان گوگل امیدوارند که پردازش صدا مبتنی بر دستگاه (on-device) به بزرگترین محصول تبدیل شود زیرا این نرمافزارها قابلیت تنظیم براساس صدای افراد را دارند. این همان فرصت شخصیسازی این تکنولوژی است.
فناوری تشخیص گفتار on-device به جای انتقال به فضای ابری در حفظ حریم شخصی نسبت به دیگر مدلهای مرسوم بهتر عمل میکند. گرچه در برخی از موارد، متن رونویسی شده به گوگل ارسال میشود. پیچای و دیگر مدیران اجرایی گوگل در روز سه شنبه هفته پیش، حفظ حریم خصوصی افراد را مهمترین موضوعات پیش روی گوگل اعلام کردند. به همین منظور، تنظیمات حریم خصوصی را مجدداً طراحی نموده و “حالت ناشناس” جدیدی را برای Google Maps ایجاد کرده که مانع ردیابی پیش فرض سرویس از حرکات یک دستگاه می شود. این عمل گوگل، در پاسخ با انتقادات جدیدی از این شرکت است که اعلام شده گوگل با استفاده از دادهها، حریم خصوصی افراد را نقض میکند.
معرفی یک نرمافزار فناوری تشخیص گفتار برای زبان فارسی
یکی از برترین نرمافزارهای پردازش صدا، برای زبان فارسی که قابل مقایسه با رقبای خارجی خود مانند کورتانا مایکروسافت، سیری اپل و غیره است، فارس آوا میباشد.
فارس آوا یک اپلیکیشن گفتار به نوشتار است که امکان یک ارتباط میان انسان با رایانه شخصی و یا دیگر وسایل دیجیتالی همانند گوشیهای همراه هوشمند فراهم ساخته است.
این اپلیکیشن با استفاده از آخرین فناوری روز دنبا و جمعآوری دادههای بزرگ در زبان فارسی، پیشرفت نوینی در زمینه هوش مصنوعی برای زبان فارسی به شمار میآید.
سرعت بالا، فهم انواع گویشها و لهجهها، تشخیص صدای گوینده از میان شلوغی و همهمه پس زمینه، تشخیص اصطلاحات و واژگان معمول و غیر معمول در زبان فارسی تنها بخشی کوچک از قابلیتهای بیشمار ان برنامه است.