تشخیص گفتار فناوری است که قادر به تشخیص صحبتهای مردم است و میتواند آن را به متن بازنویسی نماید. فیسبوک، آمازون، مایکروسافت و اپل پنج شرکت مطرح دنیا هستند که پیشتر نمایی از این فناوری را تحت عنوان خدماتی چون گوگل هوم (Google Home)، آمازون اکو (Amazon Echo) و سیری (Siri) در دستگاههای مختلف اجرا نمودند.
با توجه به شمار زیاد محصولات تشخیص گفتار، در اینجا سعی کردهایم تا نگاهی به شرکتهای ارایه دهنده این فناوری بپردازیم . به پرسشهای زیر پاسخ روشنی دهیم:
- چگونه این فناوری برای شرکتهای نام برده همچون ارزش بزرگ محسوب میشود؟
- چرا این شرکتها بر روی این فناوری سرمایهگذاری میکنند؟
- آینده این فناوری در چندسال آتی چگونه خواهد بود؟
دلایل بالقوه برای توسعه کاربرد تشخیص گفتار
شرکتهای فناوری تشخیص گفتار، در تلاشند تا صدا را به عنوان استانداردی برای بیشتر محصولات خود تبدیل سازند. ممکن است یکی از اهداف این شرکتها این باشد که دستیاران صدا دقت بیشتری درباره تبدیل گفتار به نوشتار داشته باشند.
برای ایجاد تجربهای عالی از استفاده از فناوری تشخیص قدرتمند گفتار، هوش مصنوعی که در پشت این فناوری قرار دارد باید بتواند در رویایی با با چالشهایی از قبیل لهجهها و سر و صدای پس زمینه موفق عمل نماید. امروزه پیشرفتهای مربوط به پردازش زبان طبیعی و فناوری شبکه عصبی باعث بهبود فناوری گفتار و صدا شده است.
با پیشرفت روزافزون فناوری تشخیص صدا، کاربرد تشخیص گفتار گستردهتر شده و امکان استفاده از این فناوری در تمامی دستگاهها از یخچال گرغته تا اتوموبیل بیشتر و بیشتر میشود.
در زیر تلاش کردیم تا عملکرد رهبران این فناوری را با یکدیگر مقایسه کرده و نقاط برجسته و ویژگیهای آنان را برشماریم.
- خانه و اسپیکرهای هوشمند: آمازون، گوگل و مایکروسافت
- برنامههای موبایل: سیری اپل، ادغام تشخیص گفتار فیسبوک (facebokk’s speech recogntion integrations)
خانه و اسپیکرهای هوشمند
آمازون اکو و الکسا
تا همین اواخر، کاربرد تشخیص گفتار الکسا آمازون را تنها میشد در محصولات تجاری ساخته شده توسط این شرکت مشاهده نمود. با این حال ، خدمات وب آمازون، دستیار صوتی را در اختیار سایر شرکتها قرار داده است. با همکاری آمازون با اینتل، امکان توسعه یک کیت نرم افزاری فراهم شد که خدمات صوتی ویژهای ایجاد میکرد. این خدمات به شرکتهای شخص ثالث اجازه میدهد قابلیتهای الکسا را در دستگاه های خود تعبیه نمایند. این همکاری نتیجه استراتژی خاص آمازون “الکسا در همهجا” است.
در CES2018 در لاس وگاس، سونی ، TiVo و Hisense از مهارتهای یکپارچهسازیی شده هوشمند الکسا رونمایی کردند، این مهارت جدید این امکان را فراهم میآورد تا تلویزیون را از طریق صدا کنترل کرد. سازندگان لوازم خانگی مانند گرداب، دلتا، الجی و هایر (Hair) نیز مهارتهای تشخیص صدا الکسا را برای کمک به افراد در کنترل همه جوانب خانه خود ، از تلویزیون و مایکروویو گرفته تا واحد تهویه مطبوع و شیر آب اضافه کردهاند. طبق سایت آمازون الکسا، بیش از 13000 دستگاه خانه هوشمند از بیش از 2500 مارک تجاری با الکسا قابل کنترل هستند. بدینترتیب، کاربرد تشخیص گفتار سود بیسابقهای را روانه این شرکت ساخته است.
به عنوان یک دستیار مجازی ، آمازون ادعا می کند که Alexa میتواند به افراد کمک کند تا برنامه خود را مدیریت و وظایف خود را پیگیری نمایند. وقتی در دستگاههایی مانند کنسولهای جلسات ادغام شوند، میتوانند تنظیمات اتاق کنفرانس را با صدای بلندگو کنترل کنند. دستگاههای دارای امکان الکسا همچنین میتوانند به عنوان دستگاه کنفرانس صوتی در اتاقهای کنفرانس کوچکتر، یا تجهیزات کنترل در اتاقهای بزرگتر عمل کنند.
کاربرد تشخیص گفتار در Google home and assistant
دستیار گوگل یک دستار مجازی صوتی است که تواناییهای آن شامل ارسال و درخواست پرداخت از طریق google pay، یا عیبیابی تلفنهای 2xl پیکسلی است.
دستیار صوتی گوگل در دستگاههای اندروید و ios، ساعتهای هوشمند، لپتاپهای pixelbook، تلویزیونهای و صفحه نمایشهای هوشمند اندروید، اتوموبیلهای هوشمند در دسترس است.
برای کودکان و خانوادهها دستیار صوتی گوگل قریب به 50 بازی برپایه صدا و گفتار را دارد.
گوگل به تازگی برنامه دستیار سرمایهگذاری (Assisstance Investment) را رونمایی کرده که در استارتاپهایی در زمینه فناوریهای پیشرفته صوتی چه سختافزاری و چه نرمافزاری فعالیت دارند، سرمایهگذاری میکند.
از دیگر محصولات کاربرد تشخیص گفتار گوگل، ابزار مبتنی بر هوش مصنوعی تبدیل ابری گفتار به نوشتار است که توسعهدهندگان امکان میدهد از طریق الگوریتمهای شبکه عصبی یادگیری صوتی را به متن تبدیل کنند. با کار بر روی 120 زبان مختلف، این ابزار قادرتواناهایی همچون کنترل و فرمان صوتی، انتقال فایلهای صوتی از مراکز تماس، پردازش جریان در زمان واقعی یا فایلهای صوتی از پیش ضبط شده را دارد.
کاربرد تشخیص گفتار در کورتانا مایکروسافت (Cortana by microsoft)
مایکروسافت در اکتبر سال 2017 دستیار مجازی صوتی خود با نام کورتانا (Cortana) منتشر ساخت.
بلندگوی خانگی و برنامه تلفن همراه کورتانا به کاربر یادآوری می کند تا یادداشتها و لیستهای خود را نگاه دارد. طبق گفته مایکروسافت این برنامه میتواند به مدیریت یک تقویم کمک کند. کورتانا قابل دریافت و بارگیری از روشگاه اپل و Google Play است و میتواند بر روی رایانههای شخصی، بلندگوهای هوشمند و تلفنهای همراه اجرا شود.
کورتانا میتواند در بلندگو خانگی مایکروسافت بنام Invoke ، صدای موسیقی را کنترل نماید، لیستهای پخش آهنگها را تنظیم نماید یا صدا را کم یا زیاد نماید. تمامی اینکارها تنها با صدای کابر امکانپذیر است. با این وجود، این سرویس از خدمات اصلی پخش موسیقی خارج از Spotify پشتیبانی نمیکند. مایکروسافت می گوید بلندگو هوشمند همچنین به سؤالات مختلفی پاسخ میدهد، و کارهایی دیگر نظیر برقرای تماس اسکایپ و یا بررسی آخرین اخبار هواشناسی را به خوبی انجام میدهد.
هسته اصلی فناوری کاربرد تشخیص گفتار مایکروسافت، تبدیل گفتار به نوشتار است که جریانهای صوتی را به متن رونویسی میکند. مایکروسافت میگوید این سرویس پایان گفتار را تشخیص میدهد و گزینههای قالببندی از جمله نقطهگذاری (علامت سوال، تعجب، ویرگول، نقطه و غیره) و همچنین ترجمه زبان را ارایه می دهد.
کاربرد تشخیص گفتار برنامههای موبایل
سیری اپل
هنگامی که اپل برای اولینبار Siri را در آیفون 4 در سال 2011 ادغام کرد، دستیار مجازی به تعدادی از سرویسهای وب متصل شد و دارای قابلیتهای صوتی مانند سفارش تاکسی را از طریق TaxiMagic، جمع آوری جزئیات کنسرت از StubHub، بررسی فیلم از Rotten Tom گوگل و وارسی رستورانهای خوب از طریق Yelp شد.
امروزه، قابلیتهای سیری شامل ترجمه، پخش آهنگ، انتقال وجه بین حسابهای بانکی و غیره است. به گفته اپل، به دلیل قابلیتهای گسترده یادگیری ماشین، می توان دستورات جدیدی را برنامهریزی کرد.
در حالی که سیری پیش از دستیار گوگل و آمازون الکسا راه اندازی شده، هنوز هم نگرانی هایی در مورد صحت آن هنگام پاسخ دادن به دستورات یا سوالات در مقایسه با دیگر فن آوریهای موجود در بازار، وجود دارد.
در ژوئن سال 2018 ، اپل تغییراتی را در Siri انجام داد و میانبرهای ویژهای را راه اندازی کرد. با این تغییرات، اپل ادعا می کند کاربران میتواند کاربرد تشخیص گفتار را از طریق دستور صوتی، متن یا تپ، در سیری گسترش دهد. این برنامه، هم اکنون در iPhone، iPad، Apple watch و قابل دسترسی است. این اقدامات شامل اتصال به دیگر برنامههایی مانند برنامه Tile برای یافتن کلیدواژگان یا به دست آوردن اطلاعات سفر از طریق Kayak است.
گفته می شود که میانبرهای سیری قادر به خواندن داده های متنی کاربر، مانند رویدادهای تقویم و مکانهای GPS هستند تا بتوانند میانبرهای جدیدی را ارایه دهند. برای مثال، اگر کاربر برنامه زمانی برای دیدن یک فیلم در یک تاریخ مشخص دارد، میتوان از سیری خواسته شد وارد حالت Do Not Disturb شود. زمان کاربر و اطلاعات مکانیاب مشخص می کند که کاربر واقعاً در داخل تئاتر است یا خیر.
پروژههای کاربرد تشخیص گفتار فیسبوک
در حالی که فیس بوک قابلیتهای تشخیص چهره خود را گسترش و اصلاح کرده است ، شرکت Wit.aiرا نیز در 2015 خریداری نمود. Wit.ai شرکتی است که در زمینه گسترش فناوری زبان طبیعی فعالیت دارد. در هنگام خرید این شرکت توسط فیسبوک، این شرکت، تنها یک استارتاپ 16 ماهه بود. این شرکت ادعا میکند که فناوری کاربرد تشخیص گفتار وی، تاکنون توسط 160،000 توسعهدهنده مورد استفاده قرار گرفته و در برنامههای تلفن همراه، روباتها، دستگاههای پوشیدنی مانند هدفون و لوازم خانگی هوشمند مانند ترموستات، یخچال و فریزر ادغام شده است.
این شرکت در یک پست وبلاگ ادعا میکند که این پلتفرم باز خواهد ماند، که به طور بالقوه نشان میدهد فیسبوک علاقه زیادی به تصویب گسترده دارد.
امروزه فیسبوک این امکان را دارد که به طور خودکار تبلیغات ویدیویی را از طریق کاربرد تشخیص گفتار پخش کند. اضافه کردن زیرنویس به تبلیغات ویدیویی، کاربران فیسبوک را قادر می سازد تا در هنگام جستجوی اخبار، موضوع آگهی را ببینند. تبلیغ کنندگان فیسبوک می توانند با مراجعه به Power Editor و انتخاب “تولید خودکار” زیرنویسها را اضافه کنند.
فیس بوک همچنین Oculus ، سازنده هدست واقعیت مجازی را به مبلغ 2 میلیارد دلار در سال 2014 به دست آورد. در مارس 2017 ، Oculus اعلام کرد که تشخیص صدا و گفتار را در هدست خود ادغام کرده است تا کاربران بتوانند به راحتی در واقعیت مجازی حرکت کنند. این برنامه ، که به زبان انگلیسی در هدست های Rift و Gear VR موجود است، به کاربران این امکان را میدهد تا از طریق Oculus Home ، جستجوهای صوتی را انجام دهند.
نتیجهگیری
پیش بینی میشود صنعت کاربرد تشخیص گفتار 55 میلیارد دلاری، با نرخ 11 درصد از سال 2016 تا 2024 رشد کند.
این فناوری در قالب سایر برنامههای رونویسی در سایر صنایع در بین بنگاه های کوچکتر و کمتر شناخته شده کاربرد خوبی پیدا کرده است. در حال حاضر در مراقبت های بهداشتی، متخصصان پزشکی از برنامههای رونویسی متن به متن مانند Dolbey برای ایجاد سوابق پزشکی الکترونیکی برای بیماران استفاده میکنند.
در بخش های اجرای قانون و بخش های حقوقی، شرکت هایی مانند Nuance از برنامههای رونویسی برای تهیه اسناد دقیق و سریع و برای مستندسازی گزارشهای حادثه استفاده میکنند. در رسانهها، روزنامهنگاران از برنامههای رونویسی مانند Recordly به عنوان ابزاری برای ضبط و انتقال اطلاعات به منظور ثبت گزارشهای دقیقتر اخبار استفاده میکنند. در آموزش، Sonix به پژوهشگران کمک میکند تا مصاحبههای کیفی خود را تغییر و بهبود بخشند.
نمونه فارسی کاربرد تشخیص گفتار، میتوان به فارس آوا اشاره نمود. فارس آوا برنامهای است که اختصاصا برای زبان فارسی تهیه شده و میتواند همانند نسخه خارجی آن، در رسانهها، دادگاهها، استارتاپها، مدارس و دانشگاهها و غیره مورد استفاده قرار گیرد.