کاربردهای تکنولوژی تشخیص گفتار در 5 شرکت مهم دنیا

کاربردهای تکنولوژی تشخیص گفتار در ۵ شرکت مهم دنیا

بررسی اجمالی در کاربرد تشخیص گفتار در ۵ شرکت مطرح دنیا

تشخیص گفتار فناوری است که قادر به تشخیص صحبت‌های مردم است و می‌تواند آن را به متن بازنویسی نماید. فیسبوک، آمازون، مایکروسافت و اپل پنج شرکت مطرح دنیا هستند که پیش‌تر نمایی از این فناوری را تحت عنوان خدماتی چون گوگل هوم (Google Home)، آمازون اکو (Amazon Echo) و سیری (Siri) در دستگاه‌های مختلف اجرا نمودند.

با توجه به شمار زیاد محصولات تشخیص گفتار، در اینجا سعی کرده‌ایم تا نگاهی به شرکت‌های ارایه دهنده این فناوری بپردازیم . به پرسش‌های زیر پاسخ روشنی دهیم:

  • چگونه این فناوری برای شرکت‌های نام برده همچون ارزش بزرگ محسوب می‌شود؟
  • چرا این شرکت‌ها بر روی این فناوری سرمایه‌گذاری می‌کنند؟
  • آینده این فناوری در چندسال آتی چگونه خواهد بود؟

دلایل بالقوه برای توسعه کاربرد تشخیص گفتار

شرکت‌های فناوری تشخیص گفتار، در تلاشند تا صدا را به عنوان استانداردی برای بیشتر محصولات خود تبدیل سازند. ممکن است یکی از اهداف این شرکتها این باشد که دستیاران صدا دقت بیشتری درباره تبدیل گفتار به نوشتار داشته باشند.

برای ایجاد تجربه‌ای عالی از استفاده از فناوری تشخیص قدرتمند گفتار، هوش مصنوعی که در پشت این فناوری قرار دارد باید بتواند در رویایی با با چالش‌هایی از قبیل لهجه‌ها و سر و صدای پس زمینه موفق عمل نماید. امروزه پیشرفت‌های مربوط به پردازش زبان طبیعی و فناوری شبکه عصبی باعث بهبود فناوری گفتار و صدا شده است.

با پیشرفت روزافزون فناوری تشخیص صدا، کاربرد تشخیص گفتار گسترده‌تر شده و امکان استفاده از این فناوری در تمامی دستگاه‌ها از یخچال گرغته تا اتوموبیل بیشتر و بیشتر می‌شود.

در زیر تلاش کردیم تا عملکرد رهبران این فناوری را با یکدیگر مقایسه کرده و نقاط برجسته و ویژگی‌های آنان را برشماریم.

  • خانه و اسپیکرهای هوشمند: آمازون، گوگل و مایکروسافت
  • برنامه‌های موبایل: سیری اپل، ادغام تشخیص گفتار فیسبوک (facebokk’s speech recogntion integrations)

خانه و اسپیکرهای هوشمند

آمازون اکو و الکسا

تا همین اواخر، کاربرد تشخیص گفتار الکسا آمازون را تنها می‌شد در محصولات تجاری ساخته شده توسط این شرکت مشاهده نمود. با این حال ، خدمات وب آمازون، دستیار صوتی را در اختیار سایر شرکت‌ها قرار داده است. با همکاری آمازون با اینتل، امکان توسعه یک کیت نرم افزاری فراهم شد که خدمات صوتی ویژه‌ای ایجاد می‌کرد. این خدمات به شرکت‌های شخص ثالث اجازه می‌دهد قابلیت‌های الکسا را ​​در دستگاه های خود تعبیه نمایند. این همکاری نتیجه استراتژی خاص آمازون “الکسا در همه‌جا” است.

در CES2018 در لاس وگاس، سونی ، TiVo و Hisense از مهارت‌های یکپارچه‌سازیی شده هوشمند الکسا رونمایی کردند، این مهارت جدید این امکان را فراهم می‌آورد تا تلویزیون را از طریق صدا کنترل کرد. سازندگان لوازم خانگی مانند گرداب، دلتا، ال‌جی و هایر (Hair) نیز مهارت‌های تشخیص صدا الکسا را ​​برای کمک به افراد در کنترل همه جوانب خانه خود ، از تلویزیون و مایکروویو گرفته تا واحد تهویه مطبوع و شیر آب اضافه کرده‌اند. طبق سایت آمازون الکسا، بیش از ۱۳۰۰۰ دستگاه خانه هوشمند از بیش از ۲۵۰۰ مارک تجاری با الکسا قابل کنترل هستند. بدین‌ترتیب، کاربرد تشخیص گفتار سود بی‌سابقه‌ای را روانه این شرکت ساخته است.

به عنوان یک دستیار مجازی ، آمازون ادعا می کند که Alexa می‌تواند به افراد کمک کند تا برنامه خود را مدیریت و وظایف خود را پیگیری نمایند. وقتی در دستگاه‌هایی مانند کنسول‌های جلسات ادغام شوند، می‌توانند تنظیمات اتاق کنفرانس را با صدای بلندگو کنترل کنند. دستگاه‌های دارای امکان الکسا همچنین می‌توانند به عنوان دستگاه کنفرانس صوتی در اتاق‌های کنفرانس کوچکتر، یا تجهیزات کنترل در اتاق‌های بزرگتر عمل کنند.

کاربرد تشخیص گفتار در Google home and assistant

دستیار گوگل یک دستار مجازی صوتی است که توانایی‌های آن شامل ارسال و درخواست پرداخت از طریق google pay، یا عیب‌یابی تلفن‌های ۲xl پیکسلی است.

دستیار صوتی گوگل در دستگاه‌های اندروید و ios، ساعت‌های هوشمند، لپ‌تاپ‌های pixelbook، تلویزیون‌های و صفحه نمایش‌های هوشمند اندروید، اتوموبیل‌های هوشمند در دسترس است.

برای کودکان و خانواده‌ها دستیار صوتی گوگل قریب به ۵۰ بازی برپایه صدا و گفتار را دارد.

گوگل به تازگی برنامه دستیار سرمایه‌گذاری (Assisstance Investment) را رونمایی کرده که در استارت‌اپ‌هایی در زمینه فناوری‌های پیشرفته صوتی چه سخت‌افزاری و چه نرم‌افزاری فعالیت دارند، سرمایه‌گذاری می‌کند.

از دیگر محصولات کاربرد تشخیص گفتار گوگل، ابزار مبتنی بر هوش مصنوعی تبدیل ابری گفتار به نوشتار است که توسعه‌دهندگان امکان می‌دهد از طریق الگوریتم‌های شبکه عصبی یادگیری صوتی را به متن تبدیل کنند. با کار بر روی ۱۲۰ زبان مختلف، این ابزار قادرتوانا‌هایی همچون کنترل و فرمان صوتی، انتقال فایل‌های صوتی از مراکز تماس، پردازش جریان در زمان واقعی یا فایل‌های صوتی از پیش ضبط شده را دارد.

کاربرد تشخیص گفتار در کورتانا مایکروسافت (Cortana by microsoft)

مایکروسافت در اکتبر سال ۲۰۱۷ دستیار مجازی صوتی خود با نام کورتانا (Cortana) منتشر ساخت.

بلندگوی خانگی و برنامه تلفن همراه کورتانا به کاربر یادآوری می کند تا یادداشت‌ها و لیست‌های خود را نگاه دارد. طبق گفته مایکروسافت این برنامه می‌تواند به مدیریت یک تقویم کمک کند. کورتانا قابل دریافت و بارگیری از روشگاه اپل و Google Play است و می‌تواند بر روی رایانه‌های شخصی، بلندگوهای هوشمند و تلفن‌های همراه اجرا شود.

کورتانا می‌تواند در بلندگو خانگی مایکروسافت بنام Invoke ، صدای موسیقی را کنترل نماید، لیست‌های پخش آهنگ‌ها را تنظیم نماید یا صدا را کم یا زیاد نماید. تمامی اینکارها تنها با صدای کابر امکان‌پذیر است. با این وجود، این سرویس از خدمات اصلی پخش موسیقی خارج از Spotify پشتیبانی نمی‌کند. مایکروسافت می گوید بلندگو هوشمند همچنین به سؤالات مختلفی پاسخ می‌دهد، و کارهایی دیگر نظیر برقرای تماس اسکایپ و یا بررسی آخرین اخبار هواشناسی را به خوبی انجام می‌دهد.

هسته اصلی فناوری کاربرد تشخیص گفتار مایکروسافت، تبدیل گفتار به نوشتار است که جریان‌های صوتی را به متن رونویسی می‌کند. مایکروسافت می‌گوید این سرویس پایان گفتار را تشخیص می‌دهد و گزینه‌های قالب‌بندی از جمله نقطه‌گذاری (علامت سوال، تعجب، ویرگول، نقطه و غیره) و همچنین ترجمه زبان را ارایه می دهد.

کاربرد تشخیص گفتار برنامه‌های موبایل

سیری اپل

هنگامی که اپل برای اولین‌بار Siri را در آیفون ۴ در سال ۲۰۱۱ ادغام کرد، دستیار مجازی به تعدادی از سرویس‌های وب متصل شد و دارای قابلیت‌های صوتی مانند سفارش تاکسی را از طریق TaxiMagic، جمع آوری جزئیات کنسرت از StubHub، بررسی فیلم از Rotten Tom گوگل و وارسی رستوران‌های خوب از طریق Yelp شد.

امروزه، قابلیت‌های سیری شامل ترجمه، پخش آهنگ، انتقال وجه بین حساب‌های بانکی و غیره است. به گفته اپل، به دلیل قابلیت‌های گسترده یادگیری ماشین، می توان دستورات جدیدی را برنامه‌ریزی کرد.

در حالی که سیری پیش از دستیار گوگل و آمازون الکسا راه اندازی شده، هنوز هم نگرانی هایی در مورد صحت آن هنگام پاسخ دادن به دستورات یا سوالات در مقایسه با دیگر فن آوری‌های موجود در بازار، وجود دارد.

در ژوئن سال ۲۰۱۸ ، اپل تغییراتی را در Siri انجام داد و میانبرهای ویژه‌ای را راه اندازی کرد. با این تغییرات، اپل ادعا می کند کاربران می‌تواند کاربرد تشخیص گفتار را از طریق دستور صوتی، متن یا تپ، در سیری گسترش دهد. این برنامه، هم اکنون در iPhone، iPad، Apple watch و قابل دسترسی است. این اقدامات شامل اتصال به دیگر برنامه‌هایی مانند برنامه Tile برای یافتن کلیدواژگان یا به دست آوردن اطلاعات سفر از طریق Kayak است.

گفته می شود که میانبرهای سیری قادر به خواندن داده های متنی کاربر، مانند رویدادهای تقویم و مکان‌های GPS هستند تا بتوانند میانبرهای جدیدی را ارایه دهند. برای مثال، اگر کاربر برنامه زمانی برای دیدن یک فیلم در یک تاریخ مشخص دارد، می‌توان از سیری خواسته شد وارد حالت Do Not Disturb شود. زمان کاربر و اطلاعات مکان‌یاب مشخص می کند که کاربر واقعاً در داخل تئاتر است یا خیر.

پروژه‌های کاربرد تشخیص گفتار فیسبوک

در حالی که فیس بوک قابلیت‌های تشخیص چهره خود را گسترش و اصلاح کرده است ، شرکت Wit.aiرا نیز در ۲۰۱۵ خریداری نمود. Wit.ai شرکتی است که در زمینه گسترش فناوری زبان طبیعی فعالیت دارد. در هنگام خرید این شرکت توسط فیسبوک، این شرکت، تنها یک استارت‌اپ ۱۶ ماهه بود. این شرکت ادعا می‌کند که فناوری کاربرد تشخیص گفتار وی، تاکنون توسط ۱۶۰،۰۰۰ توسعه‌دهنده مورد استفاده قرار گرفته و در برنامه‌های تلفن همراه، روبات‌ها، دستگاه‌های پوشیدنی مانند هدفون و لوازم خانگی هوشمند مانند ترموستات، یخچال و فریزر ادغام شده است.

این شرکت در یک پست وبلاگ ادعا می‌کند که این پلتفرم باز خواهد ماند، که به طور بالقوه نشان می‌دهد فیسبوک علاقه زیادی به تصویب گسترده دارد.

امروزه فیسبوک این امکان را دارد که به طور خودکار تبلیغات ویدیویی را از طریق کاربرد تشخیص گفتار پخش کند. اضافه کردن زیرنویس به تبلیغات ویدیویی، کاربران فیسبوک را قادر می سازد تا در هنگام جستجوی اخبار، موضوع آگهی را ببینند. تبلیغ کنندگان فیسبوک می توانند با مراجعه به Power Editor و انتخاب “تولید خودکار” زیرنویس‌ها را اضافه کنند.

فیس بوک همچنین Oculus ، سازنده هدست واقعیت مجازی را به مبلغ ۲ میلیارد دلار در سال ۲۰۱۴ به دست آورد. در مارس ۲۰۱۷ ، Oculus اعلام کرد که تشخیص صدا و گفتار را در هدست خود ادغام کرده است تا کاربران بتوانند به راحتی در واقعیت مجازی حرکت کنند. این برنامه ، که به زبان انگلیسی در هدست های Rift و Gear VR موجود است، به کاربران این امکان را می‌دهد تا از طریق Oculus Home ، جستجوهای صوتی را انجام دهند.

نقش نرم‌افزار فارس آوا در شرکت‌های رسانه‌ای

نتیجه‌گیری

پیش بینی می‌شود صنعت کاربرد تشخیص گفتار ۵۵ میلیارد دلاری، با نرخ ۱۱ درصد از سال ۲۰۱۶ تا ۲۰۲۴ رشد کند.

این فناوری در قالب سایر برنامه‌های رونویسی در سایر صنایع در بین بنگاه های کوچکتر و کمتر شناخته شده کاربرد خوبی پیدا کرده است. در حال حاضر در مراقبت های بهداشتی، متخصصان پزشکی از برنامه‌های رونویسی متن به متن مانند Dolbey برای ایجاد سوابق پزشکی الکترونیکی برای بیماران استفاده می‌کنند.

در بخش های اجرای قانون و بخش های حقوقی، شرکت هایی مانند Nuance از برنامه‌های رونویسی برای تهیه اسناد دقیق و سریع و برای مستندسازی گزارش‌های حادثه استفاده می‌کنند. در رسانه‌ها، روزنامه‌نگاران از برنامه‌های رونویسی مانند Recordly به عنوان ابزاری برای ضبط و انتقال اطلاعات به منظور ثبت گزارش‌های دقیق‌تر اخبار استفاده می‌کنند. در آموزش، Sonix به پژوهشگران کمک می‌کند تا مصاحبه‌های کیفی خود را تغییر و بهبود بخشند.

نمونه فارسی کاربرد تشخیص گفتار، می‌توان به فارس آوا اشاره نمود. فارس آوا برنامه‌ای است که اختصاصا برای زبان فارسی تهیه شده و می‌تواند همانند نسخه‌ خارجی آن، در رسانه‌ها، دادگاه‌ها، استارت‌اپ‌ها، مدارس و دانشگاه‌ها و غیره مورد استفاده قرار گیرد.

لینک کوتاه شده : https://amerandish.com/3u5OY

به این مطلب امتیاز دهید

به اشتراک بگذارید

اشتراک گذاری در whatsapp
اشتراک گذاری در telegram
اشتراک گذاری در linkedin
اشتراک گذاری در twitter
اشتراک گذاری در email

دیدگاهتان را بنویسید

نشانی ایمیل شما منتشر نخواهد شد. بخش‌های موردنیاز علامت‌گذاری شده‌اند *

فارس آوا

تبدیل گفتار به متن

باتاوا

دستیارسازمانی - چت بات

هوشتل

اپراتورهوشمند مرکز تماس

بینایار

درک هوشمند ویدیو و تصویر

_ مطالب مرتبط _