تبدیل گفتار به متن در زمان واقعی (real-time) در آمازون با استفاده از وب‌سوکت (websocket)

تبدیل گفتار به متن در زمان واقعی (real-time) در سایت آمازون با استفاده از اپلیکیشن webstock

رونویس آمازون (Amazon Transcribe) یک سامانه تشخیص گفتار خودکار (ASR) است که افزودن قابلیت گفتار به متن به برنامه ها را برای توسعه‌دهندگان آسان می‌کند. با عامر اندیش همراه باشید تا در مورد این سرویس تازه آمازون اطلاعات بیشتری کسب کنید.

پروتكل وب سوکت (WebSocket) دستاورد جدید آمازون در حوزه تبدیل گفتار به متن

در نوامبر 2018، به کاربران این امکان داده شد تا یک فایل صوتی لایو (live) را در سرویس آمازون آپلود نمایند و در برابر، متن‌های رونویسی شده را در زمان واقعی (real-time) را دریافت دارند. آمازون اعلام کرده است که به تازگی پشتیبانی رونویسی‌ها در زمان واقعی به وسیله طریق پروتكل WebSocket شروع كرده است. websocket، پروتکلی است که به منظور حمایت دسترسی هر چه بیشتر کاربران به فناوری تبدیل گفتار به متن، راه‌اندازی شده است. این فناوری به ویژه برای کاربرانی است که از اپلیکیشن‌های موبایل برای سرچ کردن (جست‌وجو) در آمازون استفاده می‌کنند، مناسب است.

در ادامه سعی داریم تا به شما نشان دهیم چگونه در زمان واقعی با استفاده پروتکل (WebSocket) تبدیل فایل‌های صوتی به متن شدنی خواهد شد.

وب‌سوکت (WebSocket) چیست؟

وب‌سوکت پروتکل یک ارتباط رایانه‌ای پیچیده‌ای است که کانال ارتباطی کاملا دو جانبه‌ای با استفاده از ارتباطات سیگنال TCP  فراهم می‌آورد. این پروتکل توسط IEF به صورت RFC 6455 در سال 2011 استاندارد شده است.

پیش از وب‌سوکت Websocket، تمامی ارتباط میان کاربر و سرور، از طریق HTTP ممکن بود. امروزه داده‌های دینامیکی می‌توانند به صورت کاملا آزادانه در اتصالات دوتایی و ثابت وب‌سوکت جریان داشته باشند. استاندارهای وب‌سوکت باعث به وجود آمدن نسل جدیدی از اپلیکیشن‌ها (مانند اپلیکشن‌های تبدیل گفتار به متن) شده که باعث بهره‌مندی بسیار کسب‌وکارها شده است. کسب‌وکارها می‌توانند هزینه زیربنای IT خود را به صورت چشم‌گیری کاهش داده و زمان کسب‌وکار خود را کوتاه نمایند.

باید بدانید هدف اصلی وب‌سوکت، ایجاد یک ارتباط دوتایی بر روی یک کانکشن TCP است که قادر به حمایت و پشتیبانی هر پروتکلی است. درست است که وب‌سوکت برای مرورگرها و وب‌سرورها طراحی شده ولی نمی‌توان از اهمیت آن در کسب‌وکارها و اپلیکشن‌ها (مانند اپلیکشن‌های تبدیل گفتار به متن) غافل ماند. استفاده از وب‌سوکت، برای ارتباط بین کاربر و سروهایی که تماما به وسلیه اینترنت با یکدیگر متصل‌اند، روز به روز بیشتر و بیشتر می‌شود.

وب‌سوکت، یک وب‌کاملا زنده‌ای است که اجازه تعامل با یکدیگر را به صورتی کاملا جدید و تاره را به ما می‌دهد و در حل مشکلات کسب‌وکارها عالی به نظر می‌رسد. هر اندازه ارتباطات آنلاین بیشتر و بیشتر می‌شود، نیاز به ارتباط سریع در همان زمان بیشتر می‌شود. بنابراین محصولاتی که تولید می‌شوند، باید قادر به ارتباط با کاربر به صورت 24-ساعته و در تمامی هفت روز هفته را داشته باشند.

استفاده از رونویس آمازون (تبدیل گفتار به متن ) با کمک WebSocket

برای استفاده از سرویس رونویس آمازون در ابتدا به IAM خود این اجازه را دهید تا از این سرویس استفاده نماید.

ارتقا شما با شرایط AWS، با استفاده از AWS Signature version 4 از پیش امضا شده است.  WebSocket API از همه زبان‌هایی پشتیبانی می‌کند که Amazon Transcribe streaning (پخش متن آمازون) پشتیانی می‌کند. زمانی که اتصال شما به وب‌سوکت انجام یافت، می‌توانید برای تبدیل گفتار به  متن، فایل‌های صوتی خود را به صورت یک رویداد صوتی (AudioEvent) در چارچوب دوتایی وب‌سوکت (binary WebSocket frame) ارسال کنید. پاسخی می‌گیرید یک متن رمزگذاری‌شده JSON است.

برای نشان دادن اینکه چگونه می توانید برنامه خود را با آمازون رونویسی در زمان واقعی با وب‌سوکت قدرتمند سازید، یک وب‌سایت استاتیک ساخته شده است. در این وب‌سایت می‌توانید اعتبارنامه حساب خود را وارد کنید، یکی از زبان‌های مورد نظر را انتخاب کرده و جریان را شروع کنید. کد نمونه کامل در GitHub موجود است. توسعه دهندگان JavaScript نیز ممکن است این برنامه را سرآغازی کمک‌کننده بیابند. برنامه‌های جالبی (مانند انواع برنامه‌های تبدیل گفتار به متن) که با استفاده از جریان رونویسی آمازون (Amazon Transcribe Streaming) می‌شود ساخت، قطعا جالب و هیجان‌انگیز خواهد بود.

لینک کوتاه شده : https://amerandish.com/JpwB8

به اشتراک بگذارید

دیدگاهتان را بنویسید

نشانی ایمیل شما منتشر نخواهد شد. بخش‌های موردنیاز علامت‌گذاری شده‌اند *

_ مطالب مرتبط _

مدل‌های تشخیص‌گفتار الکسا-آمازون
اخبار هوش مصنوعی

مدل‌های تشخیص گفتار الکسا، محصول شرکت آمازون

مدل‌های تشخیص‌گفتار الکسا-آمازون با استفاده از الگوهای  end-to-end به گفته رییس بخش تشخیص گفتار آمازون، شهزاد مووالا (Shehzad Mevawalla)، در کنفرانس InterSpeech که سال جاری

هوش مصنوعی

5 ترند مهم هوش مصنوعی در سال 2020

5 ترند مهم هوش مصنوعی در سال 2020 در حال حاضر هوش مصنوعی یک موضوع داغ در تمام صنایع است. در حقیقت ، 77٪ از

درخواست شما با موفقیت ارسال شد.

ضمن تشکر بابت ارسال پیام، در سریع‌ترین زمان ممکن کارشناسان شرکت عامراندیش درخواست شما را بررسی خواهند نمود.