تبدیل گفتار به متن در زمان واقعی (real-time) در سایت آمازون با استفاده از اپلیکیشن webstock
رونویس آمازون (Amazon Transcribe) یک سامانه تشخیص گفتار خودکار (ASR) است که افزودن قابلیت گفتار به متن به برنامه ها را برای توسعهدهندگان آسان میکند. با عامر اندیش همراه باشید تا در مورد این سرویس تازه آمازون اطلاعات بیشتری کسب کنید.
پروتكل وب سوکت (WebSocket) دستاورد جدید آمازون در حوزه تبدیل گفتار به متن
در نوامبر 2018، به کاربران این امکان داده شد تا یک فایل صوتی لایو (live) را در سرویس آمازون آپلود نمایند و در برابر، متنهای رونویسی شده را در زمان واقعی (real-time) را دریافت دارند. آمازون اعلام کرده است که به تازگی پشتیبانی رونویسیها در زمان واقعی به وسیله طریق پروتكل WebSocket شروع كرده است. websocket، پروتکلی است که به منظور حمایت دسترسی هر چه بیشتر کاربران به فناوری تبدیل گفتار به متن، راهاندازی شده است. این فناوری به ویژه برای کاربرانی است که از اپلیکیشنهای موبایل برای سرچ کردن (جستوجو) در آمازون استفاده میکنند، مناسب است.
در ادامه سعی داریم تا به شما نشان دهیم چگونه در زمان واقعی با استفاده پروتکل (WebSocket) تبدیل فایلهای صوتی به متن شدنی خواهد شد.
وبسوکت (WebSocket) چیست؟
وبسوکت پروتکل یک ارتباط رایانهای پیچیدهای است که کانال ارتباطی کاملا دو جانبهای با استفاده از ارتباطات سیگنال TCP فراهم میآورد. این پروتکل توسط IEF به صورت RFC 6455 در سال 2011 استاندارد شده است.
پیش از وبسوکت Websocket، تمامی ارتباط میان کاربر و سرور، از طریق HTTP ممکن بود. امروزه دادههای دینامیکی میتوانند به صورت کاملا آزادانه در اتصالات دوتایی و ثابت وبسوکت جریان داشته باشند. استاندارهای وبسوکت باعث به وجود آمدن نسل جدیدی از اپلیکیشنها (مانند اپلیکشنهای تبدیل گفتار به متن) شده که باعث بهرهمندی بسیار کسبوکارها شده است. کسبوکارها میتوانند هزینه زیربنای IT خود را به صورت چشمگیری کاهش داده و زمان کسبوکار خود را کوتاه نمایند.
باید بدانید هدف اصلی وبسوکت، ایجاد یک ارتباط دوتایی بر روی یک کانکشن TCP است که قادر به حمایت و پشتیبانی هر پروتکلی است. درست است که وبسوکت برای مرورگرها و وبسرورها طراحی شده ولی نمیتوان از اهمیت آن در کسبوکارها و اپلیکشنها (مانند اپلیکشنهای تبدیل گفتار به متن) غافل ماند. استفاده از وبسوکت، برای ارتباط بین کاربر و سروهایی که تماما به وسلیه اینترنت با یکدیگر متصلاند، روز به روز بیشتر و بیشتر میشود.
وبسوکت، یک وبکاملا زندهای است که اجازه تعامل با یکدیگر را به صورتی کاملا جدید و تاره را به ما میدهد و در حل مشکلات کسبوکارها عالی به نظر میرسد. هر اندازه ارتباطات آنلاین بیشتر و بیشتر میشود، نیاز به ارتباط سریع در همان زمان بیشتر میشود. بنابراین محصولاتی که تولید میشوند، باید قادر به ارتباط با کاربر به صورت 24-ساعته و در تمامی هفت روز هفته را داشته باشند.
استفاده از رونویس آمازون (تبدیل گفتار به متن ) با کمک WebSocket
برای استفاده از سرویس رونویس آمازون در ابتدا به IAM خود این اجازه را دهید تا از این سرویس استفاده نماید.
ارتقا شما با شرایط AWS، با استفاده از AWS Signature version 4 از پیش امضا شده است. WebSocket API از همه زبانهایی پشتیبانی میکند که Amazon Transcribe streaning (پخش متن آمازون) پشتیانی میکند. زمانی که اتصال شما به وبسوکت انجام یافت، میتوانید برای تبدیل گفتار به متن، فایلهای صوتی خود را به صورت یک رویداد صوتی (AudioEvent) در چارچوب دوتایی وبسوکت (binary WebSocket frame) ارسال کنید. پاسخی میگیرید یک متن رمزگذاریشده JSON است.
برای نشان دادن اینکه چگونه می توانید برنامه خود را با آمازون رونویسی در زمان واقعی با وبسوکت قدرتمند سازید، یک وبسایت استاتیک ساخته شده است. در این وبسایت میتوانید اعتبارنامه حساب خود را وارد کنید، یکی از زبانهای مورد نظر را انتخاب کرده و جریان را شروع کنید. کد نمونه کامل در GitHub موجود است. توسعه دهندگان JavaScript نیز ممکن است این برنامه را سرآغازی کمککننده بیابند. برنامههای جالبی (مانند انواع برنامههای تبدیل گفتار به متن) که با استفاده از جریان رونویسی آمازون (Amazon Transcribe Streaming) میشود ساخت، قطعا جالب و هیجانانگیز خواهد بود.