پردازش گفتار در الکسا
در ابتدا اجازه دهید تا در مورد تشخیص گفتار کمی توضیح دهیم. تشخیص خودکار گفتار (ASR) فناوری است که گفتار را به متن تبدیل میکند. به طور خلاصه، اولین گام فناوریهای صوتی مانند الکسا آمازون، پاسخگویی به پرسشهای کاربران است، پرسشهایی مانند “الکسا ، بیرون چه شکلی است؟” با عامر اندیش همراه باشید تا با کاربرد این فناوری در الکسا بیشتر آشنا شویم.
پردازش گفتار در الکسا
با استفاده از ASR ، فناوری صدا میتواند صداهای گفتاری را تشخیص داده و آنها را به عنوان واژگان بازشناسد. ASR سنگ بنای کلی تجربه صوتی است که به رایانهها این امکان را میدهد تا سرانجام منظور ما را از طریق زبان طبیعی و ارتباطات پیچیدهمان درک نمایند.
آموزش پردازش گفتار در الکسا به منظور درک منظور انسان
قبل از ASR ، گفتار ما تنها به یک فایل ضبط شده در حافظه رایانهها محدود میشد. با استفاده از ASR ، رایانهها میتوانند الگوهای موجود در شکل موجهای آوایی را تشخیص و آنان را با زبانی ماشینی خودشان مطابقت دهند؛ تا سرانجام متوجه شوند تا ما با چه واژگانی گفتگو میکنیم. مانند دیگر تعاملهای انسان-رایانه، سامانههای آوایی تنها با توانایی پایهای همچون مرکز تماس رباتیک با لیست واژگان بسیار محدود آغاز شد. این سامانهها تنها میتوانستند واژگان سادهای همچون “بله” یا “خیر” را درک کنند.
امروزه سامانههای آوایی رشد چشمگیری داشتهاند. آنها میتوانند شیوه گفتمانتان به زبانهای ویژه و هتا لهجه شما را تماما درک نمایند. آنان همچنین میتوانند منظور شما را زمانی که تنها زمزمه میکنید، یا با صدای بلند فکر میکنید، یا هتا حین گفتار بسیار مکث میکنید یا چندین بار از “اوووممم” استفاده میکنید، تشخیص دهند. از همه مهمتر، امروزه یک رایانه این توانایی را دارد تا با شما گفتمان داشته باشد.
در اینجا سه روش پردازش گفتار در الکسا را نام میبریم که امکان تعامل با فناوری را از طریق صدا فراهم میآورد:
1- سریع احساس میشود
برای اینکه یک گفتمان طبیعی و بهنجار به نظر آید، باید پاسخها در زمانی برابر با میلیثانیه انجام شود. فنآوریهای نوین آوایی از فایدههای محاسبات ابری برای تبدیل فایلهای صوتی ضبط شده به متن بهرهبرداری میکنند و رایانهها اینکار را با شتاب هر چه مکن، برایمان انجام میدهند.
2- رایانهها قادر به تصمیمگیریهای خرد ورزانه با استفاده از پردازش گفتار در الکسا هستند
زبانها سرشار از واژگانی است که تلفظ یکسانی دارند ولی معنای متفاوت. مانند دو واژه “too” و “two” در انگلیسی. چگونه یک رایانه میتواند این دو را از هم تمیز دهد. فناوریهای پیشرو امروزه همگی از برخی از آمارهای پیشزمینه برای بازشنایی این نکته استفاده میکنند تا متوجه شوند منظور گوینده دقیقا کدام واژه است.
3- کمک میکند تا آوا دقیقتر شود.
پردازش گفتار در الکسا اولین گام در رابطهای آوایی کاربر است. با بهرهبرداری از فنآوریهای بیشتر همانند درک زبان طبیعی بشر، الکسا توانا به فهم دقیق نگرش پیچیده کاربر میشود. برای درک این جمله، به مثال روبرو دقت کنید: “four miles” میتواند منظور مسافت “4 مایل” باشد، همچنین میتواند نگرش گوینده از بیان آن خرید هدیه برای مایلز (for Miles) باشد. توانایی الکسا در فهم چنین پیچیدگیهایی بسی جای شگفتی دارد.
به قدرت رسیدن انقلاب بعدی در آوا
ASR دهها سال است که پیشرفتهای آرامی داشته است. کاربردهای این فناوری را میتوان در مثالهای زیر دید:
- افرادی که در حال آموزش یک زبان دوم هستند، این فناوری یک کمک بسیار بزرگی به شمار میآید.
- افرادی که با مشکلات شنوایی دستوپنجه نرم میکنند
- همچنین برای محاسبات hands-free.
امروزه، پردازش گفتار در الکسا ما را توانمند ساخته تا با رایانه خود گفتمان داشته باشیم. دیگر نیازی است یاد بگیریم برای تنظیم زمان، نگاه کردن به نتایج ورزشی یا تماس با شخصی دیگر، از موس، صفحه کلید یا صفحه کلید لمسی UI استفاده نماییم. همگی اینکارها را با همان روشهای معمول زندگی روزمرهمان انجام میدهیم.
چنین فناوری دربهای جدید از دنیایی نو را برای ما میگشاید. اکنونکه رایانهها میتوانند زبان ما را درک کنند، چه چیز دیگری میتوانیم به آنها یاد دهیم؟ چه تجربیات جادویی دیگری را می توانیم با صدا و آوا بسازیم؟ آن قسمت هنوز به عهده ماست.
ساخت را با کیت مهارتهای الکسا (Alexa Skills Kit) شروع کنید
عنصرهای زیادی برای طراحی صدا وجود دارد، اما نیازی نیست که یک متخصص باشید تا شروع به طراحی و ساخت تجربههای صوتی و آوایی نمایید. کیت مهارتهای الکسا (Alexa Skills Kit-ASK) مجموعهای از AI-های سلف سرویس (Self-service) و ابزارهای لازم برای ساخت مهارتهای الکساست. این مهارتها مانند اپهایی برای الکسا هستند تا مشتریان با بهرهگیری از صدایشان با آمازون در تماس باشند.
شما نیز میتوانید به به صدها هزار نفر از برنامهنویسانی که در حال ایجاد مهارت های الکسا هستند بپیوندید تا مشتریانی که از صدها میلیون دستگاه الکسا استفاده میکنند، شگفتزدهتر از پیش سازید. و بدینترتیب پردازش گفتار در الکسا را کارامدتر از دیروز کنید.
آشنایی با فارس آوا، نمونهای از پردازش گفتار طراحی شده برای زبان فارسی
فارس آوا، نرمافزاری است که مختص زبان فارسی و به دست مهندسان کارآزموده ایرانی برای تبدیل گفتار به نوشتار طراحی شده است. با این نرمافزار امکان ارتباط کاربر با استفاده از زبان طبیعی خود، با رایانه و موبایل فراهم شده است.
پردازش گفتار در فارس آوا همچون پردازش گفتار در الکسا، قادر به بازشناسایی تمامی ویژگیهای و چالشهای موجود در زبان فارسی را دارد.