مدلهای تشخیصگفتار الکسا-آمازون با استفاده از الگوهای end-to-end
به گفته رییس بخش تشخیص گفتار آمازون، شهزاد مووالا (Shehzad Mevawalla)، در کنفرانس InterSpeech که سال جاری برگزار شد: ” الکسا در تشخیص اینکه چه کسی و درباره چه چیزی صحبت میکند، درک واژگان از طریق تکنیکهای on-device و استفاده از الگوهای استفاده شده بدون نیاز به بازبینی انسانی، عملکرد بهتری خواهد داشت.”
الکسا اکنون الگوی تشخیص گفتار را با “قابلیت کامل و به صورت on-device اجرا میکند. الگوهای پیشین تشخیص گفتار الکسا متکی بر الگوریتمهایی بودهاند که از نظر اندازه، حجم زیادی از حافظه را مصرف و بر روی سرورهای موجود در فضای ابری کار میکردند. بنا به گفته مووالا تغییرات یادشده در مدلهای تشخیص گفتار الکسا، به دلیل استفاده از مدلهای end-to-end یا الگوهای هوش مصنوعی است که سیگنالهای گفتاری صوتی را به عنوان ورودی میگیرند و به صورت مستقیم، گفتار رونویسی شده را تولید میکنند. تشخیص دهنده گفتار قبلی الکسا دارای مولفههای ویژهای بود که درست مانند یک مدل صوتی و یک مدل زبانی، ورودیها را به ترتیب پردازش میکرد.
با توجه به گفتههای مووالا:” با داشتن یک مدل end-to-end، شما دیگر نیازی به قطعات جدا از هم ندارید و در نهایت با یک شبکه عصبی ترکیبی روبرو خواهید شد. حجم حافظه مصرفی مورد نیاز از چندین گیگابایت به 100 مگابایت کاهش خواهد یافت. چنین مسئلهای به ما این امکان را میدهد تا بتوانیم فناوری را در فضاهای بسیار محدود اجرا کنیم.”
معرفی مدلهای تشخیص گفتار الکسا
هنوز هم، مدلهای آفلاین (که اولین نسخه آنها تنها برای انگلیسی و در ایالات متحده موجود است) از نظر سختافزاری محدودند، زیرا برای پردازش گفتار با سرعت قابلقبول به یک شتابدهنده on-device نیاز دارند. حتی اگر خود مدلها کوچک باشند باز هم حاوی میلیونها پارامتر (متغیرهای داخلی که پیشبینیهای آنها را شکل میدهند) هستند که باید از طریق ضرب ماتریس، یکی از عملیاتهای اصلی در شبکههای عصبی عمیق، محاسبه شوند. راهحل آمازون برای این مسئله، استفاده از پردازنده AZ1 Neural Edge است که با همکاری MediaTek ساخته شده است و جدیدترین مدلهای آن عبارتند از:
- Echo
- Echo Dot
- Echo Dot with Clock
- Echo Dot Kids Edition
- Echo show10
برپایه سخنان مووالا: “AZ1 اساسا به عملیات ضرب ماتریس کمک میکند و پردازنده محدود را بارگیری میکند. این مدل، اکنون میتواند روی دستگاه کار کند و در واقع دقت یکسان یا بهتری را برای تشخیص گفتار در الکسا (نسبت به الگوهای پیشین که در فضای ابر اجرا میشدند) فراهم کند.”
عملکرد شناسه (function ID) الکسا به سمت کمک گرفتن و استفاده از مدل end-to-end و یادگیری ماشین رفته است. این عملکرد درحقیقت تشخیص میدهد که برای شخصیسازی پاسخها به صحبتها و صدای چه کسی توجه کند. این یک رویکرد دو الگوریتمی است که از ترکیب همزمان الگوهای وابسته به متن و مستقل از متن به وجود میآید. الگوی وابسته به متن پیشبینی میکند که کاربران قصد گفتن چه چیزی را دارند و با این عمکلرد مطابقت دارد. در حالیکه الگوی مستقل از متن با صداهای مستقل از آنچه گفته میشود مطابقت دارد.
شناسه بهبودیافته بلندگو (Improved speaker ID) باعث تقویت چرخش طبیعی (Natural Turn Taking) میشود، ویژگی که به شما امکان آن را میدهد تا چندین نفره به مکالمه با الکسا بپردازید، بدون اینکه برای استفاده از مدلهای تشخیص گفتار مجبور به گفتن واژههایی مانند هی الکسا! (Hey Alexa) باشد. سه مدل به طور موازی برای چرخش طبیعی نوبت (Natural Turn Taking) اجرا میشوند که تنها در زبان انگلیسی و تا سال آینده در دسترس خواهند بود. مدل، گفتار و سر و صدای پسزمینه را از دستوراتی که برای الکسا در نظر گرفته شده تشخیص میدهد. مدل دوم برای استفاده از تشخیص گفتار در تبدیل گفتار به نوشتار و تجزیه و تحلیل در سطح کلمه است. مدل سوم نیز از سیگنالهای دریافت شده از دوربین دستگاه (در صورت وجود) برای تصمیمگیری درباره هدایت تعاملات با دستگاه، استفاده میکند.
در دستگاههای اکو که دارای دوربین هستتند عملیات Natural Turn Taking میتواند با استفاده از دوربین اجرا شود و تشخیص دهد که یک فرد به به دستگاه یا به فرد دیگری نگاه میکند. ویدئو و گفتار فرد به صورت محلی پردازش میشوند و شبکههای عصبی با هم ادغام شده و در نهایت و تصمیم گرفته میشود که آیا سخنان شخص خطاب به الکسا است یا خیر. چرخش طبیعی نوبت (Natural Turn Taking) نیازی به دستگاههای دوربیندار ندارد، ولی در دستگاههای مجهز به دوربین دقیقتر عمل خواهد کرد.
در سطح بالاتر، مووالا میگوید که مدلهای تشخیص گفتار الکسا از طریق فرآیند تنظیم دقیق، ژرفتر و تیزنگرتر شده است. الکسا از یک مدل “معلم” استفاده میکند که با میلیونها ساعت “داده” آموزش داده شدهاند تا به کمک آن برای تشخیص طیف وسیعی از شرایط صوتی مختلف، مانند تنوع زبان و لهجههای گوناگون، هماهنگ باشد. این مدل برای درک زبان بومی یک منطقه یا زبان خاص طراحی شده است.
مووالا یادآوری میکند که: “الکسا دهها میلیون دستگاه در خارج از ایالات متحده دارد که باعث ایجاد یک چالش بزرگ خواهد شد. حجم دادههایی که میتوانیم پردازش کنیم تا همان حدی است که در سال گذشته افزایش دادهایم.”
وی چنین افزود که: “تیم ما، دقت تشخیص گفتار الکسا را تا 25% بهبود داده است. Language pooling یا ائتلاف زبانی، تکنیک دیگری است که به طور موثر از آن استفاده شده تا بتوان با دادههایی که کاملا بررسی نشده و بدون شرح هستند، رونویسی ماشینی هم چنان انجام بپذیرد. ”