خانه » مدل‌های تشخیص گفتار الکسا، محصول شرکت آمازون

مدل‌های تشخیص گفتار الکسا، محصول شرکت آمازون

مدل‌های تشخیص‌گفتار الکسا-آمازون با استفاده از الگوهای end-to-end

به گفته رییس بخش تشخیص گفتار آمازون، شهزاد مووالا (Shehzad Mevawalla)، در کنفرانس InterSpeech که سال جاری برگزار شد: ” الکسا در تشخیص اینکه چه کسی و درباره چه چیزی صحبت می‌کند، درک واژگان از طریق تکنیک‌های on-device و استفاده از الگوهای استفاده شده بدون نیاز به بازبینی انسانی، عملکرد بهتری خواهد داشت.”

الکسا اکنون الگوی تشخیص گفتار را با “قابلیت کامل و به صورت on-device اجرا می‌کند. الگوهای پیشین تشخیص گفتار الکسا متکی بر الگوریتم‌‌هایی بوده‌اند که از نظر اندازه، حجم زیادی از حافظه را مصرف و بر روی سرورهای موجود در فضای ابری کار می‌کردند. بنا به گفته مووالا تغییرات یادشده در مدل‌های تشخیص گفتار الکسا، به دلیل استفاده از مدل‌های end-to-end یا الگوهای هوش مصنوعی است که سیگنال‌های گفتاری صوتی را به عنوان ورودی می‌گیرند و به صورت مستقیم، گفتار رونویسی شده را تولید می‌کنند. تشخیص دهنده گفتار قبلی الکسا دارای مولفه‌های ویژه‌ای بود که درست مانند یک مدل صوتی و یک مدل زبانی، ورودی‌ها را به ترتیب پردازش می‌کرد.

با توجه به گفته‌های مووالا:” با داشتن یک مدل end-to-end، شما دیگر نیازی به قطعات جدا از هم ندارید و در نهایت با یک شبکه عصبی ترکیبی روبرو خواهید شد. حجم حافظه مصرفی مورد نیاز از چندین گیگابایت به 100 مگابایت کاهش خواهد یافت. چنین مسئله‌ای به ما این امکان را می‌دهد تا بتوانیم فناوری را در فضاهای بسیار محدود اجرا کنیم.”

معرفی مدل‌های تشخیص گفتار الکسا

هنوز هم، مدل‌های آفلاین (که اولین‌ نسخه آن‌ها تنها برای انگلیسی و در ایالات متحده موجود است) از نظر سخت‌افزاری محدودند، زیرا برای پردازش گفتار با سرعت قابل‌قبول به یک شتاب‌دهنده on-device نیاز دارند. حتی اگر خود مدل‌ها کوچک باشند باز هم حاوی میلیون‌ها پارامتر (متغیرهای داخلی که پیش‌بینی‌های آن‌ها را شکل می‌دهند) هستند که باید از طریق ضرب ماتریس، یکی از عملیات‌های اصلی در شبکه‌های عصبی عمیق، محاسبه شوند. راه‌حل آمازون برای این مسئله، استفاده از پردازنده AZ1 Neural Edge است که با همکاری MediaTek ساخته شده است و جدیدترین مدل‌های آن عبارتند از:

Echo
Echo Dot
Echo Dot with Clock
Echo Dot Kids Edition
Echo show10

برپایه سخنان مووالا: “AZ1 اساسا به عملیات ضرب ماتریس کمک می‌کند و پردازنده محدود را بارگیری می‌کند. این مدل، اکنون می‌تواند روی دستگاه کار کند و در واقع دقت یکسان یا بهتری را برای تشخیص گفتار در الکسا (نسبت به الگوهای پیشین که در فضای ابر اجرا می‌شدند) فراهم کند.”

عملکرد شناسه (function ID) الکسا به سمت کمک گرفتن و استفاده از مدل end-to-end و یادگیری ماشین رفته است. این عملکرد درحقیقت تشخیص می‌دهد که برای شخصی‌سازی پاسخ‌ها به صحبت‌ها و صدای چه کسی توجه کند. این یک رویکرد دو الگوریتمی است که از ترکیب همزمان الگو‌های وابسته به متن و مستقل از متن به وجود می‌آید. الگوی وابسته به متن پیش‌بینی می‌کند که کاربران قصد گفتن چه چیزی را دارند و با این عمکلرد مطابقت دارد. در حالی‌که الگوی مستقل از متن با صداهای مستقل از آن‌چه گفته می‌شود مطابقت دارد.

شناسه بهبودیافته بلندگو (Improved speaker ID) باعث تقویت چرخش طبیعی (Natural Turn Taking) می‌شود، ویژگی که به شما امکان آن را می‌دهد تا چندین نفره به مکالمه با الکسا بپردازید، بدون اینکه برای استفاده از مدل‌های تشخیص گفتار مجبور به گفتن واژه‌هایی مانند هی الکسا! (Hey Alexa) باشد. سه مدل به طور موازی برای چرخش طبیعی نوبت (Natural Turn Taking) اجرا می‌شوند که تنها در زبان انگلیسی و تا سال آینده در دسترس خواهند بود. مدل، گفتار و سر و صدای پس‌زمینه را از دستوراتی که برای الکسا در نظر گرفته شده تشخیص می‌دهد. مدل دوم برای استفاده از تشخیص گفتار در تبدیل گفتار به نوشتار و تجزیه و تحلیل در سطح کلمه است. مدل سوم نیز از سیگنال‌های دریافت شده از دوربین دستگاه (در صورت وجود) برای تصمیم‌گیری درباره هدایت تعاملات با دستگاه، استفاده ‌می‌کند.

در دستگاه‌های اکو که دارای دوربین هستتند عملیات Natural Turn Taking می‌تواند با استفاده از دوربین اجرا شود و تشخیص دهد که یک فرد به به دستگاه یا به فرد دیگری نگاه می‌کند. ویدئو و گفتار فرد به صورت محلی پردازش می‌شوند و شبکه‌های عصبی با هم ادغام شده و در نهایت و تصمیم گرفته می‌شود که آیا سخنان شخص خطاب به الکسا است یا خیر. چرخش طبیعی نوبت (Natural Turn Taking) نیازی به دستگاه‌های دوربین‌دار ندارد، ولی در دستگاه‌های مجهز به دوربین دقیق‌تر عمل خواهد کرد.

در سطح بالاتر، مووالا می‌گوید که مدل‌های تشخیص گفتار الکسا از طریق فرآیند تنظیم دقیق، ژرف‌تر و تیزنگرتر شده است. الکسا از یک مدل “معلم” استفاده می‌کند که با میلیون‌ها ساعت “داده” آموزش داده شده‌اند تا به کمک آن برای تشخیص طیف وسیعی از شرایط صوتی مختلف، مانند تنوع زبان و لهجه‌های گوناگون، هماهنگ باشد. این مدل برای درک زبان بومی یک منطقه یا زبان خاص طراحی شده است.

مووالا یادآوری می‌کند که: “الکسا ده‌ها میلیون دستگاه در خارج از ایالات متحده دارد که باعث ایجاد یک چالش بزرگ خواهد شد. حجم داده‌هایی که می‌توانیم پردازش کنیم تا همان حدی است که در سال گذشته افزایش داده‌ایم.”

وی چنین افزود که: “تیم ما، دقت تشخیص گفتار الکسا را تا 25% بهبود داده است. Language pooling یا ائتلاف زبانی، تکنیک دیگری است که به طور موثر از آن استفاده شده تا بتوان با داده‌هایی که کاملا بررسی نشده و بدون شرح هستند، رونویسی ماشینی هم چنان انجام بپذیرد. ”