کاربرد تکنولوژی پردازش گفتار در رباتیک و ساخت ربات‌ها

کاربرد تکنولوژی پردازش گفتار در رباتیک و ساخت ربات‌ها

کاربرد پردازش گفتار در ربات‌ها با الگوبرداری از پردازش شنیداری انسان

ما جسته گریخته در باره آواهایی که می‌شنویم، می‌اندیشیم. ولی پیچیدگی بسیار زیادی در جداسازی و فهم آواها در مکان‌های شلوغی مانند میدان‌های پر رفت‌وآمد شهری یا فروشگاه‌های شلوغ وجود دارد. ما انسان‌ها توانایی آن را داریم که در ترازهای پایین مسیرهای شنوایی، پیش از شناسایی محتوا، سرچشمه‌های آوایی مشخصی را از دیگر آواهای پس‌زمینه جدا ‌سازیم، آن‌ها را در فضا بومی‌سازی کرده و الگوهای جنبشی و حرکتی آن‌ها را شناسایی می‌کنیم. با عامر اندیش  همراه باشید تا با جستار بیشتر آشنا شوید.

کاربرد پردازش گفتار در ربات‌ها

با الهام از نوروفیزیولوژی، تیمی از پژوهشگران، یک مقاله از پیش چاپ شده در Arxiv.org را با عنوان شناسایی گفتار پیشرفته ربات با استفاده از بومی‌سازی سرچشمه صدای بیومتریک شنیداری” بمنتشر کردند. در این مقاله یک طراحی نوآورانه برای آزمایش تأثیر فیزیوگونومی (به معنای ویژگی‌های چهره) بر مولفه‌های بازشناسایی آوا مانند بومی‌سازی سرچشمه صدا (SSL) و تشخیص خودکار صدا (ASR) ایجاد شده است.

کاربرد پردازش گفتار در ربات‌ها بر پایه پردازش شنیداری در انسان‌ها است. بدین‌وسیله، برپایه گفته‌های پژوهشگران، تنه بدن، سر و لایه بیرونی گوش، موج‌های صوتی (آوایی) را که بدان‌ها برخورد می‌کنند، جذب کرده یا انعکاس می‌دهند و همچنین بسته به موقعیت سرچشمه صدا، فرکانس آن را تغییر می‌دهند. سپس این امواج به داخل حلزون گوش (اندام مارپیچی گوش‌ها) و ارگان کرتی (Corti)، جایی که در پاسخ به ارتعاش‌های آوایی تکانه‌های عصبی تولید می‌شوند، حرکت می‌کنند. این تکانه‌ها از طریق سامانه‌های عصبی شنوایی به هسته حلزونی می‌رسند که کارآیی شبیه نوعی ایستگاه رله (رله نوعی کلید الکترونیکی است که با هدایت مدار الکتریکی باز و بسته می‌شود) دارند. بدین ترتیب کاربرد پردازش گفتار در ربات‌ها در این سامانه عصبی و انتقال داده‌ها و اطلاعات به دو ساختار ناوابسته می‌باشد: MSO (medial superior olive) و LSO (lateral superior olive). (MSO که MSO به منظور تشخیص جایگاه دقیق آوا، موقعیت زاویه چپ یا راست را تنظیم می‌کند؛ درحالیکه LSO از شدت صدا برای بومی‌سازی آن استفاده می‌کند. سرانجام آن‌ها در کوکلیکول (colliculus) تحتانی مغز (IC) بایکدیگر یکی می‌شوند.

"<yoastmark

نحوه کاربرد پردازش گفتار در ربات‌ها

پژوهشگران در تلاش برای افزایش ساختار الگوریتمی، یک فریم ورک یادگیری ماشینی (iCub و Soundman ) را طراحی کرده‌اند که صدای ضبط شده توسط میکروفون‌های تعبیه شده در سر روبات‌های ساخته انسان را پردازش می‌کند. این چهارچوب شامل چهار بخش است: SSL، مولفه‌ای که آواها را به مجموعه‌ای از فرکانس‌ها تجزیه کرده و از موج‌های فرکانس برای تولید سنبله‌های تقلید کننده پالس‌های عصبی کورتی (Corti) استفاده می‌کند. مدل MSO حساس به صداهای تولید شده در زاویه‌های خاص است؛ و در نهایت LSO مدلی است که نسبت به دیگر زاویه‌ها حساس است. IC همان لایه‌ای است که با الهام از مغز انسان ایجاد شده و در این لایه سیگنال‌های MSO و LSO با یکدیگر ترکیب می‌شود. در حقیقت این لایه، شبکه عصبی اضافی است که باعث کاهش بازتاب صدا و صدای خود ربات می‌شود. صدای ربات به دلیل اتصالات ربات‌ و موتور آن است. موارد گفته شده در بالا، به صورت خلاصه، کاربرد پردازش گفتار در ربات‌ها را توضیح می‌دهد.

برای آزمایش کارآیی سامانه، پژوهشگران از سامانه‌ای به نام Soundman برای تولید خطوط پایه SSL و ASR و سر iCub (مجهز به موتورهایی که امکان چرخش آن را می‌دهند) استفاده کرده‌اند تا اثر رزونانس (پیچش صدا) در میان جمجمه و مولفه‌های داخلی ربات را کنترل کنند. ۱۳ بلندگو با فاصله‌های مساوی در پیکربندی نیمه استوانه‌ای طوری توزیع شده که آواهای پخش شده در سر این استوانه را شناسایی و پردازش می‌کند.

"<yoastmark

کاربرد پردازش گفتار در ربات‌ها با بهره بردن از داده‌های بدست آمده از SSL می‌تواند به صورت چشم‌گیری بهبود یابد. این پیشرفت در تشخیص آواها تا دو برابر موردهای پیشین در سطح جمله قابل ملاحظه بود. دقت بالای تشخیص گفتار در ربات‌ها، با تشخیص اینکه سر ربات در چه موقعیتی قرار می‌گیرد و از چه کانال مناسبی برای داده‌های ورودی به سیستم ASR استفاده کند، امکان‌پذیر است.

سخن آخر

نویسندگان مقاله این‌گونه ادامه داده‌اند که: “این رویکرد درست برخلاف سایر رویکردهای مرتبط است. پیش از ASR، سیگنال‌های هر دو کانال به طور متوسط ​​اندازه گیری می‌شد. نتایج آزمایش SSL پویا نشان می‌دهد که این سامانه قادر به انجام انواع مختلفی از طنین‌های صوتی است. این نتیجه‌ها یک بسط مهم از کارهای قبلی ما در SSL استاتیک است و از استحکام سامانه به پویایی صدا در محیط‌های دنیای واقعی پشتیبانی می‌کند. علاوه بر این، کاربرد پردازش گفتار در ربات‌ها می‌تواند به راحتی با روش‌های اخیر به منظور افزایش ASR در محیط‌های پرانعکاس بدون اضافه کردن هزینه‌های محاسباتی یکپارچه گردد. “

لینک کوتاه شده : https://amerandish.com/jE62Q

به این مطلب امتیاز دهید

به اشتراک بگذارید

اشتراک گذاری در whatsapp
اشتراک گذاری در telegram
اشتراک گذاری در linkedin
اشتراک گذاری در twitter
اشتراک گذاری در email

دیدگاهتان را بنویسید

نشانی ایمیل شما منتشر نخواهد شد. بخش‌های موردنیاز علامت‌گذاری شده‌اند *

فارس آوا

تبدیل گفتار به متن

باتاوا

دستیارسازمانی - چت بات

هوشتل

اپراتورهوشمند مرکز تماس

بینایار

درک هوشمند ویدیو و تصویر

_ مطالب مرتبط _