کاربرد پردازش گفتار در رباتها با الگوبرداری از پردازش شنیداری انسان
ما جسته گریخته در باره آواهایی که میشنویم، میاندیشیم. ولی پیچیدگی بسیار زیادی در جداسازی و فهم آواها در مکانهای شلوغی مانند میدانهای پر رفتوآمد شهری یا فروشگاههای شلوغ وجود دارد. ما انسانها توانایی آن را داریم که در ترازهای پایین مسیرهای شنوایی، پیش از شناسایی محتوا، سرچشمههای آوایی مشخصی را از دیگر آواهای پسزمینه جدا سازیم، آنها را در فضا بومیسازی کرده و الگوهای جنبشی و حرکتی آنها را شناسایی میکنیم. با عامر اندیش همراه باشید تا با جستار بیشتر آشنا شوید.
کاربرد پردازش گفتار در رباتها
با الهام از نوروفیزیولوژی، تیمی از پژوهشگران، یک مقاله از پیش چاپ شده در Arxiv.org را با عنوان شناسایی گفتار پیشرفته ربات با استفاده از بومیسازی سرچشمه صدای بیومتریک شنیداری” بمنتشر کردند. در این مقاله یک طراحی نوآورانه برای آزمایش تأثیر فیزیوگونومی (به معنای ویژگیهای چهره) بر مولفههای بازشناسایی آوا مانند بومیسازی سرچشمه صدا (SSL) و تشخیص خودکار صدا (ASR) ایجاد شده است.
کاربرد پردازش گفتار در رباتها بر پایه پردازش شنیداری در انسانها است. بدینوسیله، برپایه گفتههای پژوهشگران، تنه بدن، سر و لایه بیرونی گوش، موجهای صوتی (آوایی) را که بدانها برخورد میکنند، جذب کرده یا انعکاس میدهند و همچنین بسته به موقعیت سرچشمه صدا، فرکانس آن را تغییر میدهند. سپس این امواج به داخل حلزون گوش (اندام مارپیچی گوشها) و ارگان کرتی (Corti)، جایی که در پاسخ به ارتعاشهای آوایی تکانههای عصبی تولید میشوند، حرکت میکنند. این تکانهها از طریق سامانههای عصبی شنوایی به هسته حلزونی میرسند که کارآیی شبیه نوعی ایستگاه رله (رله نوعی کلید الکترونیکی است که با هدایت مدار الکتریکی باز و بسته میشود) دارند. بدین ترتیب کاربرد پردازش گفتار در رباتها در این سامانه عصبی و انتقال دادهها و اطلاعات به دو ساختار ناوابسته میباشد: MSO (medial superior olive) و LSO (lateral superior olive). (MSO که MSO به منظور تشخیص جایگاه دقیق آوا، موقعیت زاویه چپ یا راست را تنظیم میکند؛ درحالیکه LSO از شدت صدا برای بومیسازی آن استفاده میکند. سرانجام آنها در کوکلیکول (colliculus) تحتانی مغز (IC) بایکدیگر یکی میشوند.
نحوه کاربرد پردازش گفتار در رباتها
پژوهشگران در تلاش برای افزایش ساختار الگوریتمی، یک فریم ورک یادگیری ماشینی (iCub و Soundman ) را طراحی کردهاند که صدای ضبط شده توسط میکروفونهای تعبیه شده در سر روباتهای ساخته انسان را پردازش میکند. این چهارچوب شامل چهار بخش است: SSL، مولفهای که آواها را به مجموعهای از فرکانسها تجزیه کرده و از موجهای فرکانس برای تولید سنبلههای تقلید کننده پالسهای عصبی کورتی (Corti) استفاده میکند. مدل MSO حساس به صداهای تولید شده در زاویههای خاص است؛ و در نهایت LSO مدلی است که نسبت به دیگر زاویهها حساس است. IC همان لایهای است که با الهام از مغز انسان ایجاد شده و در این لایه سیگنالهای MSO و LSO با یکدیگر ترکیب میشود. در حقیقت این لایه، شبکه عصبی اضافی است که باعث کاهش بازتاب صدا و صدای خود ربات میشود. صدای ربات به دلیل اتصالات ربات و موتور آن است. موارد گفته شده در بالا، به صورت خلاصه، کاربرد پردازش گفتار در رباتها را توضیح میدهد.
برای آزمایش کارآیی سامانه، پژوهشگران از سامانهای به نام Soundman برای تولید خطوط پایه SSL و ASR و سر iCub (مجهز به موتورهایی که امکان چرخش آن را میدهند) استفاده کردهاند تا اثر رزونانس (پیچش صدا) در میان جمجمه و مولفههای داخلی ربات را کنترل کنند. 13 بلندگو با فاصلههای مساوی در پیکربندی نیمه استوانهای طوری توزیع شده که آواهای پخش شده در سر این استوانه را شناسایی و پردازش میکند.
کاربرد پردازش گفتار در رباتها با بهره بردن از دادههای بدست آمده از SSL میتواند به صورت چشمگیری بهبود یابد. این پیشرفت در تشخیص آواها تا دو برابر موردهای پیشین در سطح جمله قابل ملاحظه بود. دقت بالای تشخیص گفتار در رباتها، با تشخیص اینکه سر ربات در چه موقعیتی قرار میگیرد و از چه کانال مناسبی برای دادههای ورودی به سیستم ASR استفاده کند، امکانپذیر است.
سخن آخر
نویسندگان مقاله اینگونه ادامه دادهاند که: “این رویکرد درست برخلاف سایر رویکردهای مرتبط است. پیش از ASR، سیگنالهای هر دو کانال به طور متوسط اندازه گیری میشد. نتایج آزمایش SSL پویا نشان میدهد که این سامانه قادر به انجام انواع مختلفی از طنینهای صوتی است. این نتیجهها یک بسط مهم از کارهای قبلی ما در SSL استاتیک است و از استحکام سامانه به پویایی صدا در محیطهای دنیای واقعی پشتیبانی میکند. علاوه بر این، کاربرد پردازش گفتار در رباتها میتواند به راحتی با روشهای اخیر به منظور افزایش ASR در محیطهای پرانعکاس بدون اضافه کردن هزینههای محاسباتی یکپارچه گردد. “