خانه » کاربرد تکنولوژی پردازش گفتار در رباتیک و ساخت ربات‌ها

کاربرد تکنولوژی پردازش گفتار در رباتیک و ساخت ربات‌ها

کاربرد پردازش گفتار در ربات‌ها با الگوبرداری از پردازش شنیداری انسان

ما جسته گریخته در باره آواهایی که می‌شنویم، می‌اندیشیم. ولی پیچیدگی بسیار زیادی در جداسازی و فهم آواها در مکان‌های شلوغی مانند میدان‌های پر رفت‌وآمد شهری یا فروشگاه‌های شلوغ وجود دارد. ما انسان‌ها توانایی آن را داریم که در ترازهای پایین مسیرهای شنوایی، پیش از شناسایی محتوا، سرچشمه‌های آوایی مشخصی را از دیگر آواهای پس‌زمینه جدا ‌سازیم، آن‌ها را در فضا بومی‌سازی کرده و الگوهای جنبشی و حرکتی آن‌ها را شناسایی می‌کنیم. با عامر اندیش همراه باشید تا با جستار بیشتر آشنا شوید.

کاربرد پردازش گفتار در ربات‌ها

با الهام از نوروفیزیولوژی، تیمی از پژوهشگران، یک مقاله از پیش چاپ شده در Arxiv.org را با عنوان شناسایی گفتار پیشرفته ربات با استفاده از بومی‌سازی سرچشمه صدای بیومتریک شنیداری” بمنتشر کردند. در این مقاله یک طراحی نوآورانه برای آزمایش تأثیر فیزیوگونومی (به معنای ویژگی‌های چهره) بر مولفه‌های بازشناسایی آوا مانند بومی‌سازی سرچشمه صدا (SSL) و تشخیص خودکار صدا (ASR) ایجاد شده است.

کاربرد پردازش گفتار در ربات‌ها بر پایه پردازش شنیداری در انسان‌ها است. بدین‌وسیله، برپایه گفته‌های پژوهشگران، تنه بدن، سر و لایه بیرونی گوش، موج‌های صوتی (آوایی) را که بدان‌ها برخورد می‌کنند، جذب کرده یا انعکاس می‌دهند و همچنین بسته به موقعیت سرچشمه صدا، فرکانس آن را تغییر می‌دهند. سپس این امواج به داخل حلزون گوش (اندام مارپیچی گوش‌ها) و ارگان کرتی (Corti)، جایی که در پاسخ به ارتعاش‌های آوایی تکانه‌های عصبی تولید می‌شوند، حرکت می‌کنند. این تکانه‌ها از طریق سامانه‌های عصبی شنوایی به هسته حلزونی می‌رسند که کارآیی شبیه نوعی ایستگاه رله (رله نوعی کلید الکترونیکی است که با هدایت مدار الکتریکی باز و بسته می‌شود) دارند. بدین ترتیب کاربرد پردازش گفتار در ربات‌ها در این سامانه عصبی و انتقال داده‌ها و اطلاعات به دو ساختار ناوابسته می‌باشد: MSO (medial superior olive) و LSO (lateral superior olive). (MSO که MSO به منظور تشخیص جایگاه دقیق آوا، موقعیت زاویه چپ یا راست را تنظیم می‌کند؛ درحالیکه LSO از شدت صدا برای بومی‌سازی آن استفاده می‌کند. سرانجام آن‌ها در کوکلیکول (colliculus) تحتانی مغز (IC) بایکدیگر یکی می‌شوند.

نحوه کاربرد پردازش گفتار در ربات‌ها

پژوهشگران در تلاش برای افزایش ساختار الگوریتمی، یک فریم ورک یادگیری ماشینی (iCub و Soundman ) را طراحی کرده‌اند که صدای ضبط شده توسط میکروفون‌های تعبیه شده در سر روبات‌های ساخته انسان را پردازش می‌کند. این چهارچوب شامل چهار بخش است: SSL، مولفه‌ای که آواها را به مجموعه‌ای از فرکانس‌ها تجزیه کرده و از موج‌های فرکانس برای تولید سنبله‌های تقلید کننده پالس‌های عصبی کورتی (Corti) استفاده می‌کند. مدل MSO حساس به صداهای تولید شده در زاویه‌های خاص است؛ و در نهایت LSO مدلی است که نسبت به دیگر زاویه‌ها حساس است. IC همان لایه‌ای است که با الهام از مغز انسان ایجاد شده و در این لایه سیگنال‌های MSO و LSO با یکدیگر ترکیب می‌شود. در حقیقت این لایه، شبکه عصبی اضافی است که باعث کاهش بازتاب صدا و صدای خود ربات می‌شود. صدای ربات به دلیل اتصالات ربات‌ و موتور آن است. موارد گفته شده در بالا، به صورت خلاصه، کاربرد پردازش گفتار در ربات‌ها را توضیح می‌دهد.

برای آزمایش کارآیی سامانه، پژوهشگران از سامانه‌ای به نام Soundman برای تولید خطوط پایه SSL و ASR و سر iCub (مجهز به موتورهایی که امکان چرخش آن را می‌دهند) استفاده کرده‌اند تا اثر رزونانس (پیچش صدا) در میان جمجمه و مولفه‌های داخلی ربات را کنترل کنند. 13 بلندگو با فاصله‌های مساوی در پیکربندی نیمه استوانه‌ای طوری توزیع شده که آواهای پخش شده در سر این استوانه را شناسایی و پردازش می‌کند.

کاربرد پردازش گفتار در ربات‌ها با بهره بردن از داده‌های بدست آمده از SSL می‌تواند به صورت چشم‌گیری بهبود یابد. این پیشرفت در تشخیص آواها تا دو برابر موردهای پیشین در سطح جمله قابل ملاحظه بود. دقت بالای تشخیص گفتار در ربات‌ها، با تشخیص اینکه سر ربات در چه موقعیتی قرار می‌گیرد و از چه کانال مناسبی برای داده‌های ورودی به سیستم ASR استفاده کند، امکان‌پذیر است.

سخن آخر

نویسندگان مقاله این‌گونه ادامه داده‌اند که: “این رویکرد درست برخلاف سایر رویکردهای مرتبط است. پیش از ASR، سیگنال‌های هر دو کانال به طور متوسط اندازه گیری می‌شد. نتایج آزمایش SSL پویا نشان می‌دهد که این سامانه قادر به انجام انواع مختلفی از طنین‌های صوتی است. این نتیجه‌ها یک بسط مهم از کارهای قبلی ما در SSL استاتیک است و از استحکام سامانه به پویایی صدا در محیط‌های دنیای واقعی پشتیبانی می‌کند. علاوه بر این، کاربرد پردازش گفتار در ربات‌ها می‌تواند به راحتی با روش‌های اخیر به منظور افزایش ASR در محیط‌های پرانعکاس بدون اضافه کردن هزینه‌های محاسباتی یکپارچه گردد. “

5/5 - (1 امتیاز)

لینک کوتاه شده : https://amerandish.com/jE62Q

پردازش گفتار, تشخیص گفتار, شناسایی آوا, کاربرد پردازش گفتار, کاربرد پردازش گفتار در ربات‌ها, هوش مصنوعی

به اشتراک بگذارید

دیدگاهتان را بنویسید لغو پاسخ

_ مطالب مرتبط _

هوش مصنوعی

هوشمند سازی مرکز تماس 118 به کمک هوشتل

یکی از خطوط مقدم هوشمند سازی در آینده مراکز تماس می‌باشند. مرکز تماس 118 به عنوان یک مرکز ارائه اطلاعات به عموم مردم که در

07 اسفند 1398 بدون دیدگاه

Mixed-Reality-and-Artificial-Intelligence

مقالات

در آینده چه انتظاراتی از هوش مصنوعی داریم؟

تا به امروز اختراعات بسیاری داشته ایم که سبک زندگی ما را تا حد زیادی دستخوش تغییرات کردند. اما شاید بتوان گفت هوش مصنوعی هیجان

19 آذر 1398 بدون دیدگاه

ربات تریدر چیست؟

ربات‌ تریدر یا همان ربات‌های معامله‌گردر بازار معاملات اهمیت زیادی پیدا کرده‌اند و در بازارهای مالی مانند فارکس و یا بازار ارز دیجیتال نیز از

27 اردیبهشت 1399 بدون دیدگاه

کاربرد تکنولوژی پردازش گفتار در رباتیک و ساخت ربات‌ها

کاربرد پردازش گفتار در ربات‌ها

نحوه کاربرد پردازش گفتار در ربات‌ها

سخن آخر

دیدگاهتان را بنویسید لغو پاسخ

فارس آوا

باتاوا