خانه » کاربرد تکنولوژی پردازش گفتار در رباتیک و ساخت ربات‌ها

کاربرد تکنولوژی پردازش گفتار در رباتیک و ساخت ربات‌ها

کاربرد پردازش گفتار در ربات‌ها با الگوبرداری از پردازش شنیداری انسان

ما جسته گریخته در باره آواهایی که می‌شنویم، می‌اندیشیم. ولی پیچیدگی بسیار زیادی در جداسازی و فهم آواها در مکان‌های شلوغی مانند میدان‌های پر رفت‌وآمد شهری یا فروشگاه‌های شلوغ وجود دارد. ما انسان‌ها توانایی آن را داریم که در ترازهای پایین مسیرهای شنوایی، پیش از شناسایی محتوا، سرچشمه‌های آوایی مشخصی را از دیگر آواهای پس‌زمینه جدا ‌سازیم، آن‌ها را در فضا بومی‌سازی کرده و الگوهای جنبشی و حرکتی آن‌ها را شناسایی می‌کنیم. با عامر اندیش همراه باشید تا با جستار بیشتر آشنا شوید.

کاربرد پردازش گفتار در ربات‌ها

با الهام از نوروفیزیولوژی، تیمی از پژوهشگران، یک مقاله از پیش چاپ شده در Arxiv.org را با عنوان شناسایی گفتار پیشرفته ربات با استفاده از بومی‌سازی سرچشمه صدای بیومتریک شنیداری” بمنتشر کردند. در این مقاله یک طراحی نوآورانه برای آزمایش تأثیر فیزیوگونومی (به معنای ویژگی‌های چهره) بر مولفه‌های بازشناسایی آوا مانند بومی‌سازی سرچشمه صدا (SSL) و تشخیص خودکار صدا (ASR) ایجاد شده است.

کاربرد پردازش گفتار در ربات‌ها بر پایه پردازش شنیداری در انسان‌ها است. بدین‌وسیله، برپایه گفته‌های پژوهشگران، تنه بدن، سر و لایه بیرونی گوش، موج‌های صوتی (آوایی) را که بدان‌ها برخورد می‌کنند، جذب کرده یا انعکاس می‌دهند و همچنین بسته به موقعیت سرچشمه صدا، فرکانس آن را تغییر می‌دهند. سپس این امواج به داخل حلزون گوش (اندام مارپیچی گوش‌ها) و ارگان کرتی (Corti)، جایی که در پاسخ به ارتعاش‌های آوایی تکانه‌های عصبی تولید می‌شوند، حرکت می‌کنند. این تکانه‌ها از طریق سامانه‌های عصبی شنوایی به هسته حلزونی می‌رسند که کارآیی شبیه نوعی ایستگاه رله (رله نوعی کلید الکترونیکی است که با هدایت مدار الکتریکی باز و بسته می‌شود) دارند. بدین ترتیب کاربرد پردازش گفتار در ربات‌ها در این سامانه عصبی و انتقال داده‌ها و اطلاعات به دو ساختار ناوابسته می‌باشد: MSO (medial superior olive) و LSO (lateral superior olive). (MSO که MSO به منظور تشخیص جایگاه دقیق آوا، موقعیت زاویه چپ یا راست را تنظیم می‌کند؛ درحالیکه LSO از شدت صدا برای بومی‌سازی آن استفاده می‌کند. سرانجام آن‌ها در کوکلیکول (colliculus) تحتانی مغز (IC) بایکدیگر یکی می‌شوند.

نحوه کاربرد پردازش گفتار در ربات‌ها

پژوهشگران در تلاش برای افزایش ساختار الگوریتمی، یک فریم ورک یادگیری ماشینی (iCub و Soundman ) را طراحی کرده‌اند که صدای ضبط شده توسط میکروفون‌های تعبیه شده در سر روبات‌های ساخته انسان را پردازش می‌کند. این چهارچوب شامل چهار بخش است: SSL، مولفه‌ای که آواها را به مجموعه‌ای از فرکانس‌ها تجزیه کرده و از موج‌های فرکانس برای تولید سنبله‌های تقلید کننده پالس‌های عصبی کورتی (Corti) استفاده می‌کند. مدل MSO حساس به صداهای تولید شده در زاویه‌های خاص است؛ و در نهایت LSO مدلی است که نسبت به دیگر زاویه‌ها حساس است. IC همان لایه‌ای است که با الهام از مغز انسان ایجاد شده و در این لایه سیگنال‌های MSO و LSO با یکدیگر ترکیب می‌شود. در حقیقت این لایه، شبکه عصبی اضافی است که باعث کاهش بازتاب صدا و صدای خود ربات می‌شود. صدای ربات به دلیل اتصالات ربات‌ و موتور آن است. موارد گفته شده در بالا، به صورت خلاصه، کاربرد پردازش گفتار در ربات‌ها را توضیح می‌دهد.

برای آزمایش کارآیی سامانه، پژوهشگران از سامانه‌ای به نام Soundman برای تولید خطوط پایه SSL و ASR و سر iCub (مجهز به موتورهایی که امکان چرخش آن را می‌دهند) استفاده کرده‌اند تا اثر رزونانس (پیچش صدا) در میان جمجمه و مولفه‌های داخلی ربات را کنترل کنند. 13 بلندگو با فاصله‌های مساوی در پیکربندی نیمه استوانه‌ای طوری توزیع شده که آواهای پخش شده در سر این استوانه را شناسایی و پردازش می‌کند.

کاربرد پردازش گفتار در ربات‌ها با بهره بردن از داده‌های بدست آمده از SSL می‌تواند به صورت چشم‌گیری بهبود یابد. این پیشرفت در تشخیص آواها تا دو برابر موردهای پیشین در سطح جمله قابل ملاحظه بود. دقت بالای تشخیص گفتار در ربات‌ها، با تشخیص اینکه سر ربات در چه موقعیتی قرار می‌گیرد و از چه کانال مناسبی برای داده‌های ورودی به سیستم ASR استفاده کند، امکان‌پذیر است.

سخن آخر

نویسندگان مقاله این‌گونه ادامه داده‌اند که: “این رویکرد درست برخلاف سایر رویکردهای مرتبط است. پیش از ASR، سیگنال‌های هر دو کانال به طور متوسط اندازه گیری می‌شد. نتایج آزمایش SSL پویا نشان می‌دهد که این سامانه قادر به انجام انواع مختلفی از طنین‌های صوتی است. این نتیجه‌ها یک بسط مهم از کارهای قبلی ما در SSL استاتیک است و از استحکام سامانه به پویایی صدا در محیط‌های دنیای واقعی پشتیبانی می‌کند. علاوه بر این، کاربرد پردازش گفتار در ربات‌ها می‌تواند به راحتی با روش‌های اخیر به منظور افزایش ASR در محیط‌های پرانعکاس بدون اضافه کردن هزینه‌های محاسباتی یکپارچه گردد. “

5/5 - (1 امتیاز)

لینک کوتاه شده : https://amerandish.com/jE62Q

پردازش گفتار, تشخیص گفتار, کاربرد پردازش گفتار, هوش مصنوعی

به اشتراک بگذارید

دیدگاهتان را بنویسید لغو پاسخ

_ مطالب مرتبط _

مقالات

چگونه کوپایلت کسب‌ و کار شما را متحول می‌کند؟

هوش مصنوعی کوپایلت به عنوان یک دستیار هوشمند، نقش بسزایی در افزایش بهره‌ وری و خلاقیت ایفا می‌کند. هوش مصنوعی مایکروسافت با فراهم کردنِ امکان

28 مرداد 1403 بدون دیدگاه

هوش مصنوعی

استفاده از هوش مصنوعی در مراکز تماس

امروزه دنیای دیجیتال به سرعت نور در حال تغییر و توسعه است و یکی از مهم ترین توسعه هایی که در آن اتفاق افتاده را

02 آذر 1398 بدون دیدگاه

چت بات

چت انگلیسی آنلاین به کمک چت بات هوشمند

در این مقاله می‌خواهیم مزایای استفاده از چت بات هوشمند به زبان انگلیسی و برخورداری از چت انگلیسی آنلاین بر روی وب‌سایت ررا بررسی کنیم.

19 خرداد 1399 بدون دیدگاه

تبدیل گفتار به متن

چت بات سازمانی

مرکز تماس هوشمند

کاربرد تکنولوژی پردازش گفتار در رباتیک و ساخت ربات‌ها

کاربرد پردازش گفتار در ربات‌ها

نحوه کاربرد پردازش گفتار در ربات‌ها