فناوری تشخیص گفتار برای کودکان

قبل از شرایط پاندمیک، بیش از 40% از کاربران جدید اینترنت، کودکان بودند. برآوردها حاکی از آن است که زمانی که کودکان اکنون در فضای اینترنت سپری می‌کنند تا 60% افزایش داشته، و از این میان، بیشتر آنان 12 سال یا کمتر سن دارند. آنان تقریبا روزانه 5 ساعت از زمان خود را در فضای اینترنت سپری می‌کنند (با همه مزایا و خطراتی که ممکن است برای آنان داشته باشد). در این مقاله، در عامراندیش سعی داریم تا فناوری پردازش صدا (تشخیص ‎گفتار) را از دیدگاه کودکان مورد بررسی قرار دهیم.

فناوری تشخیص گفتار برای کودکان

مربیان و والدین به طرز دردناکی آگاه از این حقیقت‌اند که کودکان به عنوان مهم‌ترین فراگیران دانش از راه دورند که اغلب سعی در یادگیری مطالب آموزشی با استفاده از صفحه کلیدها، منوها و رابط دارند.

در مقابل، دستیاران دیجیتالی مبتنی بر صدا امید دارند تا تعاملی بیشتر و بدون هیچ اصطکاکی با فناوری‌های روز داشته باشند.

درحالی‌که کودکان بسیار مشتاقند تا از سیری یا الکسا بخواهند برایشان جک بگویند یا صدای حیوانات را تقلید نمایند، والدین و معلمان به خوبی می‌دانند که این سامانه‌ها قادر به درک کاربران جوان‌تر و بسیار کم‌سن‌وسال خود نیستند به ویژه اگر آنان از پرسش‌های قابل‌پیش‌بینی (که در این فناوری‌ها لحاظ شده) تخطی نمایند.

این چالش از این حقیقت ناشی می‌شود که نرم‌افزارهای تشخیص‌گفتار مانند الکسا، سیری، گوگل برای استفاده کودکان طراحی نشده است که صدا، زبان و رفتار آنان کاملا پیچیده‌تر از بزرگ‌سالان است.

تنها چالش پیش‌روی فناوری تشخیص گفتار برای کودکان، صدای آنان نیست که کمی تیزتر است، بلکه مجراهای صوتی‌شان لاغرتر و کوتاه‌تر است، تارهای صوتی‌شان کوچک‌تر و حنجره‌شان هم به طور کامل رشد نکرده است. تمامی این‌ها، منجر به الگوی گفتاری متفاوتی نسبت به بزرگسالان می‌شود.

از گراف زیر به راحتی می توان فهمید که تغییر ساده صدای بزرگسالان که برای آموزش تشخیص‌گفتار استفاده می‌شود، نمی‌تواند پیچیدگی اطلاعات مورد نیاز برای درک گفتار کودک را تولید کند.

ساختارها و الگوهای زبان کودکان بسیار متفاوت است. آنها جهشی در نحو، تلفظ و دستور زبان دارند که باید توسط مولفه پردازش زبان طبیعی فناوری تشخیص گفتار برای کودکان مورد توجه قرار گیرند. این پیچیدگی با صحبت‌کردن متنوع کودکان در طیف وسیعی از مراحل گوناگون رشد وی پیچیده شده است. بنابراین گفتار کودک، ورای گفتار بزرگ‌سال است و نمی‌توان آن را مثل و مانند گفتار یک بزرگ‌سال در نظر گرفت.

رفتار گفتاری کودک نه تنها متمایز از یک بزرگ‌سال است بلکه بسیار نیز نامنظم است. کودکان کلمات را بیش از حد تلفظ می‌کنند، هجاهای خاصی را بلندتر ادا می‌کنند، هر کلمه را هنگام بلند فکر کردن، نقطه گذاری می‌کنند، یا از کنار برخی واژگان رد می‌شوند. الگوهای گفتاری آنها در مورد سیستم‌هایی که با توجه به گفتار بزرگ‌سالان ایجاد شده، هیچ‌گونه همخوانی ندارد. به عنوان یک بزرگسال، ما یاد گرفته‌ایم که چگونه بهترین تعامل را با این دستگاه‌ها برقرار سازیم و چگونه بهترین پاسخ را از آنان بدست آوریم. درحالیکه فناوری تشخیص گفتار برای کودکان راهی کاملا مجزا و پیچیده‌ای در پیش رو دارد.

به عنوان یک بزرگ‌سال، درخواستمان را در ذهن خود فرموله می‌کنیم، آن را براساس رفتار آموخته شده اصلاح کرده و سپس آنان را با صدای بلند پس از یک نفس عمیق بیان می‌داریم، “…الکسا…”؛ و در بیشتر اوقات پاسخ اشتباه یا کنسرو شده‌ای دریافت نمی‌داریم. ولی بچه‌ها اینگونه نیستند. آنان به سادگی درخواست‌های فکر نکرده خود را با صدای بلند بیان می‌دارند، گویی سیری یا الکسا یک انسان‌اند.

در یک محیط آموزشی، این چالش‌ها با این واقعیت بیشتر نیز می‌شوند که شناخت گفتار نه تنها با سر و صدای محیط و غیرقابل پیش‌بینی بودن کلاس، بلکه با تغییر در گفتار کودک در طول سال، تعدد لهجه‌ها و گویش‌ها در یک دوره ابتدایی معمول، دست و پنجه نرم می‌کند. اختلافات جسمی، زبانی و رفتاری بین کودکان و بزرگسالان نیز هرچه کودک کوچکتر باشد، به طرز چشمگیری افزایش می‌یابد. این بدان معناست که این یادگیرندگان جوان، که بیشترین بهره را از تشخیص‌گفتار می برند، سخت‌ترین حوزه برای توسعه‌دهندگان، توسعه فناوری تشخیص گفتار برای کودکان است.

برای درک و محاسبه تناقض‌های متنوع زبان کودکان، به سیستم‌های تشخیص‌گفتاری نیاز است که عمدتا از روش‌های صحبت بچه‌ها الگوبرداری می‌کنند. گفتار کودکان را نمی‌توان فقط به عنوان یک لهجه یا گویش دیگر برای تشخیص‌گفتار در نظر گرفت. این بینش اساسا و عملا بسیار متفاوت با واقعیت است؛ با رشد جسمی، مهارت‌های زبانی کودکان نیز تغییر می‌کند.

برخلاف بیشتر زمینه‌های مصرف‌کننده ، دقت و صحت مطالب فناوری تشخیص گفتار برای کودکان پیامدهای عمیقی برای آنان دارد. سیستمی که وقتی حق با کودک است، به وی می‌گوید که او اشتباه می‌کند (منفی کاذب)؛ به اعتمادبه‌نفس وی آسیب جدی می‌زند. درعین حال، سیستمی که وقتی کودک در اشتباه است، به وی می‌گوید که کاملا حق با اوست و او درست می‌گوید (مثبت کاذب)؛ آسیب‌های اجتماعی، احساسی و روان‌شناختی وسیعی را به وی تحمیل می‌کند. در یک محیط سرگرمی، در برنامه‌ها و اپلیکیشن‌ها، بازی‌ها، رباتیک و اسباب‌بازی‌های هوشمند، چنین نکات منفی یا مثبتی منجر به تجارب ناامید کننده می‌شود. در مدارس، خطاها، سوتفاهم و سوبرداشت‌ها و یا پاسخ های کنسرو شده می‌توانند پیامدهای عمیق آموزشی برجای داشته باشد.

چنین موارد متعصبانه کاملا مستند در فناوری تشخیص گفتار برای کودکان، می‌تواند برای آنان اثرات مخربی در پی داشته باشد. برای یک محصول قابل قبول نیست که کاری با دقت ضعیفی (مثبت و منفی کاذب) برای بچه‌هایی ارایه دهد که از نظر جمعیتی یا اقتصادی، بخش مهمی از جامعه را تشکیل داده‌اند. تحقیقات فزاینده‌ای نشان می‌دهد که صدا می‌تواند یک رابط بسیار ارزشمند برای کودکان باشد، اما ما نمی‌توانیم امکان بزرگ‌نمایی‌های متعصبانه و نابرابری‌های بومی را در مدارس خود داشته باشیم و یا آنان را نادیده بگیریم.

تشخیص‌گفتار این توانایی را دارد که ابزاری قدرتمند برای بچه‌ها در خانه و کلاس باشد. این فناوری می‌تواند شکاف‌های اساسی و مهم در حمایت و پشتیبانی از کودکان را از طریق مراحل سوادآموزی و یادگیری زبان پر کند، و به کودکان در درک بهتر دنیای اطرافشان یاری نماید. فناوری تشخیص گفتار برای کودکان می‌تواند راهی را برای یک دوره جدید (مشاهدات نامریی) هموار سازد که حتی در تنظیمات از راه دور، کاملا قابل‌اطمینان بوده و به درستی عمل نماید. ولی بیشتر ابزارهای تشخیص‌گفتار امروزی متناسب با این هدف نیستند. فناوری‌های امروزه مانند سیری، الکسا و سایر دستیارهای صوتی تنها قادر به درک بزرگسالانی‌اند که به صورت واضح و قابل پیش‌بینی صحبت می‌کنند؛ این فناوری‌ها در این زمینه، کار خود را به نحو احسنت انجام می‌دهند.

در صورتی که فناوری تشخیص گفتار برای کودکان مفید و سودمند است که مدلی باشند که با توجه به الگوبرداری از صدا، زبان و رفتارهای منحصربه‌فردشان، به آنان پاسخ دهد.

لینک کوتاه شده : https://amerandish.com/9v91B

به اشتراک بگذارید

دیدگاهتان را بنویسید

نشانی ایمیل شما منتشر نخواهد شد. بخش‌های موردنیاز علامت‌گذاری شده‌اند *

فارس آوا

تبدیل گفتار به متن

باتاوا

دستیارسازمانی - چت بات

هوشتل

اپراتورهوشمند مرکز تماس

_ مطالب مرتبط _

سامانه هوش مصنوعی هوشتل
مقالات

درک چهار نوع مختلف از هوش مصنوعی

درک چهار نوع مختلف از هوش مصنوعی امروزه ماشین‌ها به جایی رسیدند که دستورهای صوتی را اجرا می‌کنند، می‌توانند تصاویر را تشخیص دهند و همچنین

اپلیکیشن‌های تشخیص گفتار
پردازش گفتار

اپلیکیشن‌های تشخیص گفتار خودکار (ASR) و آینده این بازار روبه رشد جهانی

بازار اپلیکیشن‌های تشخیص گفتار خودکار،  چشم‌انداز منطقه‌ای، استراتژی‌های رقابتی و پیش‌بینی‌های مقطعی از 2019 تا 2025 انتظار می‌رود بازار اپلیکیشن‌های تشخیص گفتار خودکار (ASR) در

درخواست شما با موفقیت ارسال شد.

ضمن تشکر بابت ارسال پیام، در سریع‌ترین زمان ممکن کارشناسان شرکت عامراندیش درخواست شما را بررسی خواهند نمود.