قبل از شرایط پاندمیک، بیش از 40% از کاربران جدید اینترنت، کودکان بودند. برآوردها حاکی از آن است که زمانی که کودکان اکنون در فضای اینترنت سپری میکنند تا 60% افزایش داشته، و از این میان، بیشتر آنان 12 سال یا کمتر سن دارند. آنان تقریبا روزانه 5 ساعت از زمان خود را در فضای اینترنت سپری میکنند (با همه مزایا و خطراتی که ممکن است برای آنان داشته باشد). در این مقاله، در عامراندیش سعی داریم تا فناوری پردازش صدا (تشخیص گفتار) را از دیدگاه کودکان مورد بررسی قرار دهیم.
فناوری تشخیص گفتار برای کودکان
مربیان و والدین به طرز دردناکی آگاه از این حقیقتاند که کودکان به عنوان مهمترین فراگیران دانش از راه دورند که اغلب سعی در یادگیری مطالب آموزشی با استفاده از صفحه کلیدها، منوها و رابط دارند.
در مقابل، دستیاران دیجیتالی مبتنی بر صدا امید دارند تا تعاملی بیشتر و بدون هیچ اصطکاکی با فناوریهای روز داشته باشند.
درحالیکه کودکان بسیار مشتاقند تا از سیری یا الکسا بخواهند برایشان جک بگویند یا صدای حیوانات را تقلید نمایند، والدین و معلمان به خوبی میدانند که این سامانهها قادر به درک کاربران جوانتر و بسیار کمسنوسال خود نیستند به ویژه اگر آنان از پرسشهای قابلپیشبینی (که در این فناوریها لحاظ شده) تخطی نمایند.
این چالش از این حقیقت ناشی میشود که نرمافزارهای تشخیصگفتار مانند الکسا، سیری، گوگل برای استفاده کودکان طراحی نشده است که صدا، زبان و رفتار آنان کاملا پیچیدهتر از بزرگسالان است.
تنها چالش پیشروی فناوری تشخیص گفتار برای کودکان، صدای آنان نیست که کمی تیزتر است، بلکه مجراهای صوتیشان لاغرتر و کوتاهتر است، تارهای صوتیشان کوچکتر و حنجرهشان هم به طور کامل رشد نکرده است. تمامی اینها، منجر به الگوی گفتاری متفاوتی نسبت به بزرگسالان میشود.
از گراف زیر به راحتی می توان فهمید که تغییر ساده صدای بزرگسالان که برای آموزش تشخیصگفتار استفاده میشود، نمیتواند پیچیدگی اطلاعات مورد نیاز برای درک گفتار کودک را تولید کند.
ساختارها و الگوهای زبان کودکان بسیار متفاوت است. آنها جهشی در نحو، تلفظ و دستور زبان دارند که باید توسط مولفه پردازش زبان طبیعی فناوری تشخیص گفتار برای کودکان مورد توجه قرار گیرند. این پیچیدگی با صحبتکردن متنوع کودکان در طیف وسیعی از مراحل گوناگون رشد وی پیچیده شده است. بنابراین گفتار کودک، ورای گفتار بزرگسال است و نمیتوان آن را مثل و مانند گفتار یک بزرگسال در نظر گرفت.
رفتار گفتاری کودک نه تنها متمایز از یک بزرگسال است بلکه بسیار نیز نامنظم است. کودکان کلمات را بیش از حد تلفظ میکنند، هجاهای خاصی را بلندتر ادا میکنند، هر کلمه را هنگام بلند فکر کردن، نقطه گذاری میکنند، یا از کنار برخی واژگان رد میشوند. الگوهای گفتاری آنها در مورد سیستمهایی که با توجه به گفتار بزرگسالان ایجاد شده، هیچگونه همخوانی ندارد. به عنوان یک بزرگسال، ما یاد گرفتهایم که چگونه بهترین تعامل را با این دستگاهها برقرار سازیم و چگونه بهترین پاسخ را از آنان بدست آوریم. درحالیکه فناوری تشخیص گفتار برای کودکان راهی کاملا مجزا و پیچیدهای در پیش رو دارد.
به عنوان یک بزرگسال، درخواستمان را در ذهن خود فرموله میکنیم، آن را براساس رفتار آموخته شده اصلاح کرده و سپس آنان را با صدای بلند پس از یک نفس عمیق بیان میداریم، “…الکسا…”؛ و در بیشتر اوقات پاسخ اشتباه یا کنسرو شدهای دریافت نمیداریم. ولی بچهها اینگونه نیستند. آنان به سادگی درخواستهای فکر نکرده خود را با صدای بلند بیان میدارند، گویی سیری یا الکسا یک انساناند.
در یک محیط آموزشی، این چالشها با این واقعیت بیشتر نیز میشوند که شناخت گفتار نه تنها با سر و صدای محیط و غیرقابل پیشبینی بودن کلاس، بلکه با تغییر در گفتار کودک در طول سال، تعدد لهجهها و گویشها در یک دوره ابتدایی معمول، دست و پنجه نرم میکند. اختلافات جسمی، زبانی و رفتاری بین کودکان و بزرگسالان نیز هرچه کودک کوچکتر باشد، به طرز چشمگیری افزایش مییابد. این بدان معناست که این یادگیرندگان جوان، که بیشترین بهره را از تشخیصگفتار می برند، سختترین حوزه برای توسعهدهندگان، توسعه فناوری تشخیص گفتار برای کودکان است.
برای درک و محاسبه تناقضهای متنوع زبان کودکان، به سیستمهای تشخیصگفتاری نیاز است که عمدتا از روشهای صحبت بچهها الگوبرداری میکنند. گفتار کودکان را نمیتوان فقط به عنوان یک لهجه یا گویش دیگر برای تشخیصگفتار در نظر گرفت. این بینش اساسا و عملا بسیار متفاوت با واقعیت است؛ با رشد جسمی، مهارتهای زبانی کودکان نیز تغییر میکند.
برخلاف بیشتر زمینههای مصرفکننده ، دقت و صحت مطالب فناوری تشخیص گفتار برای کودکان پیامدهای عمیقی برای آنان دارد. سیستمی که وقتی حق با کودک است، به وی میگوید که او اشتباه میکند (منفی کاذب)؛ به اعتمادبهنفس وی آسیب جدی میزند. درعین حال، سیستمی که وقتی کودک در اشتباه است، به وی میگوید که کاملا حق با اوست و او درست میگوید (مثبت کاذب)؛ آسیبهای اجتماعی، احساسی و روانشناختی وسیعی را به وی تحمیل میکند. در یک محیط سرگرمی، در برنامهها و اپلیکیشنها، بازیها، رباتیک و اسباببازیهای هوشمند، چنین نکات منفی یا مثبتی منجر به تجارب ناامید کننده میشود. در مدارس، خطاها، سوتفاهم و سوبرداشتها و یا پاسخ های کنسرو شده میتوانند پیامدهای عمیق آموزشی برجای داشته باشد.
چنین موارد متعصبانه کاملا مستند در فناوری تشخیص گفتار برای کودکان، میتواند برای آنان اثرات مخربی در پی داشته باشد. برای یک محصول قابل قبول نیست که کاری با دقت ضعیفی (مثبت و منفی کاذب) برای بچههایی ارایه دهد که از نظر جمعیتی یا اقتصادی، بخش مهمی از جامعه را تشکیل دادهاند. تحقیقات فزایندهای نشان میدهد که صدا میتواند یک رابط بسیار ارزشمند برای کودکان باشد، اما ما نمیتوانیم امکان بزرگنماییهای متعصبانه و نابرابریهای بومی را در مدارس خود داشته باشیم و یا آنان را نادیده بگیریم.
تشخیصگفتار این توانایی را دارد که ابزاری قدرتمند برای بچهها در خانه و کلاس باشد. این فناوری میتواند شکافهای اساسی و مهم در حمایت و پشتیبانی از کودکان را از طریق مراحل سوادآموزی و یادگیری زبان پر کند، و به کودکان در درک بهتر دنیای اطرافشان یاری نماید. فناوری تشخیص گفتار برای کودکان میتواند راهی را برای یک دوره جدید (مشاهدات نامریی) هموار سازد که حتی در تنظیمات از راه دور، کاملا قابلاطمینان بوده و به درستی عمل نماید. ولی بیشتر ابزارهای تشخیصگفتار امروزی متناسب با این هدف نیستند. فناوریهای امروزه مانند سیری، الکسا و سایر دستیارهای صوتی تنها قادر به درک بزرگسالانیاند که به صورت واضح و قابل پیشبینی صحبت میکنند؛ این فناوریها در این زمینه، کار خود را به نحو احسنت انجام میدهند.
در صورتی که فناوری تشخیص گفتار برای کودکان مفید و سودمند است که مدلی باشند که با توجه به الگوبرداری از صدا، زبان و رفتارهای منحصربهفردشان، به آنان پاسخ دهد.