تشخیص صدا برای اختلالات گفتاری تحت پروژه یوفونیا (Euphonia) توسط گوگل طراحی شده است که ویژه افراد معلول و ناتوان در بیان صحیح آواها، هجاها و واژگان است. با عامر اندیش تا انتها همراه باشید تا در مورد آخرین دستاورد بزرگ گوگل در فناوری تشخیص گفتار خودکار (Automatic Speech Recognition (ASR)) بیشتر بدانید.
بهبود فناوری تشخیص صدا برای اختلالات گفتاری
سیستمهای تشخیص گفتار خودکار (ASR) در چند سال اخیر با پیشرفت چشمگیری روبهرو بوده است. سیستمهای ASR بیشتر برای گفتار معمول طراحی و تولید شده است. این بدان معناست که افرادی که توانایی صحبت همانند افراد معمولی جامعه نیست، قادر به استفاده از این فناوری نیستند.
در این جا قصد داریم از پیشرفت فناوری ASR برای تشخیص صدا برای اختلالات گفتاری پردهبرداری کنیم. این فناوری جدید با تمرکز بر دو گفتار غیراستاندارد طراحی شده است: افرادی که مبتلا به ALS هستند و همچنین افرادی که لهجههای سنگین دارند. (ALS نوعی بیماری پیشرونده و غیرقابل ترمیم است که به تدریج تمامی عضلات و ماهیچههای شخص مبتلا را از کار میاندازد).
خبر خوب این است که این تشخیص صدا برای اختلالات گفتاری ، توسط گوگل و تحت پروژهای موفقیتآمیزی با نام یوفونیا (Euphonia) انجام رسیده است.
تشخیص گفتار خودکار (automatic speech recognition) یا به اختصار ASR برای افراد معمولی تولید و طراحی شده است. این بدان معناست که گروههایی دارای لهجههای سنگین و یا دارای اختلال در گفتار از استفاده از این فناوری محروماند. در مدل پیشرفته ASR (یوفونیا) میزان خطای واژگانی متوسط اشخاص (Word Error Rate (WER)) که از بیماریهایی همچون ALS در رنجاند، به راحتی تشخیص داده میشود.
در زیر ویدیویی جالبی از چگونگی عملکرد فناوری تتشخیص صدا برای اختلالات گفتاری تحت سیستمی با نام پاروترن (Parrotron) توسط یکی از محققان گوگل، دیمیتری کانوسکی (Euphonia) آورده شده که خود مشکل اختلال در گفتار دارد. در این ویدیو خواهید دید که چگونه صحبتهای وی برای دستیار گوگل (Google Assistant) قابل درک میشود.
میزان پیشرفت تشخیص صدا برای اختلالات گفتاری
این مدل، به میزان 35% تا 62% بهبود در عملکرد تشخیص صحیح خطای واژگان (word error rate) در دو گروه نام برده شده در بالا را داشته است. آزمایشها حاکی از آن است که مدل جدید گوگل بهبودی حدود 10% برای گفتارهای ناواضح معتدل و 20% برای گفتارهای بسیار ناواضح در مورد پیامهای بانکی داشته است.
این گام، اولین گام به سوی مدلهای پیشرفته ASR برای گفتارهای ناواضح است.
جمعبندی کلی
همانطور که محققان تاکید کردهاند، بخشی از مساله به آموزش سیستمهای تشخیص صدا برای اختلالات گفتاری بازمیگردد. زیرا این سیستمها برای اکثریت افراد جامعه که مشکلات خاصی در گفتار ندارند، تهیه شده است. این بدان معناست که افراد با لهجههای سنگین شاید نتوانند به خوبی از این فناوری استفاده کنند.
محققان برای پیشرفت در سیستم تشخیص گفتار (ASR) بیش از دهها ساعت صدای افراد مبتلا به ALS را ضبط کردند تا به بهبود هوش مصنوعی کمک کرده باشند. با این حال، پر واضح است که نتیجه برای هر شخصی مبتلا به ALS ایدهال نخواهد بود. زیرا صدای این افراد منحصر به فرد است و البته پیشرفت بیماری و تاثیرات آن در افراد گوناگون مختلف است.
گوگل توانسته است با استفاده از مبانی اولیه مدلهای تشخیص گفتار و اعمال برخی ترفندها و آموزشها با ضبطهای جدید، میزان خطای واژگانی (word error rate) را تا حد زیادی کاهش دهد.
این روش به میزان قابل توجهی موجب بهبود تشخیص صدا برای اختلالات گفتاری شده است. محققان متوجه شدهاند که گاها تلفظ سخت برخی واجها به صورت یکی از دو راه زیر است:
- واج یا آوایی به درستی تشخیص داده نمیشود، بنابراین پر واضح است اگر کلمهای که به دنبال آن لحاظ میگردد نیز تشخیص داده نشود.
- مدل خود باید حدس بزند واج یا آوا منتشر شده توسط بلندگو چیست.
در مورد مشکل دوم میتوان گفت که همانند جواب 2 ضرب در 2، برای حل کردن بسیار بدیهی است. با آنالیز و تجزیه و تحلیل باقی جمله محتوا، هوش مصنوعی در بیشتر موارد قادر به تشخیص واج یا آوای صحیح است. برای مثال، اگر هوش مصنوعی شنیده باشد:” I am reading off the cub” (من در حال مطالعه توله (نوزاد حیوان) هستم)؛ احتمالا قصد کاربر این عبارت بوده است: “I am heading off to the pub” (من در حال رفتن به بار (میخانه) هستم)