راه کارها
تشخیص صدا برای اختلالات گفتاری و پیشرفت چشم‌گیر گوگل در این فناوری

تشخیص صدا برای اختلالات گفتاری و پیشرفت چشم‌گیر گوگل در این فناوری

تشخیص صدا برای اختلالات گفتاری

تشخیص صدا برای اختلالات گفتاری تحت پروژه یوفونیا (Euphonia) توسط گوگل طراحی شده است که ویژه افراد معلول و ناتوان در بیان صحیح آواها، هجاها و واژگان است. با عامر اندیش تا انتها همراه باشید تا در مورد آخرین دستاورد بزرگ گوگل در فناوری تشخیص گفتار خودکار (Automatic Speech Recognition (ASR))  بیشتر بدانید.

بهبود فناوری تشخیص صدا برای اختلالات گفتاری

سیستم‌های تشخیص گفتار خودکار (ASR) در چند سال اخیر با پیشرفت چشم‌گیری روبه‌رو بوده است. سیستم‌های ASR بیشتر برای گفتار معمول طراحی و تولید شده است. این بدان معناست که افرادی که توانایی صحبت همانند افراد معمولی جامعه نیست، قادر به استفاده از این فناوری نیستند.

در این جا قصد داریم از پیشرفت فناوری ASR برای تشخیص صدا برای اختلالات گفتاری پرده‌برداری کنیم. این فناوری جدید با تمرکز بر دو گفتار غیراستاندارد طراحی شده است: افرادی که مبتلا به ALS هستند و همچنین افرادی که لهجه‌های سنگین دارند. (ALS نوعی بیماری پیش‌رونده و غیرقابل ترمیم است که به تدریج تمامی عضلات و ماهیچه‌های شخص مبتلا را از کار می‌اندازد).

خبر خوب این است که این تشخیص صدا برای اختلالات گفتاری ، توسط گوگل و تحت پروژه‌ای موفقیت‌آمیزی با نام یوفونیا (Euphonia) انجام رسیده است.

تشخیص گفتار خودکار (automatic speech recognition) یا به اختصار ASR برای افراد معمولی تولید و طراحی شده است. این بدان معناست که گروه‌هایی دارای لهجه‌های سنگین و یا دارای اختلال در گفتار از استفاده از این فناوری محروم‌اند. در مدل پیشرفته ASR (یوفونیا) میزان خطای واژگانی متوسط اشخاص (Word Error Rate (WER)) که از بیماری‌هایی همچون ALS در رنج‌اند، به راحتی تشخیص داده می‌شود.

در زیر ویدیویی جالبی از چگونگی عملکرد فناوری تتشخیص صدا برای اختلالات گفتاری تحت سیستمی با نام پاروترن (Parrotron) توسط یکی از محققان گوگل، دیمیتری کانوسکی (Euphonia) آورده شده که خود مشکل اختلال در گفتار دارد. در این ویدیو خواهید دید که چگونه صحبت‌های وی برای دستیار گوگل (Google Assistant) قابل درک می‌شود.

میزان پیشرفت تشخیص صدا برای اختلالات گفتاری

این مدل، به میزان ۳۵% تا ۶۲% بهبود در عملکرد تشخیص صحیح خطای واژگان (word error rate) در دو گروه نام برده شده در بالا را داشته است. آزمایش‌ها حاکی از آن است که مدل جدید گوگل بهبودی حدود ۱۰% برای گفتارهای ناواضح معتدل و ۲۰% برای گفتارهای بسیار ناواضح در مورد پیام‌های بانکی داشته است.

این گام، اولین گام به سوی مدل‌های پیشرفته ASR برای گفتارهای ناواضح است.

جمع‌بندی کلی

همان‌طور که محققان تاکید کرده‌اند، بخشی از مساله به آموزش سیستم‌های تشخیص صدا برای اختلالات گفتاری بازمی‌گردد. زیرا این سیستم‌ها برای اکثریت افراد جامعه که مشکلات خاصی در گفتار ندارند، تهیه شده است. این بدان معناست که افراد با لهجه‌های سنگین شاید نتوانند به خوبی از این فناوری استفاده کنند.

محققان برای پیشرفت در سیستم تشخیص گفتار (ASR) بیش از ده‌ها ساعت صدای افراد مبتلا به ALS را ضبط کردند تا به بهبود هوش مصنوعی کمک کرده باشند. با این حال، پر واضح است که نتیجه برای هر شخصی مبتلا به ALS ایده‌ال نخواهد بود. زیرا صدای این افراد منحصر به فرد است و البته پیشرفت بیماری و تاثیرات آن در افراد گوناگون مختلف است.

گوگل توانسته است با استفاده از مبانی اولیه مدل‌های تشخیص گفتار و اعمال برخی ترفندها و آموزش‌ها با ضبط‌های جدید، میزان خطای واژگانی (word error rate) را تا حد زیادی کاهش دهد.

این روش به میزان قابل توجهی موجب بهبود تشخیص صدا برای اختلالات گفتاری شده است. محققان متوجه‌ شده‌اند که گاها تلفظ سخت برخی واج‌ها به صورت یکی از دو راه زیر است:

  • واج یا آوایی به درستی تشخیص داده نمی‌شود، بنابراین پر واضح است اگر کلمه‌ای که به دنبال آن لحاظ می‌گردد نیز تشخیص داده نشود.
  • مدل خود باید حدس بزند واج یا آوا منتشر شده توسط بلندگو چیست.

در مورد مشکل دوم می‌توان گفت که همانند جواب ۲ ضرب در ۲، برای حل کردن بسیار بدیهی است. با آنالیز و تجزیه و تحلیل باقی جمله محتوا، هوش مصنوعی در بیشتر موارد قادر به تشخیص واج یا آوای صحیح است. برای مثال، اگر هوش مصنوعی شنیده باشد:” I am reading off the cub” (من در حال مطالعه توله (نوزاد حیوان) هستم)؛ احتمالا قصد کاربر این عبارت بوده است: “I am heading off to the pub” (من در حال رفتن به بار (میخانه) هستم)

به این مطلب امتیاز دهید
0/5

به اشتراک بگذارید

اشتراک گذاری در whatsapp
اشتراک گذاری در telegram
اشتراک گذاری در linkedin
اشتراک گذاری در twitter
اشتراک گذاری در email

دیدگاهتان را بنویسید

نشانی ایمیل شما منتشر نخواهد شد. بخش‌های موردنیاز علامت‌گذاری شده‌اند *

فارس آوا

تبدیل گفتار به متن

باتاوا

دستیارسازمانی - چت بات

هوشتل

اپراتورهوشمند مرکز تماس

بینایار

درک هوشمند ویدیو و تصویر

_ مطالب مرتبط _