تشخیص صدا برای اختلالات گفتاری و پیشرفت چشم‌گیر گوگل در این فناوری

تشخیص صدا برای اختلالات گفتاری تحت پروژه یوفونیا (Euphonia) توسط گوگل طراحی شده است که ویژه افراد معلول و ناتوان در بیان صحیح آواها، هجاها و واژگان است. با عامر اندیش تا انتها همراه باشید تا در مورد آخرین دستاورد بزرگ گوگل در فناوری تشخیص گفتار خودکار (Automatic Speech Recognition (ASR))  بیشتر بدانید.

بهبود فناوری تشخیص صدا برای اختلالات گفتاری

سیستم‌های تشخیص گفتار خودکار (ASR) در چند سال اخیر با پیشرفت چشم‌گیری روبه‌رو بوده است. سیستم‌های ASR بیشتر برای گفتار معمول طراحی و تولید شده است. این بدان معناست که افرادی که توانایی صحبت همانند افراد معمولی جامعه نیست، قادر به استفاده از این فناوری نیستند.

در این جا قصد داریم از پیشرفت فناوری ASR برای تشخیص صدا برای اختلالات گفتاری پرده‌برداری کنیم. این فناوری جدید با تمرکز بر دو گفتار غیراستاندارد طراحی شده است: افرادی که مبتلا به ALS هستند و همچنین افرادی که لهجه‌های سنگین دارند. (ALS نوعی بیماری پیش‌رونده و غیرقابل ترمیم است که به تدریج تمامی عضلات و ماهیچه‌های شخص مبتلا را از کار می‌اندازد).

خبر خوب این است که این تشخیص صدا برای اختلالات گفتاری ، توسط گوگل و تحت پروژه‌ای موفقیت‌آمیزی با نام یوفونیا (Euphonia) انجام رسیده است.

تشخیص گفتار خودکار (automatic speech recognition) یا به اختصار ASR برای افراد معمولی تولید و طراحی شده است. این بدان معناست که گروه‌هایی دارای لهجه‌های سنگین و یا دارای اختلال در گفتار از استفاده از این فناوری محروم‌اند. در مدل پیشرفته ASR (یوفونیا) میزان خطای واژگانی متوسط اشخاص (Word Error Rate (WER)) که از بیماری‌هایی همچون ALS در رنج‌اند، به راحتی تشخیص داده می‌شود.

در زیر ویدیویی جالبی از چگونگی عملکرد فناوری تتشخیص صدا برای اختلالات گفتاری تحت سیستمی با نام پاروترن (Parrotron) توسط یکی از محققان گوگل، دیمیتری کانوسکی (Euphonia) آورده شده که خود مشکل اختلال در گفتار دارد. در این ویدیو خواهید دید که چگونه صحبت‌های وی برای دستیار گوگل (Google Assistant) قابل درک می‌شود.

video
play-sharp-fill

میزان پیشرفت تشخیص صدا برای اختلالات گفتاری

این مدل، به میزان 35% تا 62% بهبود در عملکرد تشخیص صحیح خطای واژگان (word error rate) در دو گروه نام برده شده در بالا را داشته است. آزمایش‌ها حاکی از آن است که مدل جدید گوگل بهبودی حدود 10% برای گفتارهای ناواضح معتدل و 20% برای گفتارهای بسیار ناواضح در مورد پیام‌های بانکی داشته است.

این گام، اولین گام به سوی مدل‌های پیشرفته ASR برای گفتارهای ناواضح است.

جمع‌بندی کلی

همان‌طور که محققان تاکید کرده‌اند، بخشی از مساله به آموزش سیستم‌های تشخیص صدا برای اختلالات گفتاری بازمی‌گردد. زیرا این سیستم‌ها برای اکثریت افراد جامعه که مشکلات خاصی در گفتار ندارند، تهیه شده است. این بدان معناست که افراد با لهجه‌های سنگین شاید نتوانند به خوبی از این فناوری استفاده کنند.

محققان برای پیشرفت در سیستم تشخیص گفتار (ASR) بیش از ده‌ها ساعت صدای افراد مبتلا به ALS را ضبط کردند تا به بهبود هوش مصنوعی کمک کرده باشند. با این حال، پر واضح است که نتیجه برای هر شخصی مبتلا به ALS ایده‌ال نخواهد بود. زیرا صدای این افراد منحصر به فرد است و البته پیشرفت بیماری و تاثیرات آن در افراد گوناگون مختلف است.

گوگل توانسته است با استفاده از مبانی اولیه مدل‌های تشخیص گفتار و اعمال برخی ترفندها و آموزش‌ها با ضبط‌های جدید، میزان خطای واژگانی (word error rate) را تا حد زیادی کاهش دهد.

این روش به میزان قابل توجهی موجب بهبود تشخیص صدا برای اختلالات گفتاری شده است. محققان متوجه‌ شده‌اند که گاها تلفظ سخت برخی واج‌ها به صورت یکی از دو راه زیر است:

  • واج یا آوایی به درستی تشخیص داده نمی‌شود، بنابراین پر واضح است اگر کلمه‌ای که به دنبال آن لحاظ می‌گردد نیز تشخیص داده نشود.
  • مدل خود باید حدس بزند واج یا آوا منتشر شده توسط بلندگو چیست.

در مورد مشکل دوم می‌توان گفت که همانند جواب 2 ضرب در 2، برای حل کردن بسیار بدیهی است. با آنالیز و تجزیه و تحلیل باقی جمله محتوا، هوش مصنوعی در بیشتر موارد قادر به تشخیص واج یا آوای صحیح است. برای مثال، اگر هوش مصنوعی شنیده باشد:” I am reading off the cub” (من در حال مطالعه توله (نوزاد حیوان) هستم)؛ احتمالا قصد کاربر این عبارت بوده است: “I am heading off to the pub” (من در حال رفتن به بار (میخانه) هستم)

4/5 - (1 امتیاز)
لینک کوتاه شده : https://amerandish.com/sFjsI

به اشتراک بگذارید

دیدگاهتان را بنویسید

نشانی ایمیل شما منتشر نخواهد شد. بخش‌های موردنیاز علامت‌گذاری شده‌اند *

_ مطالب مرتبط _

استفاده از تشخیص چهره در بانکداری
هوش مصنوعی

مزایای استفاده از تشخیص چهره در بانکداری

یکی از جذاب‌ترین کاربردهای هوش مصنوعی که ظرفیت‌های بسیاری نیز دارد، پردازش تصویر می‌باشد. پردازش تصویر نیز دارای زیربخش‌های مختلفی است که تشخیص چهره یکی

درخواست شما با موفقیت ارسال شد.

ضمن تشکر بابت ارسال پیام، در سریع‌ترین زمان ممکن کارشناسان شرکت عامراندیش درخواست شما را بررسی خواهند نمود.