خانه » تشخیص صدا برای اختلالات گفتاری و پیشرفت چشم‌گیر گوگل در این فناوری

تشخیص صدا برای اختلالات گفتاری و پیشرفت چشم‌گیر گوگل در این فناوری

تشخیص صدا برای اختلالات گفتاری تحت پروژه یوفونیا (Euphonia) توسط گوگل طراحی شده است که ویژه افراد معلول و ناتوان در بیان صحیح آواها، هجاها و واژگان است. با عامر اندیش تا انتها همراه باشید تا در مورد آخرین دستاورد بزرگ گوگل در فناوری تشخیص گفتار خودکار (Automatic Speech Recognition (ASR)) بیشتر بدانید.

بهبود فناوری تشخیص صدا برای اختلالات گفتاری

سیستم‌های تشخیص گفتار خودکار (ASR) در چند سال اخیر با پیشرفت چشم‌گیری روبه‌رو بوده است. سیستم‌های ASR بیشتر برای گفتار معمول طراحی و تولید شده است. این بدان معناست که افرادی که توانایی صحبت همانند افراد معمولی جامعه نیست، قادر به استفاده از این فناوری نیستند.

در این جا قصد داریم از پیشرفت فناوری ASR برای تشخیص صدا برای اختلالات گفتاری پرده‌برداری کنیم. این فناوری جدید با تمرکز بر دو گفتار غیراستاندارد طراحی شده است: افرادی که مبتلا به ALS هستند و همچنین افرادی که لهجه‌های سنگین دارند. (ALS نوعی بیماری پیش‌رونده و غیرقابل ترمیم است که به تدریج تمامی عضلات و ماهیچه‌های شخص مبتلا را از کار می‌اندازد).

خبر خوب این است که این تشخیص صدا برای اختلالات گفتاری ، توسط گوگل و تحت پروژه‌ای موفقیت‌آمیزی با نام یوفونیا (Euphonia) انجام رسیده است.

تشخیص گفتار خودکار (automatic speech recognition) یا به اختصار ASR برای افراد معمولی تولید و طراحی شده است. این بدان معناست که گروه‌هایی دارای لهجه‌های سنگین و یا دارای اختلال در گفتار از استفاده از این فناوری محروم‌اند. در مدل پیشرفته ASR (یوفونیا) میزان خطای واژگانی متوسط اشخاص (Word Error Rate (WER)) که از بیماری‌هایی همچون ALS در رنج‌اند، به راحتی تشخیص داده می‌شود.

در زیر ویدیویی جالبی از چگونگی عملکرد فناوری تتشخیص صدا برای اختلالات گفتاری تحت سیستمی با نام پاروترن (Parrotron) توسط یکی از محققان گوگل، دیمیتری کانوسکی (Euphonia) آورده شده که خود مشکل اختلال در گفتار دارد. در این ویدیو خواهید دید که چگونه صحبت‌های وی برای دستیار گوگل (Google Assistant) قابل درک می‌شود.

میزان پیشرفت تشخیص صدا برای اختلالات گفتاری

این مدل، به میزان 35% تا 62% بهبود در عملکرد تشخیص صحیح خطای واژگان (word error rate) در دو گروه نام برده شده در بالا را داشته است. آزمایش‌ها حاکی از آن است که مدل جدید گوگل بهبودی حدود 10% برای گفتارهای ناواضح معتدل و 20% برای گفتارهای بسیار ناواضح در مورد پیام‌های بانکی داشته است.

این گام، اولین گام به سوی مدل‌های پیشرفته ASR برای گفتارهای ناواضح است.

جمع‌بندی کلی

همان‌طور که محققان تاکید کرده‌اند، بخشی از مساله به آموزش سیستم‌های تشخیص صدا برای اختلالات گفتاری بازمی‌گردد. زیرا این سیستم‌ها برای اکثریت افراد جامعه که مشکلات خاصی در گفتار ندارند، تهیه شده است. این بدان معناست که افراد با لهجه‌های سنگین شاید نتوانند به خوبی از این فناوری استفاده کنند.

محققان برای پیشرفت در سیستم تشخیص گفتار (ASR) بیش از ده‌ها ساعت صدای افراد مبتلا به ALS را ضبط کردند تا به بهبود هوش مصنوعی کمک کرده باشند. با این حال، پر واضح است که نتیجه برای هر شخصی مبتلا به ALS ایده‌ال نخواهد بود. زیرا صدای این افراد منحصر به فرد است و البته پیشرفت بیماری و تاثیرات آن در افراد گوناگون مختلف است.

گوگل توانسته است با استفاده از مبانی اولیه مدل‌های تشخیص گفتار و اعمال برخی ترفندها و آموزش‌ها با ضبط‌های جدید، میزان خطای واژگانی (word error rate) را تا حد زیادی کاهش دهد.

این روش به میزان قابل توجهی موجب بهبود تشخیص صدا برای اختلالات گفتاری شده است. محققان متوجه‌ شده‌اند که گاها تلفظ سخت برخی واج‌ها به صورت یکی از دو راه زیر است:

واج یا آوایی به درستی تشخیص داده نمی‌شود، بنابراین پر واضح است اگر کلمه‌ای که به دنبال آن لحاظ می‌گردد نیز تشخیص داده نشود.
مدل خود باید حدس بزند واج یا آوا منتشر شده توسط بلندگو چیست.

در مورد مشکل دوم می‌توان گفت که همانند جواب 2 ضرب در 2، برای حل کردن بسیار بدیهی است. با آنالیز و تجزیه و تحلیل باقی جمله محتوا، هوش مصنوعی در بیشتر موارد قادر به تشخیص واج یا آوای صحیح است. برای مثال، اگر هوش مصنوعی شنیده باشد:” I am reading off the cub” (من در حال مطالعه توله (نوزاد حیوان) هستم)؛ احتمالا قصد کاربر این عبارت بوده است: “I am heading off to the pub” (من در حال رفتن به بار (میخانه) هستم)

4/5 - (1 امتیاز)

لینک کوتاه شده : https://amerandish.com/sFjsI

تشخیص گفتار, گوگل, هوش مصنوعی

به اشتراک بگذارید

دیدگاهتان را بنویسید لغو پاسخ

_ مطالب مرتبط _

پردازش تصویر

قوانین تکنولوژی تشخیص چهره در استرالیا

فناوری تشخیص چهره به طور فزاینده‌ای در سراسر استرالیا استفاده می‌شود. گفته می شود که کوئینزلند و استرالیا غربی در حال حاضر در دوربین‌های مدار

11 مرداد 1399 بدون دیدگاه

مقالات

بهترین نرم افزار ویرایش فایل صوتی برای کامپیوتر | ویندوز، مک، لینوکس

نرم افزارهای زیادی برای ویرایش فایل‌های صوتی وجود دارد که به شما این امکان را می‌دهند تا چندین فایل صوتی را با هم ادغام کنید

19 فروردین 1402 1 دیدگاه

اخبار هوش مصنوعی

هوش مصنوعی که به تماس‌های مراکز پشتیبان گوش می‌دهد!

شرکت‌ها در حال استفاده از نرم افزاری برای تجزیه و تحلیل مراحل رشد و ارائه توصیه‌هایی در این راستا هستند. فرصتی به نام اپیدمی

18 آبان 1399 بدون دیدگاه

تبدیل گفتار به متن

چت بات سازمانی

مرکز تماس هوشمند

تشخیص صدا برای اختلالات گفتاری و پیشرفت چشم‌گیر گوگل در این فناوری

بهبود فناوری تشخیص صدا برای اختلالات گفتاری

میزان پیشرفت تشخیص صدا برای اختلالات گفتاری