خانه » تشخیص صدا برای اختلالات گفتاری و پیشرفت چشم‌گیر گوگل در این فناوری

تشخیص صدا برای اختلالات گفتاری و پیشرفت چشم‌گیر گوگل در این فناوری

تشخیص صدا برای اختلالات گفتاری تحت پروژه یوفونیا (Euphonia) توسط گوگل طراحی شده است که ویژه افراد معلول و ناتوان در بیان صحیح آواها، هجاها و واژگان است. با عامر اندیش تا انتها همراه باشید تا در مورد آخرین دستاورد بزرگ گوگل در فناوری تشخیص گفتار خودکار (Automatic Speech Recognition (ASR)) بیشتر بدانید.

بهبود فناوری تشخیص صدا برای اختلالات گفتاری

سیستم‌های تشخیص گفتار خودکار (ASR) در چند سال اخیر با پیشرفت چشم‌گیری روبه‌رو بوده است. سیستم‌های ASR بیشتر برای گفتار معمول طراحی و تولید شده است. این بدان معناست که افرادی که توانایی صحبت همانند افراد معمولی جامعه نیست، قادر به استفاده از این فناوری نیستند.

در این جا قصد داریم از پیشرفت فناوری ASR برای تشخیص صدا برای اختلالات گفتاری پرده‌برداری کنیم. این فناوری جدید با تمرکز بر دو گفتار غیراستاندارد طراحی شده است: افرادی که مبتلا به ALS هستند و همچنین افرادی که لهجه‌های سنگین دارند. (ALS نوعی بیماری پیش‌رونده و غیرقابل ترمیم است که به تدریج تمامی عضلات و ماهیچه‌های شخص مبتلا را از کار می‌اندازد).

خبر خوب این است که این تشخیص صدا برای اختلالات گفتاری ، توسط گوگل و تحت پروژه‌ای موفقیت‌آمیزی با نام یوفونیا (Euphonia) انجام رسیده است.

تشخیص گفتار خودکار (automatic speech recognition) یا به اختصار ASR برای افراد معمولی تولید و طراحی شده است. این بدان معناست که گروه‌هایی دارای لهجه‌های سنگین و یا دارای اختلال در گفتار از استفاده از این فناوری محروم‌اند. در مدل پیشرفته ASR (یوفونیا) میزان خطای واژگانی متوسط اشخاص (Word Error Rate (WER)) که از بیماری‌هایی همچون ALS در رنج‌اند، به راحتی تشخیص داده می‌شود.

در زیر ویدیویی جالبی از چگونگی عملکرد فناوری تتشخیص صدا برای اختلالات گفتاری تحت سیستمی با نام پاروترن (Parrotron) توسط یکی از محققان گوگل، دیمیتری کانوسکی (Euphonia) آورده شده که خود مشکل اختلال در گفتار دارد. در این ویدیو خواهید دید که چگونه صحبت‌های وی برای دستیار گوگل (Google Assistant) قابل درک می‌شود.

میزان پیشرفت تشخیص صدا برای اختلالات گفتاری

این مدل، به میزان 35% تا 62% بهبود در عملکرد تشخیص صحیح خطای واژگان (word error rate) در دو گروه نام برده شده در بالا را داشته است. آزمایش‌ها حاکی از آن است که مدل جدید گوگل بهبودی حدود 10% برای گفتارهای ناواضح معتدل و 20% برای گفتارهای بسیار ناواضح در مورد پیام‌های بانکی داشته است.

این گام، اولین گام به سوی مدل‌های پیشرفته ASR برای گفتارهای ناواضح است.

جمع‌بندی کلی

همان‌طور که محققان تاکید کرده‌اند، بخشی از مساله به آموزش سیستم‌های تشخیص صدا برای اختلالات گفتاری بازمی‌گردد. زیرا این سیستم‌ها برای اکثریت افراد جامعه که مشکلات خاصی در گفتار ندارند، تهیه شده است. این بدان معناست که افراد با لهجه‌های سنگین شاید نتوانند به خوبی از این فناوری استفاده کنند.

محققان برای پیشرفت در سیستم تشخیص گفتار (ASR) بیش از ده‌ها ساعت صدای افراد مبتلا به ALS را ضبط کردند تا به بهبود هوش مصنوعی کمک کرده باشند. با این حال، پر واضح است که نتیجه برای هر شخصی مبتلا به ALS ایده‌ال نخواهد بود. زیرا صدای این افراد منحصر به فرد است و البته پیشرفت بیماری و تاثیرات آن در افراد گوناگون مختلف است.

گوگل توانسته است با استفاده از مبانی اولیه مدل‌های تشخیص گفتار و اعمال برخی ترفندها و آموزش‌ها با ضبط‌های جدید، میزان خطای واژگانی (word error rate) را تا حد زیادی کاهش دهد.

این روش به میزان قابل توجهی موجب بهبود تشخیص صدا برای اختلالات گفتاری شده است. محققان متوجه‌ شده‌اند که گاها تلفظ سخت برخی واج‌ها به صورت یکی از دو راه زیر است:

واج یا آوایی به درستی تشخیص داده نمی‌شود، بنابراین پر واضح است اگر کلمه‌ای که به دنبال آن لحاظ می‌گردد نیز تشخیص داده نشود.
مدل خود باید حدس بزند واج یا آوا منتشر شده توسط بلندگو چیست.

در مورد مشکل دوم می‌توان گفت که همانند جواب 2 ضرب در 2، برای حل کردن بسیار بدیهی است. با آنالیز و تجزیه و تحلیل باقی جمله محتوا، هوش مصنوعی در بیشتر موارد قادر به تشخیص واج یا آوای صحیح است. برای مثال، اگر هوش مصنوعی شنیده باشد:” I am reading off the cub” (من در حال مطالعه توله (نوزاد حیوان) هستم)؛ احتمالا قصد کاربر این عبارت بوده است: “I am heading off to the pub” (من در حال رفتن به بار (میخانه) هستم)

4/5 - (1 امتیاز)

لینک کوتاه شده : https://amerandish.com/sFjsI

تشخیص گفتار, گوگل, هوش مصنوعی

به اشتراک بگذارید

دیدگاهتان را بنویسید لغو پاسخ

_ مطالب مرتبط _

دسته بندی نشده

کاربردهای پردازش ویدیو به کمک هوش مصنوعی

در چند سال گذشته، پردازش ویدیو، که به عنوان تحلیل محتوای ویدیو یا تحلیل ویدئویی هوشمند شناخته می شود، هم از نظر صنعتی و هم

28 مرداد 1399 بدون دیدگاه

مقالات

پاسخ به سوالات متداول (FAQ) به کمک چت بات

سوالات متداول یا Frequently Asked Questions به سوالات پر تکراری گفته می‌شود که مشتریان مختلف در مورد محصول یا خدمات از شما می‌پرسند. برخی از

06 تیر 1400 بدون دیدگاه

هوش مصنوعی

از پاسخگوی هوشمند تلفنی در چه جاهایی می توان استفاده کرد؟

هوش مصنوعی با راهکارهایی که به وجود آورده است، فرآیندهای بسیاری از کسب و کارها را تغییر داده است. فرآیندهای کسب و کارها دیگر به

24 تیر 1399 بدون دیدگاه

تبدیل گفتار به متن

چت بات سازمانی

مرکز تماس هوشمند

تشخیص صدا برای اختلالات گفتاری و پیشرفت چشم‌گیر گوگل در این فناوری

بهبود فناوری تشخیص صدا برای اختلالات گفتاری

میزان پیشرفت تشخیص صدا برای اختلالات گفتاری

جمع‌بندی کلی

دیدگاهتان را بنویسید لغو پاسخ

_ مطالب مرتبط _

کاربردهای پردازش ویدیو به کمک هوش مصنوعی

پاسخ به سوالات متداول (FAQ) به کمک چت بات

از پاسخگوی هوشمند تلفنی در چه جاهایی می توان استفاده کرد؟

تبدیل گفتار به متن

چت بات سازمانی

مرکز تماس هوشمند

تشخیص صدا برای اختلالات گفتاری و پیشرفت چشم‌گیر گوگل در این فناوری

بهبود فناوری تشخیص صدا برای اختلالات گفتاری

میزان پیشرفت تشخیص صدا برای اختلالات گفتاری

جمع‌بندی کلی

دیدگاهتان را بنویسید لغو پاسخ

_ مطالب مرتبط _

کاربردهای پردازش ویدیو به کمک هوش مصنوعی

پاسخ به سوالات متداول (FAQ) به کمک چت بات

از پاسخگوی هوشمند تلفنی در چه جاهایی می توان استفاده کرد؟

درخواست شما با موفقیت ارسال شد.