فناوری تبدیل گفتار به نوشتار برای کمک به ناشنوایان و کم‌شنوایان

 

فناوری گفتار به نوشتار برای ناشنوایان و کم‌شنوایان

فناوری تبدیل گفتار به نوشتار برای کمکه به ناشنوایان و کم‌شنوایان ، کمک بزرگی به آن‌ها در انجام بهتر کارهای روزمره خواهد کرد!

برای میلیون‌ها نفر از افرادی که مشکل شنوایی دارند، پیشرفت گفتار به نوشتار توانایی آن‌ها در انجام کارهای روزمره‌شان را بهبود بخشیده است. اما این فناوری تا رسیدن به بلوغ کامل، هنوز راه طولانی در پیش دارد.

برای 11 میلیون نفر از ساکنان ایالات متحده که با مشکلات شنوایی دست‌ به گریبانند یا به کل ناشنوایند، توسعه فناوری تشخیص گفتار هوش مصنوعی فقط به مانند اعتیاد به مواد مخدر نیست. این نشانه امیدواری به ابزاری است که در نهایت ممکن است به آن‎ها در گذراندن راحت‌تر کارهای روزمره‌شان کمک کند.

فناوری‎هایتشخیص گفتار خودکار (ASR) می‎توانند شامل خدمات ساده‌ای مانند رونویسی در مراکز تماس گرفته تا الگوریتم‎های تطبیق افراد در برنامه‎های دوست‌یابی باشند. ولی با این‌حال، بیشترین مورد استفاده از این فناوری، مربوط به کاربران ناشنوا یا کم شنواست و نسل جدید این فناوری در تلاش برای بهبود نرم‌افزارهایی است که بر مشکلات این گروه از افراد تمرکز دارد.

جاده فناوری گفتار به نوشتار برای ناشنوایان و کم‌شنوایان

برن الیوت (Bern Elliot)، معاون پژوهشی و تحلیلگر برجسته هوش مصنوعی و خدمات مشتری در گارتنر (Gartner) چنین گفت که اولین نسل فناوری گفتار مبتنی بر قانون از الگوریتم‌های جداگانه‎ای ساخته شده که داده‎های پرونده WAV را به صدا تبدیل می‎کند، سپس این صداها و گفتار را به صورت متن نوشتاری نمایش می‌دهد. این فناوری گفتار مبتنی بر قانون، با تولید رونویسی، به مدل‌های دستور زبان آماری یاد می‌دهند تا آن را به عنوان گفتار تشخیص دهند. اکنون از فناوری تبدیل گفتار به نوشتار برای کمک ناشنوایان و کم‌شنوایان، به صورت وسیعی در زیرنویس برنامه‌ها و فیلم‌ها در زمان واقعی به عنوان یک فناوری برتر، استفاده می‌گردد.

بیشتر الگوریتم‌های STT یا تبدیل گفتار به نوشتار فعلی از شبکه‌های عصبی و مدل‌های یادگیری ماشین برای ایجاد رونوشت استفاده می‎کنند. الیوت می‌گوید که: به عنوان مثال، STT مایکروسافت از دو مدل یادگیری ماشین استفاده می‎کند که موازی با هم کار می‎کنند؛ اولی زبان گفتاری را می‎گیرد و آن را به صورت متن ترجمه می‎کند و مدل دوم زبان نوشتاری را گرفته و آن را با صدایی که مردم می‌پسندند، با صدای بلند می‌خوانند. الیوت در ادامه چنین می‌گوید: هرکسی که در فرودگاه یا یک کافه محلی و درحال نگاه کردن به یک برنامه خبری باشد، با فناوری تبدیل گفتار به نوشتار برای کمک به ناشنوایان و کم‌شنوایان کاملا آشنا است.

پلتفرم‌های تشخیص گفتار خودکار (ASR) غالبا در سطح جمله به صورت خودکار عمل کرده تا به الگوریتم یادگیری ماشین امکان ترکیب متن را دهند. زمانی ترجمه یا رونویسی در سطح واژه انجام شود، الگوریتم یادگیری ماشین برای تبدیل خروجی، واژه به واژه عمل می‌کنند؛ این مسئله مهم می‌تواند گاهی اوقات منجر به ایجاد یک جمله شکسته یا بی‌معنا گردد. در سطح جمله، الگوریتم‌ها شروع به ایجاد رونویسی واژه به واژه می‎کنند، سپس برای تشکیل یک جمله کامل، خود را دوباره تنظیم می‎کنند. برای این منظور، اغلب واژگان پیشین را پس از در نظر گرفتن بار معنایی کل جمله، تغییر می‌دهند. با توجه به گزارش گارتنر (Gartner)، از میان تمام فروشندگان برجسته STT، همه به جز یکی، از تبیدل در زمان واقعی در سطح جمله، واژه و یا هر دو استفاده می‌کنند.

برپایه سخنان برن الیوت (Bern Elliot): “وقتی این کار را در سطح واژه انجام می‎دهید، برخی از واژگان درست به شکلی نوشته می‌شوند که خوانده می‌شوند و برخی دیگر خیر. همچنین شکل تلفظی بسیاری از واژگان یکسان است در حالی‎که بار معنایی و صورت نوشتاری متفاوتی با هم دارند. بنابراین تا زمانی‌که متن کامل جمله را نداشته باشید حدس این‌که واژه مورد نظر کدام است، دشوار می‌باشد. در این‌جا، الگوریتم‌های تبدیل گفتار به نوشتار بهترین حدس ممکن را می‎زنند.” وی افزود که: “این بدان معناست که الگوریتم می‎داند که چه زمانی بیشتر وارد عمل شوند. بنابراین، واژه را با توجه به معنای کل جمله، تغییر می‌دهد.”

تشخیص خودکار گفتار (ASR) و عملکرد روزانه

فناوری تشخیص گفتار خودکار (ASR) و فناوری‎های STT در بیشتر موردهای استفاده، کاملا متفاوت‌اند؛ اما با این حال بیشترین تعامل مصرف‎کنندگان با این فناوری اغلب مربوط به خدمات رونویسی آن است. برخی از آن‌ها نتایج را بسیار سریع آماده می‌کنند و برخی دیگر ممکن است در عرض چند دقیقه متنی طولانی را رونویسی نمایند. برای دسترسی بهتر و بیشتر، STT که رونویسی را انجام می‌دهد باید تقریبا سریع و پرشتاب باشد.

مایکل کونلی (Michael Conley)، کارمند ناشنوا موزه‌ای در سن دیگو (San Diego) که از فناوری‎های STT مانند Innocaption (یک اپلیکیشن مخصوص زیرنویس موبایل مستقر در کالیفرنیا) استفاده می‎کند، چنین گفت که با استفاده از فناوری تبدیل گفتار به نوشتار (که می‌تواند در زمان واقعی، زیرنویس گفتار را برای وی نمایان سازد)، امکان انجام فعالیت‎هایی مانند پر کردن نسخه‎ها، انجام مصاحبه‎ها و تماس‎های تلفنی طولانی مدت برای افراد دارای اختلالات شنوایی فراهم شده است.

وی در ادامه چنین گفت: “من با افراد زیادی صحبت کرده‎ام و آن‎ها نمی‎دانند که تماس تلفنی انجام شده به کمک هوش مصنوعی یا یک متخصص استنوگرافی انجام شده است. هیچ وقت شرایطی پیش نیامده که نیاز داشته باشم تا آشکار کنم که در حال استفاده از فناوری تشخیص گفتار (ASR) مبتنی بر هوش مصنوعی (AI) هستم.”

گرچه برای کونلی، امکان دسترسی به ابزارهای دسکتاپ دسترسی فراهم است، ولی تهیه نسخه یک اپلیکیشن موبایل از اولویت‎های اصلی وی به شمار می‌آید. وی تجربه متفاوتی از نسخه‌های ابزارهای دسکتاپ که معمول هستند و اپلیکیشن‌های تلفن همراه که نادرتر هستند، دارد. بسیاری از فناوری‎های STT محدود به برخی از دستگاه‌ها، اپلیکیشن‌ها یا سیستم‎های پردازش هستند. الیوت چنین گفت: “فناوری تبدیل گفتار به نوشتار برای کمک له  ناشنوایان و کم‌شنوایان باید چند منظوره باشد. به این معنا که باید بتوان از آن در دستگاه‎های مختلف به صورت یکپارچه استفاده کرد. وی پیش‎بینی کرد که این تغییر ظرف پنج سال آینده حتمی است.”

محدودیت‎های STT

یکی از موضوعات بزرگ در ایجاد و پیاده‎سازی فناوری‎های STT، الگوریتم‎های آموزشی است. الیوت گفت که مردم به شیوه‌ای که می‌نویسند، سخن نمی‌گویند و برعکس. اصطلاحات محاوره‌ای، استنتاج‌ها، انعکاس صدا و تفاوت‌های ظریف دیگری وجود دارد که معنی کلمه را تغییر می‎دهد. مدل‎های آموزش داده‎های نوشتاری برای خروجی گفتار، یا داده‎های گفتار برای خروجی نوشتار، همیشه به درستی کار نمی‎کنند. پیچیدگی‎های زبان انسان باید در مجموعه داده‎های مورد استفاده برای آموزش الگوریتم یادگیری ماشین در فناوری تبدیل گفتار به نوشتار تعبیه گردد.

الیوت چنین ادامه داد که: “من فروشندگانی داشته‌ام که به من گفته‌اند که پیش‌تر، شاهد نبرد الگوریتم‌ها بودند. ولی امروزه، الگوریتم‎های زیادی وجود دارند که منبع باز (open-source) هستند.” الیوت همچنین اضافه کرد که به سختی می‎توان STT را از نقطه نظر یک توسعه‎دهنده درست کرد، به همین دلیل برنامه‎های مورد علاقه مشتریان دائما در حال تغییر است. الیوت در ادامه این‌گونه خاطر نشان کرد که: “مدل‎های STT، داده‌های بسیار، قابلیت‎ها و توانایی‎های فنی زیادی مطلبند. به همین منظور، برای انجام آن، باید مهارت‌های زیادی داشته باشید. با این‎حال، این یک دانش داده‌های آگاه (knowledeable data science) و یادگیری ماشین “توسعه‎دهنده” است زیرا اکنون بسیاری از الگوریتم‎ها عمومی‎اند.”

محدودیت دیگر این است که توسعه‎دهندگان هنگام ساختن ابزار تبدیل گفتار به نوشتار برای ناشنوایان و کم‌شنوایان باید طرز تفکر کمی متفاوتی داشته باشند. کونلی خاطر نشان کرد که: “علی‎رغم این واقعیت که دانشمندان علم داده تمامی تلاش خود را معطوف ساخت مدل‎های یادگیری ماشین با بالاترین دقت ممکن می‌کنند، برای کاربران نهایی، هر سطح از اتوماسیون رونویسی صدا مفید است. در مقایسه با دیگر فناوری‎های هوش مصنوعی و یادگیری ماشین، STT برای کاربران ناشنوا در هر ظرفیتی مفید است. این بدان معناست که توسعه‌دهندگان باید بر تولید ابزارهای مفید تمرکز کنند، حتی اگر این ابزارها کامل نباشند.

دسترسی به فناوری تبدیل گفتار به نوشتار برای کمک به ناشنوایان و کم‌شنوایان در شرایط پاندمیک فعلی

اپلیکیشن‌های تبدیل گفتار به نوشتار، دستگاه‎ها و ابزارهای گفتار به نوشتار برای کارمندان ناشنوا یا کم شنوا یک مسئله اساسی (قابلیت دسترسی) را حل می‌کنند. این برنامه‌ها، شامل تمامی مواردی است که در طیف معلولیت قرار می‌گیرند. بسیاری از شرکت‌ها، گزینه دسترسی کاربران به یک مترجم زبان اشاره آمریکایی (ASL) فراهم می‌کنند.

اکنون با وجود ماندن بسیاری از افراد در خانه به دلیل محدودیت‎های مداوم مربوط به کوید-19 و همچنین استفاده از ماسک‌های صورت که مانع لب‎خوانی می‎شود، استفاده از فناوری‌هایی همچون تبدیل گفتار به نوشتار برای کمک به ناشنوایان و کم‌شنوایان به منظور کمک به انجام کارهای روزمره آن‌ها، روند تصاعدی داشته است.

گارتنر (Gartner) پیش‌بینی کرده است که تبدیل گفتار به نوشتار و تولید خودکار زبان طبیعی (NLG) در طی 10 سال آینده ادامه خواهد یافت. الیوت همچنین شاهد روند افزایشی الگوریتم‌ها و مدل‌های منبع باز است زیرا غول‌های فناوری مانند آزمایشگاه هوش مصنوعی مایکروسافت و گوگل، مدل‌های خود را برای جذب استعدادهای جدید، پژوهشگران و دانشجویان باز نگاه می‌دارند.

 

 

 

4.5/5 - (2 امتیاز)
لینک کوتاه شده : https://amerandish.com/ihWhI

به اشتراک بگذارید

2 پاسخ

  1. تبدیل گفتار به نوشتار کمک زیادی به من می کنه چون شنواییمو از دست دادم

دیدگاهتان را بنویسید

نشانی ایمیل شما منتشر نخواهد شد. بخش‌های موردنیاز علامت‌گذاری شده‌اند *

فارس آوا

تبدیل گفتار به متن

باتاوا

دستیارسازمانی - چت بات

هوشتل

اپراتورهوشمند مرکز تماس

_ مطالب مرتبط _

گفتار به نوشتار گوگل کلود
اخبار هوش مصنوعی

گفتار گوگل کلود (رونوشت‌های ماشینی) در برابر زیرنویس‌های انسانی برای اخبار تلویزیونی

اکثر ایستگاه‌های تلویزیونی برای تولید زیرنویس برای پخش مستقیم برنامه خود، همچنان به منابع انسانی اعتماد می‌کنند. حتی با وجود سودمندی و مزایای تسلط انسان،