فناوری تبدیل گفتار به نوشتار برای کمکه به ناشنوایان و کمشنوایان ، کمک بزرگی به آنها در انجام بهتر کارهای روزمره خواهد کرد!
برای میلیونها نفر از افرادی که مشکل شنوایی دارند، پیشرفت گفتار به نوشتار توانایی آنها در انجام کارهای روزمرهشان را بهبود بخشیده است. اما این فناوری تا رسیدن به بلوغ کامل، هنوز راه طولانی در پیش دارد.
برای 11 میلیون نفر از ساکنان ایالات متحده که با مشکلات شنوایی دست به گریبانند یا به کل ناشنوایند، توسعه فناوری تشخیص گفتار هوش مصنوعی فقط به مانند اعتیاد به مواد مخدر نیست. این نشانه امیدواری به ابزاری است که در نهایت ممکن است به آنها در گذراندن راحتتر کارهای روزمرهشان کمک کند.
فناوریهایتشخیص گفتار خودکار (ASR) میتوانند شامل خدمات سادهای مانند رونویسی در مراکز تماس گرفته تا الگوریتمهای تطبیق افراد در برنامههای دوستیابی باشند. ولی با اینحال، بیشترین مورد استفاده از این فناوری، مربوط به کاربران ناشنوا یا کم شنواست و نسل جدید این فناوری در تلاش برای بهبود نرمافزارهایی است که بر مشکلات این گروه از افراد تمرکز دارد.
جاده فناوری گفتار به نوشتار برای ناشنوایان و کمشنوایان
برن الیوت (Bern Elliot)، معاون پژوهشی و تحلیلگر برجسته هوش مصنوعی و خدمات مشتری در گارتنر (Gartner) چنین گفت که اولین نسل فناوری گفتار مبتنی بر قانون از الگوریتمهای جداگانهای ساخته شده که دادههای پرونده WAV را به صدا تبدیل میکند، سپس این صداها و گفتار را به صورت متن نوشتاری نمایش میدهد. این فناوری گفتار مبتنی بر قانون، با تولید رونویسی، به مدلهای دستور زبان آماری یاد میدهند تا آن را به عنوان گفتار تشخیص دهند. اکنون از فناوری تبدیل گفتار به نوشتار برای کمک ناشنوایان و کمشنوایان، به صورت وسیعی در زیرنویس برنامهها و فیلمها در زمان واقعی به عنوان یک فناوری برتر، استفاده میگردد.
بیشتر الگوریتمهای STT یا تبدیل گفتار به نوشتار فعلی از شبکههای عصبی و مدلهای یادگیری ماشین برای ایجاد رونوشت استفاده میکنند. الیوت میگوید که: به عنوان مثال، STT مایکروسافت از دو مدل یادگیری ماشین استفاده میکند که موازی با هم کار میکنند؛ اولی زبان گفتاری را میگیرد و آن را به صورت متن ترجمه میکند و مدل دوم زبان نوشتاری را گرفته و آن را با صدایی که مردم میپسندند، با صدای بلند میخوانند. الیوت در ادامه چنین میگوید: هرکسی که در فرودگاه یا یک کافه محلی و درحال نگاه کردن به یک برنامه خبری باشد، با فناوری تبدیل گفتار به نوشتار برای کمک به ناشنوایان و کمشنوایان کاملا آشنا است.
پلتفرمهای تشخیص گفتار خودکار (ASR) غالبا در سطح جمله به صورت خودکار عمل کرده تا به الگوریتم یادگیری ماشین امکان ترکیب متن را دهند. زمانی ترجمه یا رونویسی در سطح واژه انجام شود، الگوریتم یادگیری ماشین برای تبدیل خروجی، واژه به واژه عمل میکنند؛ این مسئله مهم میتواند گاهی اوقات منجر به ایجاد یک جمله شکسته یا بیمعنا گردد. در سطح جمله، الگوریتمها شروع به ایجاد رونویسی واژه به واژه میکنند، سپس برای تشکیل یک جمله کامل، خود را دوباره تنظیم میکنند. برای این منظور، اغلب واژگان پیشین را پس از در نظر گرفتن بار معنایی کل جمله، تغییر میدهند. با توجه به گزارش گارتنر (Gartner)، از میان تمام فروشندگان برجسته STT، همه به جز یکی، از تبیدل در زمان واقعی در سطح جمله، واژه و یا هر دو استفاده میکنند.
برپایه سخنان برن الیوت (Bern Elliot): “وقتی این کار را در سطح واژه انجام میدهید، برخی از واژگان درست به شکلی نوشته میشوند که خوانده میشوند و برخی دیگر خیر. همچنین شکل تلفظی بسیاری از واژگان یکسان است در حالیکه بار معنایی و صورت نوشتاری متفاوتی با هم دارند. بنابراین تا زمانیکه متن کامل جمله را نداشته باشید حدس اینکه واژه مورد نظر کدام است، دشوار میباشد. در اینجا، الگوریتمهای تبدیل گفتار به نوشتار بهترین حدس ممکن را میزنند.” وی افزود که: “این بدان معناست که الگوریتم میداند که چه زمانی بیشتر وارد عمل شوند. بنابراین، واژه را با توجه به معنای کل جمله، تغییر میدهد.”
تشخیص خودکار گفتار (ASR) و عملکرد روزانه
فناوری تشخیص گفتار خودکار (ASR) و فناوریهای STT در بیشتر موردهای استفاده، کاملا متفاوتاند؛ اما با این حال بیشترین تعامل مصرفکنندگان با این فناوری اغلب مربوط به خدمات رونویسی آن است. برخی از آنها نتایج را بسیار سریع آماده میکنند و برخی دیگر ممکن است در عرض چند دقیقه متنی طولانی را رونویسی نمایند. برای دسترسی بهتر و بیشتر، STT که رونویسی را انجام میدهد باید تقریبا سریع و پرشتاب باشد.
مایکل کونلی (Michael Conley)، کارمند ناشنوا موزهای در سن دیگو (San Diego) که از فناوریهای STT مانند Innocaption (یک اپلیکیشن مخصوص زیرنویس موبایل مستقر در کالیفرنیا) استفاده میکند، چنین گفت که با استفاده از فناوری تبدیل گفتار به نوشتار (که میتواند در زمان واقعی، زیرنویس گفتار را برای وی نمایان سازد)، امکان انجام فعالیتهایی مانند پر کردن نسخهها، انجام مصاحبهها و تماسهای تلفنی طولانی مدت برای افراد دارای اختلالات شنوایی فراهم شده است.
وی در ادامه چنین گفت: “من با افراد زیادی صحبت کردهام و آنها نمیدانند که تماس تلفنی انجام شده به کمک هوش مصنوعی یا یک متخصص استنوگرافی انجام شده است. هیچ وقت شرایطی پیش نیامده که نیاز داشته باشم تا آشکار کنم که در حال استفاده از فناوری تشخیص گفتار (ASR) مبتنی بر هوش مصنوعی (AI) هستم.”
گرچه برای کونلی، امکان دسترسی به ابزارهای دسکتاپ دسترسی فراهم است، ولی تهیه نسخه یک اپلیکیشن موبایل از اولویتهای اصلی وی به شمار میآید. وی تجربه متفاوتی از نسخههای ابزارهای دسکتاپ که معمول هستند و اپلیکیشنهای تلفن همراه که نادرتر هستند، دارد. بسیاری از فناوریهای STT محدود به برخی از دستگاهها، اپلیکیشنها یا سیستمهای پردازش هستند. الیوت چنین گفت: “فناوری تبدیل گفتار به نوشتار برای کمک له ناشنوایان و کمشنوایان باید چند منظوره باشد. به این معنا که باید بتوان از آن در دستگاههای مختلف به صورت یکپارچه استفاده کرد. وی پیشبینی کرد که این تغییر ظرف پنج سال آینده حتمی است.”
محدودیتهای STT
یکی از موضوعات بزرگ در ایجاد و پیادهسازی فناوریهای STT، الگوریتمهای آموزشی است. الیوت گفت که مردم به شیوهای که مینویسند، سخن نمیگویند و برعکس. اصطلاحات محاورهای، استنتاجها، انعکاس صدا و تفاوتهای ظریف دیگری وجود دارد که معنی کلمه را تغییر میدهد. مدلهای آموزش دادههای نوشتاری برای خروجی گفتار، یا دادههای گفتار برای خروجی نوشتار، همیشه به درستی کار نمیکنند. پیچیدگیهای زبان انسان باید در مجموعه دادههای مورد استفاده برای آموزش الگوریتم یادگیری ماشین در فناوری تبدیل گفتار به نوشتار تعبیه گردد.
الیوت چنین ادامه داد که: “من فروشندگانی داشتهام که به من گفتهاند که پیشتر، شاهد نبرد الگوریتمها بودند. ولی امروزه، الگوریتمهای زیادی وجود دارند که منبع باز (open-source) هستند.” الیوت همچنین اضافه کرد که به سختی میتوان STT را از نقطه نظر یک توسعهدهنده درست کرد، به همین دلیل برنامههای مورد علاقه مشتریان دائما در حال تغییر است. الیوت در ادامه اینگونه خاطر نشان کرد که: “مدلهای STT، دادههای بسیار، قابلیتها و تواناییهای فنی زیادی مطلبند. به همین منظور، برای انجام آن، باید مهارتهای زیادی داشته باشید. با اینحال، این یک دانش دادههای آگاه (knowledeable data science) و یادگیری ماشین “توسعهدهنده” است زیرا اکنون بسیاری از الگوریتمها عمومیاند.”
محدودیت دیگر این است که توسعهدهندگان هنگام ساختن ابزار تبدیل گفتار به نوشتار برای ناشنوایان و کمشنوایان باید طرز تفکر کمی متفاوتی داشته باشند. کونلی خاطر نشان کرد که: “علیرغم این واقعیت که دانشمندان علم داده تمامی تلاش خود را معطوف ساخت مدلهای یادگیری ماشین با بالاترین دقت ممکن میکنند، برای کاربران نهایی، هر سطح از اتوماسیون رونویسی صدا مفید است. در مقایسه با دیگر فناوریهای هوش مصنوعی و یادگیری ماشین، STT برای کاربران ناشنوا در هر ظرفیتی مفید است. این بدان معناست که توسعهدهندگان باید بر تولید ابزارهای مفید تمرکز کنند، حتی اگر این ابزارها کامل نباشند.
دسترسی به فناوری تبدیل گفتار به نوشتار برای کمک به ناشنوایان و کمشنوایان در شرایط پاندمیک فعلی
اپلیکیشنهای تبدیل گفتار به نوشتار، دستگاهها و ابزارهای گفتار به نوشتار برای کارمندان ناشنوا یا کم شنوا یک مسئله اساسی (قابلیت دسترسی) را حل میکنند. این برنامهها، شامل تمامی مواردی است که در طیف معلولیت قرار میگیرند. بسیاری از شرکتها، گزینه دسترسی کاربران به یک مترجم زبان اشاره آمریکایی (ASL) فراهم میکنند.
اکنون با وجود ماندن بسیاری از افراد در خانه به دلیل محدودیتهای مداوم مربوط به کوید-19 و همچنین استفاده از ماسکهای صورت که مانع لبخوانی میشود، استفاده از فناوریهایی همچون تبدیل گفتار به نوشتار برای کمک به ناشنوایان و کمشنوایان به منظور کمک به انجام کارهای روزمره آنها، روند تصاعدی داشته است.
گارتنر (Gartner) پیشبینی کرده است که تبدیل گفتار به نوشتار و تولید خودکار زبان طبیعی (NLG) در طی 10 سال آینده ادامه خواهد یافت. الیوت همچنین شاهد روند افزایشی الگوریتمها و مدلهای منبع باز است زیرا غولهای فناوری مانند آزمایشگاه هوش مصنوعی مایکروسافت و گوگل، مدلهای خود را برای جذب استعدادهای جدید، پژوهشگران و دانشجویان باز نگاه میدارند.
4 پاسخ
سلام.ممنون میشم بگید چه نرم افزاری در حال حاضر برای افراد کم شنوا وجود داره که بتونه گفتار را تبدیل به کلمات بکنه وبه زبان فارسی رو بنویسه
سلام، میتونید از سایت فارس آوا به آدرس farsava.amerandish.com برای تبدیل صدا به متن کمک بگیرید.
تبدیل گفتار به نوشتار کمک زیادی به من می کنه چون شنواییمو از دست دادم
سلام
خوشحالیم از اینکه فارس آوا توانسته به شما کمک کنه.