گفتار گوگل کلود (رونوشت‌های ماشینی) در برابر زیرنویس‌های انسانی برای اخبار تلویزیونی

اکثر ایستگاه‌های تلویزیونی برای تولید زیرنویس برای پخش مستقیم برنامه خود، همچنان به منابع انسانی اعتماد می‌کنند. حتی با وجود سودمندی و مزایای تسلط انسان، زیرنویس‌ها می‌توانند در یک پخش از نقطه نظر کیفیت بسیار متفاوت باشد، این تفاوت‌ها از یک بازگردانی بی‌عیب‌ونقص و کامل تا یک ترجمه و بازگردانی شکسته و نامفهوم متغیر است. حتی در بهترین زیرنویس‌های انسانی، اغلب برخی از واژگان به دلیل گفتار سریع، غلط املایی یا طولانی بودن جا انداخته می‌شوند. در همین زمان، تشخیص گفتار خودکار به سختی برای دستیابی به دقت کافی تلاش کرده تا کاملا جایگزین نیروهای انسانی شود. چگونه ایستگاه‌های تولیدکننده زیرنویس (با کمک عامل انسانی) اخبار تلویزیونی از اینترنت (بایگانی اخبار تلویزیونی در اینترنت)‌، زیرنویس بسته شده در خبر را با رونوشت‌های ماشینی، API گفتار به نوشتار گوگل کلود (Google’s Cloud Speech-to-text) مقایسه می‌کنند؟ به عبارت دیگر، در ادامه زیرنویس‌های انسانی را با رونوشت‌های ماشینی مقایسه خواهیم کرد. با عامراندیش همراه باشید تا با نتایج این مقایسه و تحقیق ارزشمند آشنا شوید.

مقایسه زیرنویس انسانی با رونوشت‌های ماشینی 

زیرنویس خودکار با کیفیت بالا از فیلم زنده نشان‌دهنده یکی از مهم‌ترین موارد تشخیص گفتار ماشینی است. در حالی که سیستم‌های رونویسی ماشینی طی سال‌های گذشته به طرز چشمگیری بهبود یافته‌اند، اما هنوز در مقایسه با زیرنویس‌های تولید شده توسط انسان یک فاصله قابل‌توجهی دارند که باعث می‌شود از رونوشت‌های انسانی عقب‌تر ایستند. این پرسش در اینجا مطرح است که آیا آخرین نسل از مدل‌های تشخیص گفتار بهینه شده برای زیرنویس‌های‌ ویدیویی، می‌توانند سرانجام به تسلطی نزدیک به انسان دست پیدا کنند؟

API گفتار به نوشتار گوگل کلود، مدل‌های مختلف تشخیص گفتار را ارائه می‌دهد که یکی از آن‌ها، تنها برای رونویس‌های ویدیویی تنظیم شده اشت. پرسشی که در اینجا ممکن است ذهن شما را به خود مشغول کند این است که چگونه این API قادر است تا در فضای پر هرج‌ومرج اخبار تلویزیونی عملکردی بالایی داشته باشد، به‌طوری‌که از خواندن اخبار استادیو به صحنه گزارش‌ها رفته و از آنجا به سوی پنل‌های یک میزگردی رود که متخصصان در آنجا مشغول صحبت با یکدیگرند و از این پنل به سوی تبلغاتی حرکت کند که روند گفتاری آنان بسیار سریع است.

زیرنویس‌های انسانی با رونوشت‌های ماشینی (گفتار به نوشتار گوگل کلود) چه قدر تفاوت دارند؟

برای کشف این مسئله مهم، زیرنویس‌های ایستگاه‌های مهم خبری مانند CNN، MSNBC، Fox News، پخش‌های صبحگانه و عصرگانه کانال‌های وابسته سان‌فرانسیسکو مانند KGO (ABC)، KPIX (CBS)، KNTV (NBC) و KQED (PBS) از 15 تا 22 آپریل 2019 (جمعا نزدیک 812 ساعت اخبار تلویزیونی) را در نظر گیرید که تمامی ویژگی‌های متفاوت این رونویسی‌ها توسط رونوشت API گفتار به نوشتار گوگل کلود آنالیز و تجزیه‌وتحلیل شده است.

برای درک تاثیر زیرنویس‌های انسانی بر نتیجه متن آنالیز ماشینی،  هر دو زیرنویس انسانی و رونوشت ماشینی را از طریق API زبان طبیعی گوگل برای استخراج موجودیت، پردازش شدند.

API زبان طبیعی گوگل در هر 6.97 ثانیه در رونویس‌های خودکار، یک وجودیت را تشخیص داد ولی در زیرنویس‌های انسانی تنها در 11.63 ثانیه موفق به تشخیص یک وجودیت گردید.

گراف زیر، متوسط شمار ثانیه‌ها در هر موجودیت در هر 7 ایستگاه بین رونوشت‌های خودکار و زیرنویس‌های انسانی مقایسه کرده است:

ثانیه های متوسط ​​به ازای هر موجودیت بین گفتار به نوشتار گوگل و زیرنویس انسانی
ثانیه های متوسط ​​به ازای هر موجودیت بین گفتار به نوشتار گوگل و زیرنویس انسانی

بلافاصله مشخص شد که رونویس‌های خودکار (گفتار به نوشتار گوگل کلود) به صورت پایدار چگالی و تراکم بیشتری از موجودیت‌های تشخیصی در مقایسه با زیرنویس‌های انسانی تولید می‌کنند. این تراکم از 1.4 برابر بیشتر برای Fox News تا 2.2 برابر بیشتر برای PBS متفاوت است.

به نظر می‌رسد که دلیل اصلی چنین موضوعی آن باشد که رونوشت‌های ماشینی از حروف بزرگ به صورت صحیح‌تری استفاده کرده‌اند ولی رونویس‌های انسانی این موضوع را رعایت نکرده‌اند. API زبان طبیعی گوگل (Google Natual language API) برای شناسایی و تشخیص موجودیت‌ها و مرزهای متنی و همچنین برای تشخیص نام‌ها از دیگر واژگان معمولی، متکی به همین رعایت بزرگ‌نویسی حروف است.

تفاوت معناداری بین موجودیت زیرنویس انسانی و رونوشت‌ ماشینی (گفتار به نوشتار گوگل کلود) برای ایستگاه خبری PBS، مخصوصا به دلیل تراکم بالای خطاهای تایپی در زیرنویس‌های انسانی نمایان شد که هر دو تحت تاثیر موجودیت ذکر شده خود هستند و به اندازه کافی جریان دستوری متن را قطع کرده به طوری‌که در توانایی API در تشخیص و شناسایی مرزهای موجودیت تاثیر می‌گذارند. در حقیقت، نمودار 2 تا حدی سطح خطای رونویس‌های انسانی واژه به واژه برای هر ایستگاه را نشان می‌دهد.

یک عامل مهم در مقایسه زیرنویس انسان با رونویس ماشینی این است که زیرنویس‌های انسانی، از زیرنویسی تبلیغاتی خودداری کرده، درحالیکه رونوشت‌های ماشینی (گفتار به نوشتار گوگل کلود) تمامی واژگان را شامل می‌شود و تفاوتی بین آنان قایل نیست. این بدان معناست که ایستگاه‌هایی که مدت زمان بیشتری به تبلیغات اختصاص می‌دهند، تفاوت بزرگ‌تری را نشان می‌دهند.

یکی از محدودیت‌های این گراف آن است که تنها تراکم موجودیت‌‌های ذکر شده را نشان می‌دهد، و اینکه تا چه اندازه مطابقت بین رونوشت‌های ماشینی و زیرنویس‌های انسانی وجود دارد، ساکت می‌ماند. آنان می‌توانند تعداد مشابهی از موجودیت‌ها را داشته باشند ولی به دلیل خطای انسانی و ماشینی استخراج این موجودیت‌ها می‌توانند کاملا با یکدیگر متفاوت باشند.

برای آزمایش این مهم، یک هیستوگرام از تمامی موجودیت‌های استخراج شده، گردآوری شده و ضریب همبستگی پیرسون برای هر ایستگاه بین موجودیت‌های زیرنویس‌های انسانی و موجودیت‌های رونوشت‌های ماشینی (گفتار به نوشتار گوگل کلود) محاسبه شده که نتایج در گراف زیر قابل مشاهده است.

ضریب همبستگی بین گفتار به نوشتار نهادهای زیرنویس و نهادهای رونویس
ضریب همبستگی بین گفتار به نوشتار نهادهای زیرنویس و نهادهای رونویس

در میان هر 7 ایستگاه، ضریب همبستگی کل برابر بود با r=0.95، ضریب دقیق همبستگی برای ایستگاه‌های زیر به قرار زیر است:

  • CNN & MSNBC: r=0.96
  • Fox News: r=0.97
  • CBS: r=0.75

جالب اینجاست که 3 ایستگاه ملی بیشترین همبستگی و 4 ایستگاه شبکه، کمترین میزان همبستگی را دارا بودند.

یک توضیح ممکن آن است که از آنجاکه ایستگاه‌های شبکه تنها شامل پخش‌های عصرانه و صبحگانه هستند، زمان پخش تبلیغات برای این ایستگاه‌ها، قسمت بیشتری از محتوای آنان را تشکیل می‌دهد.

مقایسه رونوشت‌ها (گفتار به نوشتار گوگل کلود) و زیرنویس‌های انسانی از طریق موجودیت‌های API-استخراج شده، یک نگاهی اجمالی و سریع بر چگونگی این تفاوت‌ها ارایه می‌دهد که می‌تواند بر الگوریتم‌های درک ماشین تاثیرگذار باشد. در همین زمان، بزرگ‌نویسی حروف و اشتباهات تایپی می‌تواند یک تاثیر عمیقی بر سیستم‌های یادگیری متنی امروز داشته باشند؛ این مشاهدات در نتیجه‌های بالا کاملا قابل درک است.

مقایسه‌های مشابه هنگام اعمال متن به رونوشت‌ها یا زیرنویس‌هاچگونه خواهند بود؟

ننمودار زیر، شمار کل واژگان یکتا و منحصربه‌فرد را توسط ایستگاه نشان می‌دهد؛ این نمودار مشخص می‌سازد در بیشتر ایستگاه‌ها واژگان مشابهی بین رونوشت‌های‌ ماشینی (گفتار به نوشتار گوگل کلود) و زیرنویس‌های انسانی وجود دارد. برای مثال، شمار واژگان منحصربه‌فرد (در زیرنویس انسانی) در شبکه PBS، 1.6 برابر بیشتر از رونوشت ماشینی است. برای درک علت این مهم، بررسی دقیقی صورت گرفت و نتایج نشان داد که تقریبا همگی آنان، اشتباهات تایپی بوده که بازتاب‌دهنده میزان خطای بالای زیرنویس انسانی است.

تعداد واژگان تبدیل گفتار به نوشتار زیرنویس‌ها در برابر رونویس‌ها
تعداد واژگان تبدیل گفتار به نوشتار زیرنویس‌ها در برابر رونویس‌ها

با نگاهی به تعداد کل کلمات گفته شده، نمودار زیر نشان می‌دهد که برای همه ایستگاه‌ها کلمات متمایز بیشتری نسبت به زیرنویس‌های بسته شده در متن ثبت شده‌اند، که در درجه اول منعکس‌کننده زمان پخش تبلیغات بدون عنوان است. این یکی از دلایلی است که زیرنویس انسانی شبکه PBS تعداد کلمات گفتاری تقریبا برابری با رونوشت ماشینی (گفتار به نوشتار گوگل کلود) دارند.

تعداد واژگان بیشتر در CNN، MSNBC و Fox News نشان‌دهنده بررسی کل زمان پخش هفتگی آن‌هاست، در حالی که چهار ایستگاه شبکه فقط شامل پخش‌های صبحگانه و عصرگانه است.

تعداد کل واژگان در زیرنویس‌ها و رونویس‌ها
تعداد کل واژگان در زیرنویس‌ها و رونویس‌ها

نمودار زیر همبستگی پیرسون واژگان زیرنویس و متن را نشان می‌دهد. فقط واژگانی در نظر گرفته شده‌اند که اولا عدد نبوده و دوما حداقل پنج بار در طول زمان پخش ترکیبی از هفت ایستگاه نمایش داده شده‌اند؛ که در مجموع 27876 واژه متمایز است.

هر هفت ایستگاه همبستگی بالاتر از 0.989 دارا بودند، این رقم بیانگر این است که علی‌رغم تفاوت‌هایشان، کل واژگان استفاده شده چه در زیرنویس انسانی و چه در رونوشت ماشینی بسیار شبیه به هم بوده‌اند.

همبستگی پیرسون بین واژگان زیرنویس و واژگان رونویس
همبستگی پیرسون بین واژگان زیرنویس و واژگان رونویس

 

با وجود واژگان مشابه بین رونوشت‌های ماشینی (گفتار به نوشتار گوگل کلود) و زیرنویس‌های انسانی، آزمایش‌های واقعی بیشتر تفاوت‌های میان زیرنویس‌های انسانی و رونوشت‌های ماشینی را آشکار می‌گرداند.

برای هر پخش هم زیرنویس انسانی و هم رونوشت ماشینی به حروف بزرگ تبدیل شده و حروفی غیر از ASCII به فاصله‌ها تبدیل گشتند. متن حاصل به دو بخش تقسیم شد؛ این دو بخش شامل:

1- واژگانی است که در مرزهای فاصله‌ و دو فایلی که از طریق standard Linux diff utility اجرا می‌شود، وجود دارند.

2- بخش دیگر شامل تقسیم  تعداد کل واژگان نشانه‌گذاری شده تغییر یافته بر تعداد کل واژگان مقایسه‌‌شده‌ دارای تراکم ‌تغییر است

در کل، زیرنویس‌ها و رونوشت‌ها با درصدی در حدود 63% با هم مطابقت داشتند. این مطابقت در CBS به  58% و در FBS & CNN به 68% می‌رسد.

شباهت کلی بین زیرنویس‌ها و رونویس‌ها به عنوان درصدی از کلمات و محاسبه شده توسط لینوکس.
شباهت کلی بین زیرنویس‌ها و رونویس‌ها به عنوان درصدی از کلمات و محاسبه شده توسط لینوکس.

از این‌رو درصدها با توجه به کیفیت تشخیص گفتار مدرن، به طور غیرمنتظره‌ای کم به نظر می‌رسد.

یک بررسی دقیق از تفاوت‌ها توضیح می‌دهد که چرا: رونوشت ماشینی (مانند گفتار به نوشتار گوگل کلود) به طور معمول بازگردانی وفادارانه‌تر و دقیق‌تر از زیرنویس انسانی را ارایه می‌دهند.

برای مثال، زیرنویس‌های ارایه شده در CNN، بسیار کوتاه (بدون بیان اینکه این افراد دقیقا که هستند) و اینگونه است که “دانا باش (Dana Bash)، گزارشگر جرم و عدالت، شیمون پروکوپز (Shimon Prokupecz) و ایون پرز (Even Perez)”. درحالیکه رونوشت ماشینی عبارت بالا را اینگونه دقیق بیان می‌دارد: ” خبرنگار سیاسی CNN، Dana Bash و شیمون پروکوپز، گزارشگر جرم و عدالت CNN و خبرنگار ارشد دادگستری ایوان پرز (Evan Perez)”. همانطور که می‌بینید رونوشت ماشینی با ذکر عنوان افراد، مفهوم بهتری ارایه کرده است.

به همین ترتیب، دقیقه بعدی همان پخش شامل چندین تفاوت بارز است، مانند تفاوت میان “guid post” در زیرنویس انسانی در برابر رونوشت صحیح ماشینی”guidposts”. به همین ترتیب، در حالی‌که زیرنویس حاوی ‌عبارت “که او به من گفت (that he told me)” است، رونوشت ماشینی (مانند گفتار به نوشتار گوگل کلود) عینا عبارت گفته شده توسط یکی از اعضای شرکت‌کننده در میزگرد را بیان می‌دارد: ” that he that he told me”.

نه زیرنویس و نه رونویس عدم تطابق گفتاری را ضبط نمی‌کنند؛ این عدم تطابق با API گوگل طراحی شده تا از رونویسی صداهایی مانند “اوووم” یا “ارر” اجتناب شود.

این نشان می‌دهد که رونوشت مکانیزه ممکن است وفاداری بالاتری نسبت به زیرنویس‌های انسانی در بیان واژه به واژه گوینده را داشته باشند.  واقعیت این است که رونوشت‌های‌ ماشینی (مانند گفتار به نوشتار گوگل کلود) شامل رونویس‌های تبلیغاتی نیز می‌شوند، در حالی‌که زیرنویس انسانی از زیرنویس کردن آنان خودداری می‌کنند.

این امر پیشنهاد می‌دارد که مقایسه بهتر آن است که هرگونه اختلاف که شامل متن افزوده شده به رونوشت‌های ماشینی (متن‌های تبلیغاتی) را حذف کنیم. این روش، هنوز واژگانی از زیرنویس‌های انسانی را  بر می‌شمارد که از متن رونوشت ماشینی حذف شده‌اند، و همچنین واژگانی را لحاظ می‌کند که در هر دو، زیرنویس انسانی و رونوشت ماشینی (گفتار به نوشتار گوگل کلود) وجود دارند ولی هجی‌های آنان متفاوت است.

این نتایج در نمودار زیر نشان داده شده است؛ در این نمودار، تشابه میان رنوشت‌های ماشینی و زیرنویس‌های انسانی را با متوسط ​​92٪ نشان می‌دهد که دامنه آن از 87% برای PBS تا 93٪ برای CNN و MSNBC متغیر است.

شباهت کلی بین زیرنویس‌ها و رونویس‌ها به عنوان درصد از واژگان و درصد واژگان محاسبه شده توسط لینکوس
شباهت کلی بین زیرنویس‌ها و رونویس‌ها به عنوان درصد از واژگان و درصد واژگان محاسبه شده توسط لینکوس

 

این امر روشن می‌سازد که بیشتر اختلافات بین رونوشت‎های ماشینی (گفتار به نوشتار گوگل کلود) و زیرنویس‌های انسانی، لحاظ شدن متن‌های تبلیغاتی در رونوشت ماشینی و وفاداری بالاتر ماشین در ضبط جزئیاتی مانند تکرار و عنوان‌های کامل گفتاری است.

با دقت بیشتر به تفاوت‌های باقی‌مانده ، بسیاری از آنها در واقع اشتباهات تایپی در زیرنویس‌های تولید شده توسط انسان هستند.

برخی از اختلافات باقی مانده نیز حول برخی از خوانندگان اخبار و نام‌های اعضای میزگرد رادیویی و یا تلویزیونی است که ماشین اشتباهاتی در هجی آوایی و تلفظ اشتباه نام این اعضا را دارد، مثلا نام مولر “Mueller” به عنوان مادر “mother” ذکر شده است.

بنابر آنچه در بالا گفته شد، تراز واقعی بین انسان و ماشین بیش از 92% است.

از همه مهم‌تر، درجه بالای خطا در زیرنویس‌های انسانی به این معنی است که از نظر فنی دارای استاندارد طلایی نیستند. بنابراین، 8٪ آهنگ اختلاف بین انسان و ماشین به این معنی نیست که ماشین دارای آهنگ 8٪ خطاست. در واقع، بخش قابل توجهی از این خطا مربوط به زیرنویس‌های انسانی است نه رونویس‌های ماشینی.

API گفتار به نوشتار گوگل در واقع از دیکشنری‌های سازگار با دامنه خارجی پشتیبانی می‌کند. این دیکشنری‌ها می‌توانند هجی‌های صحیحی از اصطلاحات خاص یا نام‌های مناسب را ارایه دهند. در آینده، لیست کامل خوانندگان و مجریان اخبار هر ایستگاه و همچنین نام چهره‌های اصلی موجود در اخبار می‌توانند به این دیکشنری‌ها اضافه گردند تا اطمینان حاصل شود که املای نام آنها به درستی توسط API شناخته و نوشته می‌شود.

با جمع همه اینان، متوجه می‌شویم تشخیص گفتار خودکار طی چند سال گذشته به طرز چشمگیری بهبود یافته است. با مقایسه زیرنویس‌های اخبار تلویزیونی که توسط انسان تولید شده در برابر رونوشت‌های ماشینی که توسط API گفتار به نوشتار گوگل کلود تولید شده، متوجه می‌شویم که هر دو، تا 92% بایکدیگر مطابقت دارند (درصورتی که تبلیغات را لحاظ نکنیم). البته وفاداری رونوشت ماشینی به مراتب بیش از زیرنویس‌های انسانی است.

سخن آخر

در حقیقت، ماشین گوی سبقت را در همه ابعاد از زیرنویس‌های انسانی می‌رباید؛ علت را می‌توان در میزان خطای پایین‌تر، عدم اشتباهات تایپی، کیفیت بهتر، بزرگ‌نویسی صحیح حروف جست‌وجو کرد. درحالی‌که برای انجام این آزمایش‌ها هیچ سفارشی‌سازی از API گوگل صورت نگرفته و تنها از یک فرهنگ واژه ساده برای هجی صحیح نام‌های رایج در هر ایستگاه و نام‌های اصلی در اخبار برای برطرف کردن خطاهای باقی‌مانده، استفاده شده است.

با همه این‌ها، رونوشت‌های ماشینی مانند گفتار به نوشتار گوگل کلود هنوز حاوی خطاهایی هستند، اما اکنون در مرحله‌ای هستیم که رونوشت‌های خودکار می‌توانند با دقت بسیار بالا با زیرنویس‌های انسانی در زمان واقعی برای محتوای اخبار تلویزیون رقابت کنند. در آینده و با ادامه پیشرفت این مدل‌ها، رونوشت‌ ماشینی بسیار دقیق‌تر و قابل‌اعتمادتر از زیرنویس‌های انسانی خواهند شد.

در خاتمه باید این‌ چنین بگوییم که گراف‌های نشان داده شده در بالا، انقلاب هوش مصنوعی را نشان می‌دهند.

 

4/5 - (1 امتیاز)
لینک کوتاه شده : https://amerandish.com/XT7iR

به اشتراک بگذارید

دیدگاهتان را بنویسید

نشانی ایمیل شما منتشر نخواهد شد. بخش‌های موردنیاز علامت‌گذاری شده‌اند *

_ مطالب مرتبط _

8 دلیلی که به پردازش گفتار نیاز داریم
هوش مصنوعی

8 دلیلی که به پردازش گفتار نیاز داریم

هر تکنولوژی جدید زمانی که پایش را به زندگی ما انسان‌ها می‌گذارد، مدتی ما را سرگرم خود می‌کند. اما پس از گذشت زمان، با جایگزینی

فناوری تشخیص گفتار برای کودکان
پردازش گفتار

فناوری تشخیص گفتار برای کودکان

قبل از شرایط پاندمیک، بیش از 40% از کاربران جدید اینترنت، کودکان بودند. برآوردها حاکی از آن است که زمانی که کودکان اکنون در فضای

درخواست شما با موفقیت ارسال شد.

ضمن تشکر بابت ارسال پیام، در سریع‌ترین زمان ممکن کارشناسان شرکت عامراندیش درخواست شما را بررسی خواهند نمود.