عملکرد بهتر هوش مصنوعی در تشخیص گفتار : آیا این فناوریها دقت و عملکردی بهتر از انسان دارند؟
پیروی از مکالمه و رونویسی دقیق، یکی از بزرگترین چالشهای پیشروی هوش مصنوعی (AI) است. برای اولین بار، پژوهشگران انستیتوی فناوری کارلسروهه (KIT) موفق به ساخت یک سیستم رایانهای شدند که با کمترین میزان تاخیر، در شناخت خودکار زبان، عملکرد بهتری نسبت به انسان دارد.
الکس وایبل (Alex Waibel)، پروفسور انفورماتیک در KIT چنین میگوید: ” مکث، لکنت زبان و تردید مانند “er” یا “ohmmm”، بخش جداییناپذیر سخنان مردم با یکدیگر است. مردمان هنگام سخن با یکدیگر ممکن است سرفهکنند، بخندند و یا حتی برخی از واژگان را نامفهوم تلفظ نمایند.” این امر یادداشتبرداری دقیق از مکالمه و گفتوگو را هم برای افراد و هم برای هوش مصنوعی (AI) دشوار میسازد. دانشمندان KIT و کارکنان KITES، یک شرکت و استارت-آپ نوپا از KIT، اکنون یک سیستم رایانهای را برنامه ریزی کردهاند که این وظیفه را بسیار بهتر از انسان و حتی سریعتر از دیگر سیستمهای موجود و در دسترس اجرا میکند.
عملکرد بهتر هوشمصنوعی در تشخیصگفتار
وایبل (Waibel) در حال حاضر یک مترجم زنده اتوماتیک ایجاد کرده است که سخنرانیهای دانشگاه را به طور مستقیم از زبان آلمانی یا انگلیسی به دیگر زبانهای صحبت شده توسط دانشجویان خارجی ترجمه میکند. این “مترجم سخنرانی” از سال 2012 در سالنهای سخنرانی KIT مورد استفاده قرار گرفته است. “وایبل توضیح میدهد:” تشخیص گفتار خودکار مهمترین مولفه این سیستم است.” خطاها و تاخیر در تشخیص باعث میشود ترجمه غیرقابل فهم شود، همین فاکتور است که این سیستم را تا این اندازه منحصر به فرد میکند. هنگام گفتوگوی انسانی، میزان خطای انسانی در حدود 5.5 درصد است، درحالیکه خطای این سیستم، تنها 5 درصد (کمتر از میزان خطای انسانی) میباشد. برپایه گفتههای وایبل:”سرعت سیستم برای تولید خروجی به اندازه دقت آن مهم است تا دانشجویان بتوانند سخنرانی را به صورت زنده دنبال کنند. پژوهشگران اکنون موفق شدهاند این تاخیر را به یک ثانیه کاهش دهند.” وایبل سخنان خود را اینگونه ادامه داد که: “این کمترین تأخیر گزارش شده است که تاکنون توسط یک سیستم تشخیص گفتار با این کیفیت حاصل شده و باعث عملکرد بهتر هوش مصنوعی در تشخیص گفتار شده است.”
میزان خطا و تاخیر سیستم، با استفاده از آزمون تشخیص استاندارد و بینالمللی “تابلو معیار (switchboard-benchmark)” اندازهگیری میشود. این معیار (تعریف شده توسط NIST ایالات متحده) توسط محققان بینالمللی هوش مصنوعی به طور گستردهای در رقابت برای ساخت ماشینهای تشخیص خودکار گفتار قابلمقایسه با انسان (یا حتی بهتر از عملکرد وی) استفاده میگردد.
به گفته وایبل، تشخیص گفتار سریع و با دقت بالا یک گام اساسی برای پردازش بیشتر در Downstream Processes (پردازشهای پاییندست) است. این سیستم، گفتوگو، ترجمه و دیگر ماژول های هوش مصنوعی را قادر میسازد تا تعامل بهتری مبتنی بر صدا با ماشینها را فراهم سازد.