خانه » عملکرد بهتر هوش مصنوعی در تشخیص گفتار نسبت به انسان

عملکرد بهتر هوش مصنوعی در تشخیص گفتار نسبت به انسان

عملکرد بهتر هوش مصنوعی در تشخیص گفتار : آیا این فناوری‌ها دقت و عملکردی بهتر از انسان دارند؟

پیروی از مکالمه و رونویسی دقیق، یکی از بزرگ‌ترین چالش‌های پیش‌روی هوش مصنوعی (AI) است. برای اولین بار، پژوهشگران انستیتوی فناوری کارلسروهه (KIT) موفق به ساخت یک سیستم رایانه‌ای شدند که با کمترین میزان تاخیر، در شناخت خودکار زبان، عملکرد بهتری نسبت به انسان دارد.

الکس وایبل (Alex Waibel)، پروفسور انفورماتیک در KIT چنین می‌گوید: ” مکث، لکنت زبان و تردید مانند “er” یا “ohmmm”، بخش جدایی‌ناپذیر سخنان مردم با یکدیگر است. مردمان هنگام سخن با یکدیگر ممکن است سرفه‌کنند، بخندند و یا حتی برخی از واژگان را نامفهوم تلفظ نمایند.” این امر یادداشت‌برداری دقیق از مکالمه و گفت‌وگو را هم برای افراد و هم برای هوش مصنوعی (AI) دشوار می‌سازد. دانشمندان KIT و کارکنان KITES، یک شرکت و استارت-آپ نوپا از KIT، اکنون یک سیستم رایانه‌ای را برنامه ریزی کرده‌اند که این وظیفه را بسیار بهتر از انسان و حتی سریع‌تر از دیگر سیستم‌های موجود و در دسترس اجرا می‌کند.

عملکرد بهتر هوش‌مصنوعی در تشخیص‌گفتار

وایبل (Waibel) در حال حاضر یک مترجم زنده اتوماتیک ایجاد کرده است که سخنرانی‌های دانشگاه را به طور مستقیم از زبان آلمانی یا انگلیسی به دیگر زبان‌های صحبت شده توسط دانشجویان خارجی ترجمه می‌کند. این “مترجم سخنرانی” از سال 2012 در سالن‌های سخنرانی KIT مورد استفاده قرار گرفته است. “وایبل توضیح می‌دهد:” تشخیص گفتار خودکار مهمترین مولفه این سیستم است.” خطاها و تاخیر در تشخیص باعث می‌شود ترجمه غیرقابل فهم شود، همین فاکتور است که این سیستم را تا این اندازه منحصر به فرد می‌کند. هنگام گفت‌وگوی انسانی، میزان خطای انسانی در حدود 5.5 درصد است، درحالی‌که خطای این سیستم، تنها 5 درصد (کمتر از میزان خطای انسانی) می‌باشد. برپایه گفته‌های وایبل:”سرعت سیستم برای تولید خروجی به اندازه دقت آن مهم است تا دانشجویان بتوانند سخنرانی را به صورت زنده دنبال کنند. پژوهشگران اکنون موفق شده‌اند این تاخیر را به یک ثانیه کاهش دهند.” وایبل سخنان خود را این‌گونه ادامه داد که: “این کمترین تأخیر گزارش شده است که تاکنون توسط یک سیستم تشخیص گفتار با این کیفیت حاصل شده و باعث عملکرد بهتر هوش مصنوعی در تشخیص گفتار شده است.”

میزان خطا و تاخیر سیستم، با استفاده از آزمون تشخیص استاندارد و بین‌المللی “تابلو معیار (switchboard-benchmark)” اندازه‌گیری می‌شود. این معیار (تعریف شده توسط NIST ایالات متحده) توسط محققان بین‌المللی هوش مصنوعی به طور گسترده‌ای در رقابت برای ساخت ماشین‌های تشخیص خودکار گفتار قابل‌مقایسه با انسان (یا حتی بهتر از عملکرد وی) استفاده می‌گردد.

به گفته وایبل، تشخیص گفتار سریع و با دقت بالا یک گام اساسی برای پردازش بیشتر در Downstream Processes (پردازش‌های پایین‌دست) است. این سیستم، گفت‌وگو، ترجمه و دیگر ماژول های هوش مصنوعی را قادر می‌سازد تا تعامل بهتری مبتنی بر صدا با ماشین‌ها را فراهم سازد.