از زمانی که تشخیص گفتار از سال 1962 توسط IBM و اولین دستگاه تشخیص گفتار آن ارائه شد، راهی طولانی را سپری کرده است. با تکامل این فناوری، تشخیص گفتار به صورت فزایندهای در زندگی روزمره ما ادغام شده است. این روزمرگی را میتوان در اپلیکیشنهایی مانند سیری اپل، کورتانا مایکروسافت یا بسیاری از سرویسهای پاسخگو صوتی گوگل جستوجو نمود. تلفنها، رایانهها، ساعتها و حتی یخچالها، هر وسیله تعاملی صوتی جدیدی که وارد زندگی ما میشوند، وابستگیمان را به هوش مصنوعی (AI) و یادگیری ماشین بیشتر و بیشتر میسازد.
نقش هوش مصنوعی و یادگیری ماشین در تشخیصگفتار
هوش مصنوعی، اولین بار در سال 1956 توسط جان مک کارتی (John McCarthy) ابداع شد. هوش مصنوعی را می توان به عنوان “هوش انسانی که توسط ماشین نمایش داده میشود” تعریف کرد. این هوش که پیشتر برای آنالیز و محاسبه سریع دادهها مورد استفاده قرار میگرفت، اکنون به رایانهها امکان انجام وظایفی را میدهد که در گذشته فقط انسانها قادر به انجام آنها بودند.
یادگیری ماشین، زیرمجموعهای از هوش مصنوعی است و به سیستمهایی اطلاق میشود که میتوانند خود به صورت هوشمندانهای یاد بگیرند. از یادگیری ماشین برای این آموزش رایانه برای شناسایی الگوها در تشخیصگفتار استفاده میشود، نه برای برنامهریزی آنان با کمک قوانین خاص. فرآیند آموزش شامل وارد ساختن مقدار زیادی از دادهها به الگوریتم و اجازه دادن به آن برای یادگیری به وسیله دادهها و شناسایی صحیح الگوهاست. در روزهای اولیه، برنامه نویسان مجبورند برای هر شیئی که میخواهند به رسمیت بشناسند کدی بنویسند (به عنوان مثال انسان در مقابل سگ). پس از مدت زمانی، سیستم میتواند هر دو را با نشان دادن نمونههای زیادی از یکدیگر تشخیص دهد. در نتیجه، این سیستمها با گذشت زمان و بدون دخالت انسان، هوشمند و هوشمندتر میشوند.
بسیاری از تکنیکها و رویکردهای مختلف برای یادگیری ماشین و تشخیصگفتار وجود دارد. یکی از این رویکردها شبکههای عصبی مصنوعی است که نمونه آن پپشنهادهای خودکار محصول به کاربران است. شرکتهای تجارت الکترونیکی معمولا از شبکههای عصبی مصنوعی برای نشان دادن محصولی که احتمال خرید شما از آن بیشتر است، استفاده میکنند. آنها این کار را با توجه به تجزیه و تحلیل دادههای حاصل از تمامی تجربیات گشتوگذار کاربران در فضای اینترنتی خود انجام میدهند و از این اطلاعات برای ارائه پیشنهادهای مفید و موثر به کاربر درباره محصول خود استفاده میکنند.
برخی دیگر از کاربردهای رایج هوش مصنوعی در دنیای امروز، تشخیص اشیا، ترجمه، تشخیصگفتار و پردازش زبان طبیعی است. رونویسی خودکار با کمک فناوری تشخیص گفتار خودکار (ASR) و پردازش زبان طبیعی (NLP) انجام می شود. ASR تبدیل کلمه گفتاری به متن است در حالی که NLP پردازش متن برای استخراج معنای آن است. از آنجا که انسانها اغلب به صورت محاوره سخن میگویند و از کلمات اختصاری و واژگان مخفف بسیار استفاده میکنند، لذا برای تولید رونویسی دقیق به تحلیل رایانهای دقیق زبان طبیعی نیاز است.
چالش با فناوری تشخیصگفتار
چالشهای موجود در فناوری تشخیص گفتار بسیار زیاد است ولی خوشبختانه، تعداد این چالشها در حال کاهش است. این چالشها شامل غلبه بر تجهیزات ضبط بد صدا، سروصدای و هیاهو پسزمینه، لهجهها و گویشهای دشوار و همچنین صدای متنوع مردم است.
آموزش یک ماشین برای یادگیری خواندن یک زبان گفتاری درست مانند انسانها، چیزی است که هنوز کامل نشده است.گفتار یک فرد بیش از سخنان وی است. ما به عنوان انسان، چیزهای بسیاری را در چشمان فرد، حالات چهره، زبان بدن، بالا و پایین شدن تن صدا میخوانیم. یکی دیگر از نکات مهم گفتار، گرایش انسان به کوتاه کردن برخی از کلمات است (به عنوان مثال “نمیدانم” که در انگلیسی گفتاری به جای گفتن کامل عبارت “I do not know”، به صورت ساده، عبارت کوتاه شده “I dunno” بیان میشود). ما واژگان مختصر را برای مدت زمان طولانی استفاده کردهایم و در هنگام استفاده آنها را همانند زمان یادگیریمان تلفظ نخواهیم کرد. این خصلت انسانی یک چالش دیگر برای یادگیری ماشین در تشخیصگفتار است.
ماشینآلات در حال یادگیری “گوش دادن” به لهجهها، احساسات و عواطف هستند، اما هنوز هم راههای زیادی وجود دارد. هرچه فناوری پیچیدهتر میشود و دادههای بیشتری توسط الگوریتمهای خاص استفاده میگردد، این چالشها به سرعت برطرف میشوند.
فناوری برای پشتیبانی از رابطهای صوتی، به صورت فوقالعادهای قدرتمند است. با پیشرفت در هوش مصنوعی و مقدار فراوان داده گفتاری که میتوان به سادگی برای اهداف یادگیری ماشین استخراج کرد، تعجب آور نیست اگر به رابط کاربری بعدی غالب تبدیل شود.