تشخیص‌گفتار و ارتباط آن با هوش‌ مصنوعی و یادگیری‌ ماشین

از زمانی که تشخیص گفتار از سال 1962 توسط IBM و اولین دستگاه تشخیص گفتار آن ارائه شد، راهی طولانی را سپری کرده است. با تکامل این فناوری، تشخیص گفتار به صورت فزاینده‌ای در زندگی روزمره ما ادغام شده است. این روزمرگی را می‌توان در اپلیکیشن‌هایی مانند سیری اپل، کورتانا مایکروسافت یا بسیاری از سرویس‌های پاسخگو صوتی گوگل جست‌وجو نمود. تلفن‌ها، رایانه‌ها، ساعت‌ها و حتی یخچال‌ها، هر وسیله تعاملی صوتی جدیدی که وارد زندگی ما می‌شوند، وابستگیمان را به هوش مصنوعی (AI) و یادگیری ماشین بیشتر و بیشتر می‌سازد.

نقش هوش مصنوعی و یادگیری ماشین در تشخیص‌گفتار

هوش مصنوعی، اولین بار در سال 1956 توسط جان مک کارتی (John McCarthy) ابداع شد. هوش مصنوعی را می توان به عنوان “هوش انسانی که توسط ماشین نمایش داده می‌شود” تعریف کرد. این هوش که پیش‌تر برای آنالیز و محاسبه سریع داده‌ها مورد استفاده قرار می‌گرفت، اکنون به رایانه‌ها امکان انجام وظایفی را می‌دهد که در گذشته فقط انسان‌ها قادر به انجام آن‌ها بودند.

یادگیری ماشین، زیرمجموعه‌ای از هوش مصنوعی است و به سیستم‌هایی اطلاق می‌شود که می‌توانند خود به صورت هوشمندانه‌ای یاد بگیرند. از یادگیری ماشین برای این آموزش رایانه برای شناسایی الگوها در تشخیص‌گفتار استفاده می‌شود، نه برای برنامه‌ریزی آنان با کمک قوانین خاص. فرآیند آموزش شامل وارد ساختن مقدار زیادی از داده‌ها به الگوریتم و اجازه دادن به آن برای یادگیری به وسیله داده‌ها و شناسایی صحیح الگوهاست. در روزهای اولیه، برنامه نویسان مجبورند برای هر شیئی که می‌خواهند به رسمیت بشناسند کدی بنویسند (به عنوان مثال انسان در مقابل سگ). پس از مدت زمانی، سیستم می‌تواند هر دو را با نشان دادن نمونه‌های زیادی از یکدیگر تشخیص دهد. در نتیجه، این سیستم‌ها با گذشت زمان و بدون دخالت انسان، هوشمند و هوشمندتر می‌شوند.

بسیاری از تکنیک‌ها و رویکردهای مختلف برای یادگیری ماشین و تشخیص‌گفتار وجود دارد. یکی از این رویکردها شبکه‌های عصبی مصنوعی است که نمونه آن پپشنهادهای خودکار محصول به کاربران است. شرکت‌های تجارت الکترونیکی معمولا از شبکه‌های عصبی مصنوعی برای نشان دادن محصولی که احتمال خرید شما از آن بیشتر است، استفاده می‌کنند. آن‌ها این کار را با توجه به تجزیه و تحلیل داده‌های حاصل از تمامی تجربیات گشت‌وگذار کاربران در فضای اینترنتی خود انجام می‌دهند و از این اطلاعات برای ارائه پیشنهادهای مفید و موثر به کاربر درباره محصول خود استفاده می‌کنند.

برخی دیگر از کاربردهای رایج هوش مصنوعی در دنیای امروز، تشخیص اشیا، ترجمه، تشخیص‌گفتار و پردازش زبان طبیعی است. رونویسی خودکار با کمک فناوری تشخیص گفتار خودکار (ASR) و پردازش زبان طبیعی (NLP) انجام می شود. ASR تبدیل کلمه گفتاری به متن است در حالی که NLP پردازش متن برای استخراج معنای آن است. از آنجا که انسان‌ها اغلب به صورت محاوره سخن می‌گویند و از کلمات اختصاری و واژگان مخفف بسیار استفاده می‌کنند، لذا برای تولید رونویسی دقیق به تحلیل رایانه‌ای دقیق زبان طبیعی نیاز است.

تشخیص‌گفتار
تشخیص‌گفتار

چالش با فناوری تشخیص‌گفتار

چالش‌های موجود در فناوری تشخیص گفتار بسیار زیاد است ولی خوشبختانه، تعداد این چالش‌ها در حال کاهش است. این چالش‌ها شامل غلبه بر تجهیزات ضبط بد صدا، سروصدای و  هیاهو پس‌زمینه، لهجه‌ها و گویش‌های دشوار و همچنین صدای متنوع مردم است.

آموزش یک ماشین برای یادگیری خواندن یک زبان گفتاری درست مانند انسان‌ها، چیزی است که هنوز کامل نشده است.گفتار یک فرد بیش از سخنان وی است. ما به عنوان انسان، چیزهای بسیاری را در چشمان فرد، حالات چهره، زبان بدن، بالا و پایین شدن تن صدا می‌خوانیم. یکی دیگر از نکات مهم گفتار، گرایش انسان به کوتاه کردن برخی از کلمات است (به عنوان مثال “نمی‌دانم” که در انگلیسی گفتاری به جای گفتن کامل عبارت “I do not know”، به صورت ساده، عبارت کوتاه شده “I dunno” بیان می‌شود). ما واژگان مختصر را برای مدت زمان طولانی استفاده کرده‌ایم و در هنگام استفاده آن‌ها را همانند زمان یادگیریمان تلفظ نخواهیم کرد. این خصلت انسانی یک چالش دیگر برای یادگیری ماشین در تشخیص‌گفتار است.

ماشین‌آلات در حال یادگیری “گوش دادن” به لهجه‌ها، احساسات و عواطف هستند، اما هنوز هم راه‌های زیادی وجود دارد. هرچه فناوری پیچیده‌تر می‌شود و داده‌های بیشتری توسط الگوریتم‌های خاص استفاده می‌گردد، این چالش‌ها به سرعت برطرف می‌شوند.

فناوری برای پشتیبانی از رابط‌های صوتی، به صورت فوق‌العاده‌ای قدرتمند است. با پیشرفت در هوش مصنوعی و مقدار فراوان داده گفتاری که می‌توان به سادگی برای اهداف یادگیری ماشین استخراج کرد، تعجب آور نیست اگر به رابط کاربری بعدی غالب تبدیل شود.

 

لینک کوتاه شده : https://amerandish.com/Mhxoj

به اشتراک بگذارید

دیدگاهتان را بنویسید

نشانی ایمیل شما منتشر نخواهد شد. بخش‌های موردنیاز علامت‌گذاری شده‌اند *

_ مطالب مرتبط _

پردازش گفتار

تبدیل گفتار به نوشتار چگونه ممکن است؟

تبدیل گفتار به نوشتار با توجه به افزایش تقاضا برای تولید محتواهای طولانی، تعداد پادکست‌ها، مصاحبه‌ها و مقالات منتشر شده روز به روز در حال

اخبار هوش مصنوعی

هوش مصنوعی و توسعه باتری به سمت  اُوردرایو

  روند بهبود باتری‌ها به دلیل کندی فرآیند آزمایش باتری‌ها همیشه با مشکل روبرو بوده است.  یادگیری ماشین امروز به این روند سرعت بخشیده است.

درخواست شما با موفقیت ارسال شد.

ضمن تشکر بابت ارسال پیام، در سریع‌ترین زمان ممکن کارشناسان شرکت عامراندیش درخواست شما را بررسی خواهند نمود.