کاربرد هوش مصنوعی در تشخیص گفتار : هوش مصنوعی شروع به احساس شفقت و همدلی با انسان میکند
هوش مصنوعی در بسیاری از برنامهها، از اتوماسیون صنعتی گرفته تا وسایل نقلیه خودمختار، جای خود را پیدا کرده است. با این حال شاید شخصیترین تاثیر آن زمانی باشد که قرار است در ارائه اطلاعات و خدمات با انسان تعامل داشته باشد. برای پذیرش تعامل هوش مصنوعی با انسان، افزودن هوش هیجانی به آن ، اولین و مهمترین گام است.
هنگامی که Amazon Echo برای اولین بار در سال 2014 با بازار عرضه شد، آن را به عنوان یک نمونه کامل از دستگاههای متصل به اینترنت اشیاء میدانستند. هوش مصنوعی Amazon Echo برای تشخیص گفتار به حداقل قابلیت سختافزاری پردازنده نیاز داشت و توانایی بالایی در درک و پاسخ به گفتار انسانی با استفاده از منابع متصل به ابر داشت. Amazon Echo ارزان و در عین حال قدرتمند بود و قابلیت به روز رسانی بدون نیاز به تغییر در سخت افزار یا نرمافزار و پردازنده داشت. اکنون الکسا به یک چهره هوش مصنوعی برای مصرف کنندگان تبدیل شده است. محبوبیت آن باعث شده تا عموم مردم به جای استفاده از صفحه کلید، بخواهند که تنها از طریق صدا با دستگاهها ارتباط برقرار کنند.
به گفته دکتر رعنا الکالیوبی (Dr. Rana el-kaliouby)، مدیرعامل و بنیانگذار شرکت هوش مصنوعی Affectiva، تنها حدود 10٪ از ارتباطات انسانی وابسته به واژگان است. همانطور که وی در سخنرانی خود در کنفرانس جهانی فناوری آلتایر (ATC 2020) اشاره کرد، حدود 90٪ ارتباطات انسانی شامل لحن صوت (بالا و پایین کردن صدا)، زبان بدن و حالات صورت است. هوشمصنوعی تنها با تکیه بر پردازش گفتار، همه این موارد را از دست میدهد.
امروزه تشخیص گفتار به کمک هوش مصنوعی به طور گستردهای در کاربردهای تجاری مانند سیستمهای پشتیبانی تلفنی مورد استفاده قرار میگیرد. از مدتها پیش در بسیاری از مشاغل، مانند اپراتورهای مرکز تماس روند ادغام با هوش مصنوعی را شروع کردهاند. در این حوزه قبلا تماسگیرندگان مجبور بودند تا زمان زیادی را در صف طولانی انتظار برای پاسخ منتظر بمانند و یا دکمههای مختلفی را برای رسیدن به مقصودشان بزنند. اما حالا هوش مصنوعی و تشخیص گفتار به تماس گیرندهها این توانایی را میدهد که نگرانیهای خود را به صورت شفاهی بیان کنند تا به سرعت به درخواستهای آنها رسیدگی شود. این فناوری مجموعه گزینههای بسیار پیچیدهتری را برای پاسخ در اختیار دارد.
اما همه این پاسخها برای بشر بسیار سرد و مکانیکی احساس میشوند و ممکن است اعتبار خدمات مشتری شرکتها را تضعیف کند و باعث نا امیدی تماسگیرنده شود. شکل ارتباطی انسانی، مطلوبتر است که هوشمصنوعی تا قبل از این نمیتوانست تا زمانیکه تنها وابسته به یادگیری واژگان است آن را فراهم سازد. با اینحال، این مشکل قرار نیست تا همیشه باقی بماند.
پیشرفت هوش مصنوعی در فناوری تشخیص گفتار
به گفته سخنان دکتر آیانا هاوارد (Ayanna Howard)، بنیانگذار و مدیر ارشد فناوری در شرکت Zyrobotics ارائه دهنده سیستمهای هوش مصنوعی نوظهور، توانایی درک شرایط عاطفی کاربر و پاسخ به وی با درنظر گرفتن شرایط احساسی و عاطفی امکان پذیر است. دکتر هاوارد در سخنرانی خود در نشست ATC 2020 اینگونه اظهار داشت که هوش مصنوعی “احساسی” که توانایی درک احساسات کاربر و پاسخ به وی را با توجه به شرایط عاطفی او دارد، نویدبخش خوبی برای افزایش عملکرد کاربر در همکاریهای گروهی میان انسان و ماشین است. به عنوان مثال، یک پژوهش اولیه توسط پژوهشگران دانشگاه استنفورد و تویوتا مشخص کرد که چیزی مانند تنظیم تشخیص گفتار در سیستم صوتی اتومبیل که مانند یک دستیار ناوبری برای واکنش در برابر احساسات راننده عمل میکند، میتواند ایمنی سرنشینان را تا اندازه زیادی بهبود ببخشد. این مطالعه نشان داد که تطبیق صدای ماشین (صدای پرانرژی در برابر صدای مطیع و تسلیم) با احساس راننده (شاد در برابر غمگین)، منجر به توجه بیشتر رانندگان به جاده و در نتیجه تصادفها کمتر میشود.
دکتر الکالیوبی همچنین اعلام کرد که در آینده بسیار نزدیک، شاهد افزودن هوش هیجانی به فناوری تشخیص گفتار خواهیم بود. وی خاطرنشان کرد که بهترین روش ایجاد اعتماد به ماشین، افزودن حس همدلی بدان است. نتیجه این فناوری آن خواهد شد که کاربران راحتتر به یک سیستم هوشمصنوعی که توانایی احساس بشر و واکنش مناسب دارد، اعتماد میکنند. این فناوری میتواند منجبر به تعامل کارآمدتری شود و به سیستم در شناسایی مشکلات احتمالی کمک کند. به عنوان مثال افزایش ناامیدی کاربر، ممکن است به هوش مصنوعی نشان دهد که مشکلی در این روند وجود دارد که نیاز به اصلاح آن است.
اکنون هوش مصنوعی احساسی در حال وارد شدن به بازار جهانی است. به عنوان مثال، کمپانی Affectiva سیستمهای تشخیص گفتار مبتنی بر هوش مصنوعی در خودرو را با سنجش درون کابینی ارائه میدهد که میتواند بر وضعیت احساسی سرنشینان خودرو نظارت کند و بتواند بر اساس آن موسیقی، نور، دما و دیگر موارد را تطبیق دهد و راحتی سرنشینان خودرو را افزایش دهد. همچنین میتواند با شناخت حالتهایی مانند خوابآلودگی، عصبانیت و حواسپرتی، به بهبود ایمنی راننده کمک کند. شرکت Sensum نیز، محصولی مشابه (یک موتور هوش مصنوعی همدلانه) را برای تولید کنندگان اتوموبیلهای خودران فراهم کرده است. این سیستم، بهترین پاسخ را با توجه به حالات احساسی کاربر میدهد.
برای سیستمهای هوشمندی که تنها مبتنی بر صوت هستند مانند Echo، شرکت ژاپنی Empath یک API ارائه داده است که به توسعهدهندگان اجازه میدهد تا قابلیت تشخیص احساسات را به سیستمهای تشخیص گفتار خود بیافزایند. سرویس نرمافزاری مبتنی بر ابر آنها یک فایل WAVE را دریافت میکند و حالت احساسی گوینده (شادی، آرام، عصبانی، ناراحت) را ارزیابی میکند. برنامههای فعلی که از این قابلیت استفاده میکنند شامل ابزارهای مدیریتی برای بررسی و ارزیابی خلقوخوی کارمندان از طریق گفتارشان به منظور کمک به بهبود انگیزه آنها هستند و همچنین مراکز تماس هوشمندی را ایجاد میکنند که میتوانند احساسات مشتری و تماسگیرنده را به منظور کمک به بهبود تعاملات در بازاریابی از راه دور تجزیه و تحلیل کنند.