مهمان قسمت دوم پادکست باهوش: رضا اکبر
با هوش برنامه ای با موضوع کاربرد هوش مصنوعی در کسب و کارها است که به کمک شرکت عامر اندیش و با اجرای رسول محمدی تولید شده است. هدف این برنامه افزایش آگاهی در زمینه کاربردهای هوش مصنوعی در کسب و کارها و راه حل های موجود در این حوزه است. در طی قسمت های مختلف مصاحبه هایی با متخصصین و مدیران محصولات مبتنی بر هوش مصنوعی صورت گرفته تا به شکلی کاربردی به چالش ها و راهکارهای موجود در این حوزه پرداخته شود.
در این قسمت از با هوش، به بررسی مشکلات کاربران با سیستم های پاسخگو IVR و راه حل های موجود هوش مصنوعی برای آن پرداخته ایم. مهمان برنامه رضا اکبر، مدیر محصول هوشتل (اپراتور هوشمند مرکز تماس)، می باشد و به سوال های ما راجع به سیستم های IVR، مشکلات و معایب این سیستم و راه حل های رفع آن ها به کمک هوش مصنوعی و مزایایی که محصولات مبتنی بر هوش مصنوعی می تواند برای کسب و کارها ایجاد کند، پاسخ می دهد.
- سلام به شنوندگان باهوش، من رسول محمدی با دومین قسمت از پادکست باهوش درخدمت شما عزیزان هستم. قصد ما در این برنامه افزایش آگاهی در زمینه کاربردهای هوش مصنوعی در کسبوکارها و راه حل های موجود در این حوزه است. این بار رفتیم سراغ استفاده از هوش مصنوعی در مراکز تماس و مهمان باهوش این هفته ما هم رضا اکبر مدیر محصول هوشتل از شرکت عامل اندیش است. رضا جان سلام خیلی خوش آمدی!
- من هم سلام عرض میکنم خدمت شنوندگان برنامه باهوش، و هم به تو رسول عزیز. و اینکه ممنون از این که من را به این برنامه دعوت کردی. امیدوارم که امروز بتوانم به سوالات جواب دادم و یک برنامه خیلی خوب را با هم داشته باشیم. در خدمتتان هستم.
- درود بر تو! همان طور که می دانید موضوع این هفته ما، مشکلات کاربران با پشتیبانی تلفنی IVR و راه حلهایی است که بتوان یه کمک هوش مصنوعی یک تغییر اساسی در پشتیبانی مراکز تماس به وجود آورد. رضا می توانی به ما کمی در مورد تاریخچه ورود IVR به سیستمهای پشتیبانی در دنیا و ایران و این که بعد از حضور IVR چه اتفاقات مثبتی در روند کسب و کارهای مختلف افتاد بگویی؟
- خوب بگذارید من از اول شروع کنم و بگویم سیستم های IVR مخفف چیست. IVR مخفف interactive voice response می باشد و در ادامه میزان interactive بودن و یا مبتنی بر voice بودن آن را بررسی می کنیم. بگذارید من کمی از تاریخچه آن بگویم. اولین بار IVR در سال 1970 وارد بازار می شود و نمونه اولیه آن در سال 1973 برای یک کسب و کار ثبت سفارش به کار می رود. شاید جالب باشد اگر بگویم که این نمونه اولیه مبتنی بر voice با واژگان محدود بود. این واژگان خیلی محدود و شاید تعداد آن به اندازه انگشتان دو دست بود. در حد اینکه بگوید موافقم، اوکی و… . در دهه هشتاد میلادی توکن های DTMF مطرح می شوند که در واقع همان دکمه هایی هستند که ما در حال حاضر در IVR از آن ها استفاده می کنیم. مکانیزم کار آن ها به این صورت است که به ازای هر دکمه دو فرکانس را با هم تلفیق می کند و از تلفیق آن ها یک voice تولید می کند. و این voice همانند یک صدا ارسال می شود و در طرف دیگر این voice رمزگشایی (decode) شده و سیستم متوجه می شود که کدام دکمه فشرده شده است. همانطور که گفته شد این مکانیزم برای اولین بار در دهه 80 میلادی مطرح می شود و از این زمان به بعد سیستم های IVR به سمت استفاده از دکمه های DTMF می رود. از سال 1990 سیستم های IVR به صورتی که ما امروزه می شناسیم در دنیا جا می افتند و استفاده از آن ها بسیار رایج می شود و باعث تحول در کسب و کارها می شود. در قسمت دوم سوال، شما گفتید که اتفاقات مثبتی که با استفاده از IVR در روند کسب و کارها افتاده را بگویم. اگر تنها بر روی کاغذ بخواهیم صحبت کنیم، واضح است که IVR محاسن بسیاری دارد. اما با بررسی بیشتر متوجه چالش های استفاده از IVR می شویم. اگر بخواهیم راجب محاسن IVR مثال بزنیم، می توانیم بگوییم که با استفاده از این سیستم ما می توانستیم پرداخت قبوض را به راحتی انجام دهیم. یا مثلا اگر در آژانس های هواپیمایی از IVR استفاده نمی شد، زمان بسیاری پشت تلفن برای پاسخگویی صرف می شد. من می خواهم به یک نکته اشاره کنم. بسیاری از افراد می پرسند که برای مثال با وجود اپلیکیشن هایی که می شود به راحتی قبض پرداخت کرد، به چه دلیل باید هنوز هم از تلفن استفاده کنیم؟ در تمام دنیا یک واقعیت وجود دارد و این است که تلفن مدیومی است که دیرتر از همه از بین می رود. مثلا در هرجا ممکن است اینترنت قطع شود و یا جایی باشیم که دسترسی به اینترنت نداشته باشیم.
- خیلی از افراد مسن هنوز هم نتوانستن با اپلیکیشن ها ارتباط برقرار کنند.
- بله بسیاری از افراد مسن حتی نمی دانند که چگونه باید از اینترنت استفاده کنند.
- خوب فکر نمی کنید این امر مختص زمان حال است. شاید در آینده که آدم های مسن نیز تجربه کار با اینترنت و اپلیکیشن را دارند، به نظر تو باز هم در آینده تلفن هنوز جزء گزینه های جذاب خواهد بود؟
- ممکن است این جذابیت کمتر شود اما به نظر من هیچگاه حذف نخواهد شد. یعنی تلفن هیچگاه نمی تواند از راه های ارتباطی ما حذف شود. من می خواستم اول با هم به این توافق برسیم که وقتی در مورد بستر تلفن صحبت می کنیم، واقعا بستری است که از آن استفاده می شود و مخاطب های خاص خودش را دارد.
- مرسی رضا از توضیحات تکمیلی ات که خیلی کامل و مفید بود. بیا جلوتر برویم و کمی جزئی تر به موضوعات نگاه کنیم. به نظر تو الان این فرهنگ در عموم جامعه جا افتاده است ک ما با یک شرکت و یا فروشگاه و… تماس بگیریم و سیستم IVR پاسخگوی ما باشد؟ به نظر تو این برای یک کاربر چقدر می توانند کاربردی و یا آزار دهنده باشد؟
- من در سوال قبل نیز اشاره کردم تکنولوژی IVR مبتنی با وارد کردن دکمه، برای سال 1990 بوده است یعنی حدودا برای 30 سال پیش. امروزه استفاده از این تکنولوژی با توجه به اینکه سرعت رشد فناوری بسیار زیاد است، شاید کمی غیر منطقی بنظر برسد و یا حتی استفاده از آن مشکلاتی را به وجود بیاورد.
- برداشت من نیز مشابه است. من احساس می کنم صحبت هایی که با سیستم های IVR می شود یک طرفه می باشد. یعنی به من به عنوان کاربر حس اینکه آیا حق صحبت دارم و یا تنها باید در قالب یکسری دستورات از پیش تعیین شده عمل کنم، منتقل نمی کند. حتی برای من پیش آمده که خیلی از اوقات می خواستم که با یک انسان یا فردی که حرف مرا بفهمد صحبت کنم تا محدودد نشوم به یکسری نمرات و شماره هایی که باید بگیرم. راجب این مسئله چه نظری داری؟
- نکته ای که در سیستم های IVR مبتنی بر وارد کردن دکمه وجود دارد این است که در آن ها عملا یک trade off داریم. اگر تعداد منو ها از یک حدی بیشتر شود، برای مثال در نوبت دهی بیمارستان، اگر شما بخواهید به یک بیمارستان زنگ بزنید و برای یک دکتر نوبت بگیرید، در این صورت سیستم اسامی تمام پزشکان را به ترتیب می خواند و احتمالا شما بعد از اینکه یک تعدادی از اسامی خوانده می شود، نام اول لیست را فراموش می کنید.
- من تجربه این را داشتم که با یک بیمارستان تماس گرفتم و نوبت می خواستم و سیستم IVR اسم 25 درمانگاه را برای من خواند و هنوز هم به اسامی پزشکان نرسیده بود. تازه در سطح اول و من بعد از مدتی تردید داشتم که منظور سیستم از داخلی اطفال و اطفال چیست؟ می خواستم از کسی این را بپرسم که الان من باید داخلی اطفال را بگیرم یا اطفال؟ اما مجبور بودم که یکی از شماره ها را بگیرم و بعد از 5 دقیقه هم نهایتا به نتیجه ای نرسیدم.
- اگر تعداد منوها بالا برود، واقعا آزار دهنده می شود. اگر تعداد منوها کم شود نیز، این مسئله که ما می خواستیم با زدن یک دکمه به هدف برسیم، از بین می رود. یعنی عملا تعداد منوهایی که یک سیستم IVR می دهد یک trade off است. یعنی اگر از یک حدی بیشتر باشد یکسری مشکل به وجود می آید و اگر از یک حدی کمتر باشد یکسری دیگر. به همین دلیل همانطور که گفتی مثلا تعداد زیادی درمانگاه نام برده شده است، و این چیزی است که تا زمانی که ما وابسته باشیم به وارد کردن یکسری دکمه در IVR این مشکلات غیر قابل حل خواهند بود.
- شاید این مسئله باعث ایجاد تقسیم صف و انتظار مخاطب پشت آن صفحه را ایجاد کند. یعنی ما از این سیستم استفاده می کنیم تا صف طولانی که پشت خط پشتیبانی ما تشکیل شده است تا حدودی تقسیم شود تا اپراتور انسانی ما فرصت داشته باشد با آن ها صحبت کند. یعنی برای مثال من پروازهای داخلی را جواب می دهم و همکار من پروازهای خارجی را. همچنان نیز من با یک انسان صحبت می کنم اما تفاوتش در آن است که من می دانم دقیقا با چه واحدی کار دارم. با توجه به اینکه موضوع این برنامه راه حل های هوش مصنوعی برای کمک به بهبود سیستم های IVR یا پشتیبانی است، در حال حاضر هوش مصنوعی چه راهکارهایی می تواند برای آن ارائه دهد؟
- من بحث را با یاد آوری برنامه قبل و قسمت اول پادکست باهوش باز می کنم. در آن برنامه ما مهمان شما به طور کامل راجع به چت بات ها صحبت کرد و من می خواهم فرض را بر این بگذارم که شنوندگان پادکست ما با چت بات ها آشنا هستند. حالا فرض کنیم که ما یک چت بات داریم که بر مبنای voice باشد. یعنی ما با آن و در مقابل چت بات نیز با ما حرف می زند. اگر این صحبت را در بستر تلفن بیاوریم، می توانیم تا حدود زیادی IVR را حذف کنیم و یا جایگزین آن شویم. نکته ای که در اینجا وجود دارد آن است که طبیعتا زمانی که فردی درخواستی دارد، ممکن است آن را به صورت کامل بیان نکند. برای مثال زمانی که یک کاربر برای گرفتن نوبت پزشک با سیستم هوشمند ما تماس می گیرد و می گوید “من یه وقت می خوام برای دکتر احمدی، درمونگاه قلب، دوشنبه هفته آینده”. در این شرایط همه اطلاعات را داده است و بات هوشمند ما اگر آن وقت خالی باشد برایش رزرو می کند.
- ربات این را کامل متوجه می شود؟
- عملا سیستم ما اول voice را به متن تبدیل می کند. سپس از روی متن دیتاهایی که نیاز دارد را استخراج می کند و اگر این دو تکه به صورت دقیق کار کنند، بله ربات صد در صد متوجه می شود. اما طبیعی است که دقت این دو تکه هیچ وقت نمی توانند کاملا به 100 درصد برسد. ولی می توانیم این کار را با دقت خوبی انجام دهیم. به این دلیل که می توانیم آن را بر مبنای حوزه کاری سفارشی سازی کنیم. طوری که دقت بالاتر برود. حالا اگر فرض کنیم کسی تماس بگیرد و بگوید که “یه وقت می خوام برای درمونگاه قلب” ما اینجا می توانیم از او دو سوال بپرسیم: “چه روزی؟” و “کدام دکتر؟”. یعنی سیستم هوشمند ما می تواند از او سوال بپرسد. ممکن است فرد بگوید “برای من فرقی ندارد و هر دکتری که شد، فقط من می خواهم زودتر به درمانگاه قلب بیایم!”. در این جا ما می توانیم به صورت رندوم یکی از پزشکان را انتخاب کنیم و به سراغ سوال بعدی برویم و از او بپرسیم که برای چه زمانی وقت می خواهد. باز هم ممکن است فرد بگوید که اولین زمان خالی. و باز هم در این صورت ما می توانیم به دیتابیس مراجعه کرده و اولین زمان خالی را به او بگوییم. طبیعتا تمام کاربرها پشت تلفن رفتار یکسانی ندارند.
- به نظر من همین که بدانیم که کسی آن طرف تلفن وجود دارد و می تواند خواسته ما را بفهمد، ارزش بیشتری دارد نسبت به زمانی که به صورت محدود یکسری انتخاب شماره انجام دهیم. می خواهم بدانم به قول تو که می گویی رفتار مختلف وجود دارد، آیا ربات این رفتارهای مختلف را متوجه می شود؟ شاید کسی تماس بگیرد و فقط بگوید که “نوبت میخوام!”. در این جا شما چه کار می کنید؟
- ما معمولا در پر کردن دیتاهایی که نیاز داریم، برای خودمات یک اولویت بندی قرار می دهیم. برای مثال زمانی که فردی تماس می گیرد و نوبت می خواهد، مثل همان سیستم IVR که اول اسم درمانگاه را خواند و سپس اسم پزشکان را، ما هم این جا چنین اولویت بندی داریم. یعنی اگر کسی تماس می گیرد و می گوید که “من یه نوبت میخوام” ما اول از او می پرسیم که چه درمانگاهی؟ ممکن است فرد بگوید که من درمانگاه را نمی دانم و در مقابل ما می پرسیم که مشکل تو چیست؟ در این جا ممکن است فرد بگوید که مشکل قلبی، ریوی و … دارم یا اینکه انقدر تخصصی صحبت کند که ربات متوجه آن نشود.
- جایی که متوجه نمی شوید چکار می کنید؟
- چیزی که وجود دارد آن است که ما هیچ وقت نمی خواهیم به طور کامل جایگزین اپراتور انسانی شویم. ما می گوییم کسانی را که می توانند خوب مشکلات خود را بیان کنند ربات پاسخ دهد و آن دسته از افراد که نمی توانند به خوبی مشکلشان را بیان کنند و ربات متوجه شد که نمی تواند جواب آن ها را بدهد تماس را به سک اپراتور انسانی انتقال دهد. این باعث می شود که عملا حجم کار اپراتور انسانی کم شود.
- مثال جالبی زدی. اگر بخواهم مثال عینی دیگری بزنم، به اپلیکیشن های مسیریاب اشاره می کنم. در سال های اخیر استفاده از اپلیکیشن های مسیریاب برای همه ی ما که بخصوص در ترافیک تهران هستیم بسیار رایج شده است. زمانی که می خواهیم از ASR یا تبدیل گفتار به متن مسیریاب استفاده کنیم هیچ وقت نمی گوییم “منو میبری تجریش” یا “بزن بریم تجریش”. چون این فرهنگ برای ما جا افتاده است که قرار است با یک ربات صحبت کنیم و باید شمرده حرف بزنیم. قطعا با همین دقت بالا می توانیم از آن اپلیکیشن مسیریاب یک خروجی خوب بگیریم. من فکر می کنم زمانی که می خواهیم این سیستم ها را راه اندازی کنیم باید از قبل فرهنگسازی انجام دهیم.
- یکی از چالش های اصلی در جایگزینی IVR دکمه ای با IVR مبتنی بر voice که الان موضوع بحث ما هستند، همین می باشد. کیفیت voice زمانی که روی خط تلفن می آید، 8 کیلو هرتز می باشد، یعنی بر خلاف اپلیکیشن مسیریاب که voice را با استفاده از موبایل ضبط می کند و کیفیت خیلی بهتری دارد. نکته دیگر اینکه افراد در پای تلفن محاوره ای صحبت می کنند و کسی پای تلفن نمی گوید که “من یک نوبت از دکتر احمدی می خواهم”. می گوید که ” من یه نوبت می خوام از دکتر احمدی”.
- خوب اگر سیستم شما نتواند با توجه به کیفیت صدا، پاسخ را به من برگرداند شاید من بعد از چند بار کلافه شوم و ترجیح دهم که به سیستم IVR قدیم باز گرددم.
- این یک چالش است. می توان گفت این عملا بزرگترین چالش ما است.
- چه راه حلی دارد؟
- راه حل آن کیفیت واحد تبدیل گفتار به متن است. یعنی ما دیتاهایی که برای آموزش از آن ها استفاده می کنیم را روی همین مدیوم ضبط کنیم و یک مقداری هم domain آن را close کنیم و روی یکسری لغات و کلمات خاص آن را آموزش دهیم.
- به نظرت شرکت هایی که از سیستم های IVR استفاده می کنند و می خواهند از سیستم های پاسخگو مبتنی بر هوش مصنوعی استفاده کنند، باید سیستم های قبلی خود را به طور کامل کنار بگذارند یا اینکه می شود همان سیستم ها را با کمک هوش مصنوعی ارتقاء داد؟
- اگر از دید تجهیزاتی که استفاده می کنند سوال پرسیدی، نه ما هیچ تجهیزات خاص خیلی متفاوتی نمی خواهیم. چون احتمالا اکثر این شرکت ها سیستم IVR آن ها مبتنی بر VOIP بوده و یک VOIP server داشتند و ما هم عملا به عنوان یک داخلی اپراتور انسانی خودمان را بر روی VOIP server آن ها ثبت نام می کنیم و نیازی به تجهیزات خاصی نداریم. اگر منظور سوال این است که چگونه از روی سیستم های IVR به سیستم های هوشمند کوچ کنند، می توانم چند راه حل را بگویم. اول اینکه یک داخلی خاص برای بات اختصاص دهند. یعنی فرد در ابتدا که تماس گرفت به او گفته شود که برای مثال اگر می خواهی با بات حرف بزنی گزینه 1 را بزن و اگر می خواهی با اپراتور انسانی صحبت کنی شماره 2 را بزن. اگر فرد 1 را شماره گیری کند به سمت ربات هوشمند هدایت می شود تا با آن صحبت کند. این امر یکسری مزایا و معایب مخصوص به خود را دارد. راه دیگر آن است که این بات هوشمند عملا به عنوان یکی از اپراتور های داخلی در کنار اپراتورهای انسانی دیگر قرار بگیرد. یعنی فرضا یک شرکت 10 اپراتور انسانی دارد و 5 بات هوشمند در کنار آن ها قرار دهد. هر تماس به صورت تصادفی بر روی این 15 اپراتور تقسیم می شود. یعنی به احتمال 5/15 به سراغ بات های هوشمند طراحی شده ما می آید و به احتمال 10/15 به سمت اپراتور انسانی هدایت می شود. این جا مدیر تصمیم گیرنده می تواند بعد از مدتی بررسی کند و ببیند که آیا کسانی که به سراغ سیستم هوشمند می روند خوب جواب می گیرند یا خیر. بر این اساس می تواند راجع به تعداد بات ها تصمیم گیری کند و عملا می تواند بر اساس تعداد بات ها درصد استفاده کاربرها از سیستم هوشمند را زیاد و کم کند.
- رضا جان ممنون که مهمان این هفته با هوش بودی. موضوعی هست که دوست داشته باشی راجع به آن صحبت کنی و من از تو نپرسیده باشم؟
- موضوع بسیار مهمی وجود دارد که من می خواهم در این برنامه راجع به آن صحبت کنم. ما معمولا در نمایشگاه ها خیلی از طرف افراد با این سوال مواجه می شویم که فرض کنیم اگر سیستم شما به طور کامل و عالی کار کند و بتواند به صورت کامل جواب دهد، آیا قرار است تمام اپراتورهای انسانی بیکار شوند سیستم های هوشمند مبتنی بر هوش مصنوعی جایگزین آن ها شوند؟ و این سوال تا حدی دغدغه آن ها و افراد زیاد دیگری می شود. باید بگویم که نه واقعا این طور نیست. یعنی قرار نیست اپراتور انسانی صد در صد حذف شوند و قرار است در نهایت این سیستم یک دستیار برای آن ها باشد و تماس هایی که می تواند را به خوبی جواب دهد و جواب کاربرهایی که خوب صحبت می کنند را بدهد و کاربرانی که پیچیده یا طولانی صحبت می کنند و یا سوال های سخت می پرسند را به اپراتور انسانی منتقل می کند. یعنی نباید این دغدغه را داشته باشند و باید بدانند که این سیستم ها قرار است به آن ها کمک کند.
- مرسی از تو و همه کسانی که با هوش شنیدند.