با درک گفتار، فراتر از ASR یا تشخیص خودکار گفتار حرکت کنیم

درک‌گفتار : حرکتی فراتر از تشخیص خودکار گفتار

یادگیری عمیق DevCon 2020 یا (DLDC2020) یکی از کنفرانس‌های مهم سال است که با همکاری مجله Analytics India برگزار می‌شود. این کنفرانس که برای 29 و 30 اکتبر برنامه ریزی شده است، متخصصان برجسته و بهترین ذهن‌های صنعت یادگیری عمیق و یادگیری ماشین را از سراسر جهان گرد هم جمع کرد.

اولین جلسه کنفرانس با ارایه ابهیناو توشار(Abhinav Tushar)، رئیس هوش مصنوعی استارت آپ هوش مصنوعی گفتاری (Vernacular.AI) واقع در بنگالوور (Bengaluru) هند آغاز شد. جنبه اصلی این کنفرانس این موضوع بود که:”درک گفتار : حرکتی فراتر از تشخیص خودکار گفتار است.” اگرچه تعاملات گفتاری مبتنی بر نوشتار اکنون در این صنعت وجود دارد، ولی با این‌وجود، تعامل‌های گفتاری هنوز در مراحل ابتدایی خود است.

درک‌گفتار : حرکتی فراتر از تشخیص خودکار گفتار

توشار سخنرانی خود را با توضیح درباره اهمیت گفتار و احساساتی که پشت آن نهفته، آغار نمود. وی گفت که گفتار بسیار متفاوت از متن و بسیار پیچیده‌تر از آن است. وی چنین افزود که: “گفتار بسیار بیش از رونویسی است و این باید بر چگونگی طراحی عوامل گفتگو تاثیرگذار باشد. ”

توشار چنین افزود که که فاکتورهایی مانند محتوا، محیط، ویژگی‌های سخنران و زبان‌شناسی بر پاسخ‌ها تاثیرگذارند. او همچنین به نمونه‌ای از اشکال مختلف “okays” که توسط افراد مختلف گفته شده، اشاره نمود که هر یک بیانگر احساسات گوناگونی در زمان‌های متفاوت است.

وی سپس در مورد عملکرد چت بات صوتی مبتنی بر هوش مصنوعی که در استارت آپ (Vernacular.AI) ساخته شده و چگونگی تقلید آن از رفتار انسان بحث و گفتگو کرد.

درک‌گفتار
درک‌گفتار

چارچوب بات ذکر شده (که مبتنی بر درک گفتار است) در بالا از گام‌های زیر پیروی می‌کند:

  • زمانی که کاربر سخن می‌گوید، گفتار به سوی بلوک تشخیص گفتار می‌رود، جایی که گفتار از آن استخراج می‌گردد.
  • سپس به سوی سیستم تشخیص خودکار گفتار حرکت می‌کند که شامل مدل اکوستیک، مدل تلفظی و مدل زبانی است.
  • پس از آن، برای درک چارچوب مانند طبقه‌بندی منظور، پیش‌پردازش و تجزیه موجودیت به سوی جلو حرکت می‌کند.
  • مرحله بعدی، مدیریت محتو و پردازش مدیریت گفت‌وگو است.
  • سپس به گام نهایی می‌رسیم، جایی که متن به گفتار تبدیل شده و به سوی کاربر ارسال می‌گردد.

علاوه‌براین، توشار گفت‌وگوی خود را درباره مراحل رفتار فوق واژگانی که برپایه عکس فوری، جریان و رفتارهای متقاعدکننده ادامه داد.

  • مبتنی بر عکس فوری (Snapshot-based): بات ساخته شده توسط این شرکت قادر به درک گفتار و رفتاری عکس‌های فوری و انجام اقدامات ساده است. این ویژگی شامل وام گرفتن از برخی نشانه‌ها، شناسایی ویژگی‌های شخصی و تغییر سریع و غیره است.
  • مبتنی بر جریان (flow-based): در گام مربوط به مبتنی بر جریان، سیستم در چندین نوبت کار می‌کند و می‌تواند تعمیرات اساسی را انجام دهد. این ویژگی شامل ردیابی مدام نارحتی، تغییر در تجربه جریان بر پایه شرایط و غیره است.
  • در مرحله متقاعدکننده، سیستم طرف مقابل را برای ادامه گفت‌وگو را ترغیب کرده و مکالمه را پیش می‌برد. این ویژگی‌ها شامل درک و استفاده از عدم قطعیت و اولویت‌ها، شرایط مدل، مانور و غیره است.

برای ساخت چنین سیستم‌های هوشمندی، توشار این‌گونه نتیجه گرفت که باید اجزایی مانند زیر برای درک گفتار بهتر در بات‌های هوشمند لحاظ شوند:

  • مدل‌های سبک و معنایی
  • ردیابی حالت
  • چارچوب تجربه زنده

 

 

لینک کوتاه شده : https://amerandish.com/YxxWE

به اشتراک بگذارید

دیدگاهتان را بنویسید

نشانی ایمیل شما منتشر نخواهد شد. بخش‌های موردنیاز علامت‌گذاری شده‌اند *

فارس آوا

تبدیل گفتار به متن

باتاوا

دستیارسازمانی - چت بات

هوشتل

اپراتورهوشمند مرکز تماس

_ مطالب مرتبط _