درکگفتار : حرکتی فراتر از تشخیص خودکار گفتار
یادگیری عمیق DevCon 2020 یا (DLDC2020) یکی از کنفرانسهای مهم سال است که با همکاری مجله Analytics India برگزار میشود. این کنفرانس که برای 29 و 30 اکتبر برنامه ریزی شده است، متخصصان برجسته و بهترین ذهنهای صنعت یادگیری عمیق و یادگیری ماشین را از سراسر جهان گرد هم جمع کرد.
اولین جلسه کنفرانس با ارایه ابهیناو توشار(Abhinav Tushar)، رئیس هوش مصنوعی استارت آپ هوش مصنوعی گفتاری (Vernacular.AI) واقع در بنگالوور (Bengaluru) هند آغاز شد. جنبه اصلی این کنفرانس این موضوع بود که:”درک گفتار : حرکتی فراتر از تشخیص خودکار گفتار است.” اگرچه تعاملات گفتاری مبتنی بر نوشتار اکنون در این صنعت وجود دارد، ولی با اینوجود، تعاملهای گفتاری هنوز در مراحل ابتدایی خود است.
درکگفتار : حرکتی فراتر از تشخیص خودکار گفتار
توشار سخنرانی خود را با توضیح درباره اهمیت گفتار و احساساتی که پشت آن نهفته، آغار نمود. وی گفت که گفتار بسیار متفاوت از متن و بسیار پیچیدهتر از آن است. وی چنین افزود که: “گفتار بسیار بیش از رونویسی است و این باید بر چگونگی طراحی عوامل گفتگو تاثیرگذار باشد. ”
توشار چنین افزود که که فاکتورهایی مانند محتوا، محیط، ویژگیهای سخنران و زبانشناسی بر پاسخها تاثیرگذارند. او همچنین به نمونهای از اشکال مختلف “okays” که توسط افراد مختلف گفته شده، اشاره نمود که هر یک بیانگر احساسات گوناگونی در زمانهای متفاوت است.
وی سپس در مورد عملکرد چت بات صوتی مبتنی بر هوش مصنوعی که در استارت آپ (Vernacular.AI) ساخته شده و چگونگی تقلید آن از رفتار انسان بحث و گفتگو کرد.
چارچوب بات ذکر شده (که مبتنی بر درک گفتار است) در بالا از گامهای زیر پیروی میکند:
- زمانی که کاربر سخن میگوید، گفتار به سوی بلوک تشخیص گفتار میرود، جایی که گفتار از آن استخراج میگردد.
- سپس به سوی سیستم تشخیص خودکار گفتار حرکت میکند که شامل مدل اکوستیک، مدل تلفظی و مدل زبانی است.
- پس از آن، برای درک چارچوب مانند طبقهبندی منظور، پیشپردازش و تجزیه موجودیت به سوی جلو حرکت میکند.
- مرحله بعدی، مدیریت محتو و پردازش مدیریت گفتوگو است.
- سپس به گام نهایی میرسیم، جایی که متن به گفتار تبدیل شده و به سوی کاربر ارسال میگردد.
علاوهبراین، توشار گفتوگوی خود را درباره مراحل رفتار فوق واژگانی که برپایه عکس فوری، جریان و رفتارهای متقاعدکننده ادامه داد.
- مبتنی بر عکس فوری (Snapshot-based): بات ساخته شده توسط این شرکت قادر به درک گفتار و رفتاری عکسهای فوری و انجام اقدامات ساده است. این ویژگی شامل وام گرفتن از برخی نشانهها، شناسایی ویژگیهای شخصی و تغییر سریع و غیره است.
- مبتنی بر جریان (flow-based): در گام مربوط به مبتنی بر جریان، سیستم در چندین نوبت کار میکند و میتواند تعمیرات اساسی را انجام دهد. این ویژگی شامل ردیابی مدام نارحتی، تغییر در تجربه جریان بر پایه شرایط و غیره است.
- در مرحله متقاعدکننده، سیستم طرف مقابل را برای ادامه گفتوگو را ترغیب کرده و مکالمه را پیش میبرد. این ویژگیها شامل درک و استفاده از عدم قطعیت و اولویتها، شرایط مدل، مانور و غیره است.
برای ساخت چنین سیستمهای هوشمندی، توشار اینگونه نتیجه گرفت که باید اجزایی مانند زیر برای درک گفتار بهتر در باتهای هوشمند لحاظ شوند:
- مدلهای سبک و معنایی
- ردیابی حالت
- چارچوب تجربه زنده