در سالهای اخیر تعداد زیادی از دانشمندان فعال در حوزه کامپیوتر در سراسر جهان بر روی توسعه مدلهایی مبتنی بر شبکه عصبی عمیق کار کردهاند که میتواند احساسات افراد را بر اساس حالت چهره آنها پیشبینی کند. اما تاکنون بیشتر مدلهای ساخته شده صرفاً حالتهای عاطفی اولیه مانند خشم، شادی، غم و اندوه را تشخیص میدهند و همچنان تشخیص جنبههای ظریفتری از احساسات انسانی برای آنها یک چالش حل نشده است.
همچنین تحقیقات روانشناسی ابعاد زیادی از احساسات را ترسیم کرده است، به عنوان مثال در مبحثی مانند ظرفیت (نمایش احساسی چقدر مثبت است) و برانگیختگی (شخص در هنگام ابراز احساسات چه مقدار هیجان دارد) را معرفی میکند. برای اکثر انسانها تخمین ظرفیت و برانگیختگی کاری بسیار آسان بوده و به سادگی با نگاه کردن به چهره افراد قابل محاسبه است، اما این موضوع برای ماشینها میتواند بسیار چالشبرانگیز باشد.
محققان هوش مصنوعی در شرکت سامسونگ با همکاری کالج امپریال لندن به تازگی سیستمی مبتنی بر شبکه عصبی عمیق ایجاد کردهاند که میتواند با تجزیه و تحلیل تصاویر از چهرههای انسانی گرفته شده در محیطهای روزمره، ظرفیت و هیجان احساسی را با دقت بالایی تخمین بزند. این مدل که جزئیات آن در مقالهای در Nature Machine Intelligence منتشر شده، میتواند احساسات را خیلی سریع پیشبینی کند، به این معنی که میتوان از آن برای تشخیص کیفیتهای ظریف احساسات در لحظه استفاده کرد. تشخیص احساسات انقدر سریع است که به عنوان مثال میتواند ازعکسهای دوربینهای مداربسته برای تشخیص استفاده کند.
تیم تحقیقاتی این پروژه به TechXplore گفتند: “برای انجام تشخیص احساسات گذشته از سختافزار با عملکرد بالا، سیستمهای یادگیری ماشین به دو عنصر اساسی دیگر نیاز دارند، مجموعهای عظیم از دادهها و همچنین الگوریتمهای مناسب. تیم تحقیقاتی این پروژه در مطالعات گذشته خود مجموعه دادههایی را جمعآوری کردند که میتواند برای آموزش شبکههای عصبی عمیق جهت شناسایی احساسات استفاده شود. از جمله این مجموعه دادهها میتوان به AFEW-VA و SEWA اشاره کرد.”
محققان گفتند: “هنگام ایجاد مجموعه داده AFEW-VA، ما برای دستیابی به اصل طبیعت گرایی، برخلاف شرایط آزمایشگاهی و کنترل شده، دادههایی که از آن برای آموزش مدل استفاده میشود باید در طبیعت جمعآوری شود. همانطور که در پروژه جمعآوری داده SEWA نیز فرهنگ نقشی اساسی ایفا میکند.”
محققان پس از جمعآوری مجموعههای داده حاوی تصاویری از چهرههای انسانی که در محیطهای واقعی ضبط شدهاند، مدلی را ایجاد کردند که رویکردهای سنتی تشخیص احساسات را با دیگر نظریههای مربوط به احساسات ادغام میکند. الگوریتم یادگیری عمیقی که آنها ایجاد کردهاند ، به سادگی با پردازش تصاویر مربوط به چهرهی انسانها ، میتوانند ظرفیت و برانگیختگی را با دقت بالایی تخمین بزنند. البته گفتنی است چه وقتی این تصاویر در آزمایشگاه گرفته شوند و چه در محیطهای واقعی، نرمافزار همچنان عملکرد خوبی دارد.
محققان گفتند: “هدف اصلی پروژه ما این است که با استفاده از تصاویر از چهره یک فرد، میزان ظرفیت (میزان مثبت یا منفی بودن وضعیت ذهنی) و برانگیختگی (تجربههای وی چقدر آرامش بخش یا مهیج است) را در لحظه و به شکلی قابل اعتماد تخمین بزنیم.”
سیستم جدید به وسیله تصاویر حاوی اطلاعات مربوط به ظرفیت و برانگیختگی آموزش داده شد. سپس سیستم حالتهای صورت را با استفاده از نشانههای مشخص مانند محل قرارگیری لبها، بینی و چشمهای یک فرد به عنوان مرجع تجزیه و تحلیل میکند. این امر باعث میشود تا سیستم بتواند روی مناطقی از صورت متمرکز شود که بیشترین میزان ظرفیت و تحریک را دارند.
محققان توضیح دادند: “در ارزیابیهای اولیه روش یادگیری عمیق قادر به ارزیابی میزان برانگیختگی و هیجان از تصاویر مربوط به چهرههای گرفته شده در شرایط طبیعی با سطح بیسابقهای از دقت بود. نکته قابل توجه این است که هنگام آزمایش روی مجموعه دادههای AffectNet و SEWA، سیستم به خوبی هوش انسانی متخصص عمل میکند.”
روش یادگیری عمیق علاوه بر عملکرد خوب به راحتی قابل اجرا است، زیرا پیشبینیهای خود را بر اساس تصاویر سادهی گرفته شده توسط دوربینهای معمولی انجام میدهد. این امر سیستم را برای طیف گستردهای از برنامهها ایده آل میکند. به عنوان مثال، میتوان از آن برای انجام تجزیه و تحلیل بازار یا ساخت رباتهای اجتماعی استفاده کرد که درک بهتری از احساسات انسان داشته باشند و بر این اساس واکنش نشان دهند.
تاکنون سیستمهای مبتنی بر شبکه عصبی عمیق فقط برای تجزیه و تحلیل تصاویر ثابت آموزش دیدهاند. اگرچه از نظر تئوری میتوان آنها را در فیلمهای ویدئویی نیز به کار برد. بنابراین محققان در آینده قصد دارند سیستم خود را بیشتر توسعه دهند تا بتوان از آن برای تخمین ظرفیت و برانگیختگی احساسی از تصاویر متحرک و فیلمها استفاده کرد. محققان افزودند: “ما یک روش جدید برای آموزش شبکه عصبی از روی تصاویر ساکن برای تعمیم دادههای مکانی زمانی ابداع کردیم. این مزیت به این معنا است که ما آموزش شبکههای مکانی زمانی را بسیار سریعتر انجام میدهیم در حالی که به دادههایی بسیار کمتر نیاز داریم.”