الگوریتمی برای تخمین میزان احساسات و تحریک عاطفی با استفاده از تجزیه و تحلیل تصاویر چهره انسان

در سال‌های اخیر تعداد زیادی از دانشمندان فعال در حوزه کامپیوتر در سراسر جهان بر روی توسعه مدل‌هایی مبتنی بر شبکه عصبی عمیق کار کرده‌اند که می‌تواند احساسات افراد را بر اساس حالت چهره آن‌ها پیش‌بینی کند. اما تاکنون بیشتر مدل‌های ساخته شده صرفاً حالت‌های عاطفی اولیه مانند خشم، شادی، غم و اندوه را تشخیص می‌دهند و همچنان تشخیص جنبه‌های ظریف‌تری از احساسات انسانی برای آنها یک چالش حل نشده است.

همچنین تحقیقات روانشناسی ابعاد زیادی از احساسات را ترسیم کرده است، به عنوان مثال در مبحثی مانند ظرفیت (نمایش احساسی چقدر مثبت است) و برانگیختگی (شخص در هنگام ابراز احساسات چه مقدار هیجان دارد) را معرفی می‌کند. برای اکثر انسان‌ها تخمین ظرفیت و برانگیختگی کاری بسیار آسان بوده و به سادگی با نگاه کردن به چهره افراد قابل محاسبه است، اما این موضوع برای ماشین‌ها می‌تواند بسیار چالش‌برانگیز باشد.

محققان هوش مصنوعی در شرکت سامسونگ با همکاری کالج امپریال لندن به تازگی سیستمی مبتنی بر شبکه عصبی عمیق ایجاد کرده‌اند که می‌تواند با تجزیه و تحلیل تصاویر از چهره‌های انسانی گرفته شده در محیط‌های روزمره، ظرفیت و هیجان احساسی را با دقت بالایی تخمین بزند. این مدل که جزئیات آن در مقاله‌ای در Nature Machine Intelligence منتشر شده، می‌تواند احساسات را خیلی سریع پیش‌بینی کند، به این معنی که می‌توان از آن برای تشخیص کیفیت‌های ظریف احساسات در لحظه استفاده کرد. تشخیص احساسات انقدر سریع است که به عنوان مثال می‌تواند ازعکس‌های دوربین‌های مداربسته برای تشخیص استفاده کند.

تیم تحقیقاتی این پروژه به TechXplore گفتند: “برای انجام تشخیص احساسات گذشته از سخت‌افزار با عملکرد بالا، سیستم‌های یادگیری ماشین به دو عنصر اساسی دیگر نیاز دارند، مجموعه‌ای عظیم از داده‌ها و همچنین الگوریتم‌های مناسب. تیم تحقیقاتی این پروژه در مطالعات گذشته خود مجموعه داده‌هایی را جمع‌آوری کردند که می‌تواند برای آموزش شبکه‌های عصبی عمیق جهت شناسایی احساسات استفاده شود. از جمله این مجموعه داده‌ها می‌توان به AFEW-VA و SEWA اشاره کرد.”

محققان گفتند: “هنگام ایجاد مجموعه داده AFEW-VA، ما برای دستیابی به اصل طبیعت گرایی، برخلاف شرایط آزمایشگاهی و کنترل شده، داده‌هایی که از آن برای آموزش مدل استفاده می‌شود باید در طبیعت جمع‌آوری شود. همانطور که در پروژه جمع‌آوری داده‌ SEWA نیز فرهنگ نقشی اساسی ایفا می‌کند.”

محققان پس از جمع‌آوری مجموعه‌های داده حاوی تصاویری از چهره‌های انسانی که در محیط‌های واقعی ضبط شده‌اند، مدلی را ایجاد کردند که رویکردهای سنتی تشخیص احساسات را با دیگر نظریه‌های مربوط به احساسات ادغام می‌کند. الگوریتم یادگیری عمیقی که آن‌ها ایجاد کرده‌اند ، به سادگی با پردازش تصاویر مربوط به چهره‌ی انسان‌ها ، می‌توانند ظرفیت و برانگیختگی را با دقت بالایی تخمین بزنند. البته گفتنی است چه وقتی این تصاویر در آزمایشگاه گرفته شوند و چه در محیط‌های واقعی، نرم‌افزار همچنان عملکرد خوبی دارد.

محققان گفتند: “هدف اصلی پروژه ما این است که با استفاده از تصاویر از چهره یک فرد، میزان ظرفیت (میزان مثبت یا منفی بودن وضعیت ذهنی) و برانگیختگی (تجربه‌های وی چقدر آرامش بخش یا مهیج است) را در لحظه و به شکلی قابل اعتماد تخمین بزنیم.”

سیستم جدید به وسیله تصاویر حاوی اطلاعات مربوط به ظرفیت و برانگیختگی آموزش داده شد. سپس سیستم حالت‌های صورت را با استفاده از نشانه‌های مشخص مانند محل قرارگیری لب‌ها، بینی و چشم‌های یک فرد به عنوان مرجع تجزیه و تحلیل می‌کند. این امر باعث می‌شود تا سیستم بتواند روی مناطقی از صورت متمرکز شود که بیشترین میزان ظرفیت و تحریک را دارند.

محققان توضیح دادند: “در ارزیابی‌های اولیه روش یادگیری عمیق قادر به ارزیابی میزان برانگیختگی و هیجان از تصاویر مربوط به چهره‌های گرفته شده در شرایط طبیعی با سطح بی‌سابقه‌ای از دقت بود. نکته قابل توجه این است که هنگام آزمایش روی مجموعه داده‌های AffectNet  و SEWA، سیستم به خوبی هوش انسانی متخصص عمل می‌کند.”

روش یادگیری عمیق علاوه بر عملکرد خوب به راحتی قابل اجرا است، زیرا پیش‌بینی‌های خود را بر اساس تصاویر ساده‌ی گرفته شده توسط دوربین‌های معمولی انجام می‌دهد. این امر سیستم را برای طیف گسترده‌ای از برنامه‌ها ایده آل می‌کند. به عنوان مثال، می‌توان از آن برای انجام تجزیه و تحلیل بازار یا ساخت ربات‌های اجتماعی استفاده کرد که درک بهتری از احساسات انسان داشته باشند و بر این اساس واکنش نشان دهند.

تاکنون سیستم‌های مبتنی بر شبکه عصبی عمیق فقط برای تجزیه و تحلیل تصاویر ثابت آموزش دیده‌اند. اگرچه از نظر تئوری می‌توان آن‌ها را در فیلم‌های ویدئویی نیز به کار برد. بنابراین محققان در آینده قصد دارند سیستم خود را بیشتر توسعه دهند تا بتوان از آن برای تخمین ظرفیت و برانگیختگی احساسی از تصاویر متحرک و فیلم‌ها استفاده کرد. محققان افزودند: “ما یک روش جدید برای آموزش شبکه عصبی از روی تصاویر ساکن برای تعمیم داده‌های مکانی زمانی ابداع کردیم. این مزیت به این معنا است که ما آموزش شبکه‌های مکانی زمانی را بسیار سریعتر انجام می‌دهیم در حالی که به داده‌هایی بسیار کمتر نیاز داریم.”

لینک کوتاه شده : https://amerandish.com/CrjDB

به اشتراک بگذارید

دیدگاهتان را بنویسید

نشانی ایمیل شما منتشر نخواهد شد. بخش‌های موردنیاز علامت‌گذاری شده‌اند *

_ مطالب مرتبط _

درخواست شما با موفقیت ارسال شد.

ضمن تشکر بابت ارسال پیام، در سریع‌ترین زمان ممکن کارشناسان شرکت عامراندیش درخواست شما را بررسی خواهند نمود.