پژوهشگران در حال ساخت مجموعههای متنوعی آموزشی هستند که شامل اطلاعاتی از افراد کم بینا و افرادی با بیماریهای حرکتی مانند ALS است.
افراد نابینا، ویلچرنشین و یا افراد مبتلا به اوتیسم، اغلب آخرین گروه هستند که برای تکالیف روزمره خود مانند ارتباطات با دیگران، خواندن، مسافرت کردن از آخرین فناوریهای روز دنیا استفاده میکنند. هوش مصنوعی میتواند بسیاری از این سرویسها و خدمات مورد استفاده توسط این گروهها، مانند تشخیص صدا و یا تشخیص اشیا را قدرت ببخشد. در بسیاری از موارد، پردازش تصویر مایکروسافت متمرکز بر محصولاتی است که بر روی دادههای افراد توانا یا دارای مشکلات عصبی معمولی آموزش داده شدهاند. این بدان معناست که الگوریتمها ممکن است درک محدودی از انواع بدن، سبکهای ارتباطی و حالتهای متفاوت چهره داشته باشند.
مایکروسافت در حال همکاری با پژوهشگران و گروههای حامی برای حل این نقص بزرگ در دادههای موجود است و سعی دارد تا با ایجاد مجموعهای از دادههای صحیح، انواع مختلف کاربران و سناریوهای واقعی را بهتر منعکس سازد. مایکروسافت در پستی که در اکتبر سال جاری منتشر شد، درباره چالشهای پیش رو سخن گفته است.
پردازش تصویر مبتنی بر هوش مصنوعی مایکروسافت
اگر در الگوریتمهای به کار رفته در اتوموبیلهای خودران برای تشخیص عابرپیاده از نمونههای افراد ویلچرنشین استفاده نشود و یا وضعیت گوناگون بدن یا مدل راه رفتن افراد پیر و مسن، برای آنها به درستی تعریف نگردد، ممکن است قادر به شناخت چنین افرادی به عنوان یک مورد قابل تشخیص نشوند و نتوانند به درستی تخمین بزنند که برای عدم برخورد به آنها، چه مدت زمانی لازم است. زیر این افراد نسبت به افراد سالم، زمان بیشتری برای عبور از عرض خیابان نیاز دارند.
مدلهای پردازش تصویر مایکروسافت مبتنی بر هوش مصنوعی مورد استفاده در فرایندهای استخدام که با خواندن شخصیت و تفسیر حالتهای کاندیداهای استخدام، آنها را واجد شرایط برای شغلی معرفی میکند، ممکن است برخی از نشانهها را بد برداشت کند و بدین ترتیب ممکن است کاندیداهایی واجد شرایط ولی با اختلالاتی همچون اوتیسم یا دیگر ویژگیهای روحی را به کل، در نظر نگیرد. الگوریتمهایی که قادر به خواندن دستخط افراد هستند، نمیتوانند دستخط افرادی که درگیر بیماریهای لرزشی مانند پارکینسون هستند، به درستی متوجه شوند. سیستمهای تشخیص حالتهای بدن ممکن است در تشخیص افرادی که بخشی از اندامهایشان قطع شده و یا شکل ظاهری اندامشان با انسانهای معمول متفاوت است، به مشکل برمیخورند.
براساس گفتههای کیت کرافورد (Kate Crewford)، محقق ارشد در قسمت پژوهشی پردازش تصویر مایکروسافت نیویورک، بنیانگذار عدل، پاسخگویی، شفافیت و اصول اخلاقی (FATE) هوشمصنوعی این شرکت در پستی در یک وبلاگ اینگونه میگوید که:” این نمونهها به این پرسش، اشاره مستقیم دارد که واژه “نرمال” چگونه توسط سیستمهای هوش مصنوعی تعریف میشود و چه کسی تصمیم میگیرد که این واژه را اینگونه تعریف نماید.”
زمینههای مورد بررسی رنجهای گستردهای دارند، از تشخیص تصویر افراد نابینا یا کمبینا گرفته تا بهبود تشخیص چهره برای افراد مبتلا به اسکلروز جانبی آمیوتروفیک (ALS) است. پژوهشگران مایکروسافت همچنین در حال مطالعه در چگونگی مجموعه دادههای عمومی مورد استفاده برای آموزش سیستمهای هوش مصنوعی از جمله، مجموعه دادههایی مرتبط با افراد بالاتر از 80 سال است. بنابراین داشتن اطلاعات از افراد مسن میتواند الگوریتمها را در مورد افرد مسن هوشمندتر سازد. در اینجا به برخی از پروژههایی اشاره شده که مایکروسافت با بودجه یا تخصص فنی از آنها پشتیبانی میکند.
پردازش تصویر مایکروسافت: تشخیص اشیا برای آموزش تصویر نابینایان (ORBIT)
این پروژه در حال ساخت یک مجموعه داده عمومی از تصاویر گرفته شده توسط افراد نابینا یا کم بینا است. هدف از این پروژه، شخصیسازی تشخیص تصویر است تا یک الگوریتم بتواند عصا یا مجموعهای از کلیدهای خاص را شناسایی کند. الگوریتمهای تشخیص عمومی شی قادر به انجام چنین کارهایی نیست.
WizWiz Data Set
پژوهشگران دانشگاه تگزاس در آستین (Austin) در حال ساخت مجموعهای هستند که در دانشگاه کارنگی ملون (Carnegie Mellon) آغاز شده است. هدف از این پروژه این است که با افراد نابینا یا کم بینا کار شود تا انتظاهای آنها از ابزار زیرنویس هوشمصنوعی بهتر درک شود و نحوه تفسیر الگوریتمهای پردازش تصویر مایکروسافت در عکسهای گرفته شده توسط افراد نابینا بهبود یابد. دانا گوراری (Danna Guari)، استادیار دانشگاه تگزاس در آستین، در حال ساخت یک مجموعه داده عمومی جدید برای آموزش، اعتبارسنجی و آزمایش الگوریتمهای عنوان تصویر (image captioning algorithm) است. این مجموعه داده، شامل بیش از 39000 تصویر گرفته شده توسط شرکتکنندگان نابینا و کم بینا است.
بینش پروژه در پردازش تصویر مایکروسافت
این پروژه با همکاری تیم گلسیون (Team Gleason) مجموعه دادهای باز از تصاویر چهره افراد مبتلا به ALS را ایجاد کرده تا بینایی رایانه را بهبود بخشد و مدلهای هوش مصنوعی (AI) مربوطه را روی مجموعه داده گستردهتری آموزش دهد. تیم گلسیون (Team Gleason)، یک سازمان غیرانتفاعی است که با ارایه فناوری و تجهیزات نوآورانه و دگر پشتیبانیها به افرادی که مبتلا به ALS هستند، کمک میکند.