خانه » رویکرد جدید یادگیری ماشین، عکس های دیجیتال را زنده می‌کند

رویکرد جدید یادگیری ماشین، عکس های دیجیتال را زنده می‌کند

هر روز میلیاردها عکس و فیلم در اپلیکیشن‌های مختلف رسانه‌های اجتماعی بارگذاری می‌شود. مشکلی که در تصاویر استاندارد گرفته شده توسط تلفن‌های هوشمند یا دوربین دیجیتال وجود دارد، این است که آن‌ها فقط از یک زاویه خاص یک صحنه را ضبط و ذخیره می‌کنند. در صورتی که در واقعیت ما می‌توانیم حرکت کنیم و از زوایای مختلف یک منظره را مشاهده کنیم. دانشمندان کامپیوتر، در تلاش‌اند تا تجربه‌ای را برای کاربران فراهم کنند که به آن‌ها امکان مشاهده یک صحنه از زوایای مختلف را بدهد؛ اما برای دستیابی به این هدف به تجهیزات دوربین ویژه‌ای نیاز است که تهیه آن برای یک فرد با درآمد معمولی به راحتی در دسترس نیست.
دکتر نیما کلانتری، استاد گروه علوم کامپیوتر و مهندسی دانشگاه A&M تگزاس و مهندس کینبو لی (Qinbo Li) برای تسهیل روند کار، رویکردی مبتنی بر یادگیری ماشین (machine learning) را ایجاد نموده‌اند که به کاربران امکان می‌دهد تا بتوانند با استفاده از این رویکرد زوایای مختلف یک تصویر گرفته شده را مشاهده نمایند.

کلانتری گفت: «مزیت این روش، این است که اکنون ما به ثبت یک صحنه به روشی خاص و یا استفاده از تجهیزات گران قیمت محدود نخواهیم بود. ما می‌توانیم هر تصویری را حتی با قدمت 100 ساله در اینترنت دانلود و با استفاده از این روش آن را زنده کنیم و از زوایای مختلف به آن نگاه کنیم.»

“سنتز منظره“ فرآیند تولید عکس‌های جدید از زوایای جدید از یک شی یا صحنه مشخص است. به‌منظور ایجاد تصاویر جدید، از اطلاعات مربوط به فاصله بین اشیا در صحنه برای ایجاد یک عکس مصنوعی به واسطه‌ی یک دوربین مجازی که در نقاط مختلف صحنه (زوایای مختلف) قرار گرفته استفاده می‌شود. در طی چند دهه گذشته، روش‌های مختلفی برای سنتز تصاویر جدید مشاهده شده است، اما بسیاری از آن‌ها نیاز به شخصی دارند که به صورت دستی در یک زمان، چندین عکس از زوایای مختلف یک صحنه بگیرد. که این فرآیند دشواری‌های خاص خود را دارد و ممکن است زمان زیادی را برای ایجاد یک چنین تصویری هدر دهد. با این حال، این روش قدیمی و زمان‌بر است همچنین برای تولید تصاویر جدید از تنها یک عکس مناسب نیست و نیاز به عکس‌برداری‌های متعدد دارد، برای ساده سازی فرآیند، محققان پیشنهاد می‌کنند که فرآیند مشابه‌ی را برای رسیدن به یک عکس زنده طی شود که در آن برای ورودی فقط از یک عکس استفاده شود.

کلانتری گفت: «هنگامی که چندین تصویر دارید، می‌توانید محل اشیا موجود در صحنه را از طریق فرآیندی به نام مثلث بندی تخمین بزنید. این بدان معناست که شما به عنوان مثال می‌توانید بگویید، شخصی در جلوی دوربین قرار دارد که خانه‌‌ای در پشت سر اوست و سپس کوه در پس زمینه قرار دارد. این برای فرآیند “سنتز منظره“ بسیار مهم است. اما وقتی یک تصویر واحد دارید، همه این اطلاعات باید از همان یک تصویر استنباط شود، که قاعدتاً چالش برانگیز است.»

اخیراً با افزایش روز افزون یادگیری عمیق (Deep Learning) که زیرمجموعه‌ای از یادگیری ماشین (Machine Learning) است، جایی که شبکه‌های عصبی مصنوعی برای حل مسائل پیچیده با آموزش دیدن از حجم زیادی از اطلاعات سر و کار دارند، مسئله “سنتز منظره” از یک تصویر توجه بسیار زیادی را به خود جلب کرده است. علی رغم اینکه این روش برای استفاده یک کاربر قابل دسترس‌تر است، اما می‌تواند برای یک کامپیوتر، برنامه‌ی چالش برانگیزی باشد زیرا اطلاعات کافی برای تخمین محل اشیا در صحنه وجود ندارد.

این گروه برای آموزش یک شبکه یادگیری عمیق برای ایجاد منظره جدیدی که بر اساس یک عکس ورودی به وجود آمده باشد، مجموعه بزرگی از تصاویر و تصاویر با منظره جدید مربوط به همان تصاویر را به هوش مصنوعی نشان دادند. اگرچه این عمل یک فرآیند دشوار است، اما شبکه به آن نیاز دارد تا به مرور زمان یاد بگیرد چگونه از پس آن برآید. یک جنبه اساسی این رویکرد این است که برای ساده‌تر کردن روند آموزش و برای فعالیت شبکه، مدلسازی عکس ورودی الزامی است. اما “کلانتری“ و “لی“ در آزمایشات اولیه راه حلی برای انجام این کار و ساخت چنین مدلی نداشتند.

کلانتری گفت: «ما متوجه شدیم که توضیح و شرح دادن تصویر، برای آموزش دیدن بهینه‌ی شبکه بسیار مهم است.»

این محقق‌ها برای کنترل پذیرتر شدن فرآیند آموزش، تصویر ورودی را به یک تصویر چند صفحه‌ای تبدیل کردند که نوعی نمایش سه بعدی لایه‌ای بود. ابتدا آن‌ها تصویر را با توجه به اشیا موجود در صحنه به عمق‌های مختلف تقسیم کردند. سپس، برای تولید عکسی از صحنه از منظره جدید، هواپیماها را به روشی خاص جلوی یکدیگر حرکت داده و آن‌ها را ترکیب کردند. با استفاده از این شرح و توضیح به شبکه، شبکه می‌آموزد که موقعیت اشیا را در تصویر استنباط کند.

«کلانتری» و «لی» برای آموزش دیدن کارآمد این شبکه، به آن به مجموعه‌ای متشکل از بیش از 2000 تصویر منحصر به فرد نشان دادند که حاوی اشیا مختلف بود. آن‌ها اثبات کردند که رویکرد آن‌ها می‌تواند تصاویر بسیار با کیفیتی از تصاویر با مناظر متنوع ایجاد نماید که از روش‌های پیشرفته قبلی بهتر خواهد بود.

محققان در حال حاضر در تلاشند رویکرد خود را برای سنتز فیلم‌ها نیز گسترش دهند. از آن‌جا که فیلم‌ها اساساً دسته‌ای از تصاویر منفرد هستند که به صورت متوالی و به سرعت پخش می‌شوند، می‌توانند از روش خود برای ایجاد تصویرهای جدید از هر یک از تصاویر به طور مستقل و در زمان‌های مختلف استفاده کنند. اما وقتی ویدیوی تازه ایجاد شده پخش می‌شود، در تصویر پَرِش وجود دارد و ثابت نیست.

کلانتری اضافه کرد: «ما در تلاش هستیم تا این جنبه از رویکردمان را بهبود ببخشیم تا خروجی فیلم تولید شده از زوایای مختلف نیز مناسب باشد.»

از روش سنتز یک تصویر نیز می‌توان برای تولید تصاویری که تمرکز لنز دوربین تغییر یابد نیز استفاده کرد. همچنین این روش می‌تواند به طور بالقوه در واقعیت مجازی (VR) و برنامه‌های واقعیت افزوده (AR) مانند بازی‌های ویدیویی و انواع مختلف نرم افزارها استفاده شود. که در آنها به شما امکان این را می‌دهد که یک محیط بصری خاص را کشف و تجربه کنید.