هر روز میلیاردها عکس و فیلم در اپلیکیشنهای مختلف رسانههای اجتماعی بارگذاری میشود. مشکلی که در تصاویر استاندارد گرفته شده توسط تلفنهای هوشمند یا دوربین دیجیتال وجود دارد، این است که آنها فقط از یک زاویه خاص یک صحنه را ضبط و ذخیره میکنند. در صورتی که در واقعیت ما میتوانیم حرکت کنیم و از زوایای مختلف یک منظره را مشاهده کنیم. دانشمندان کامپیوتر، در تلاشاند تا تجربهای را برای کاربران فراهم کنند که به آنها امکان مشاهده یک صحنه از زوایای مختلف را بدهد؛ اما برای دستیابی به این هدف به تجهیزات دوربین ویژهای نیاز است که تهیه آن برای یک فرد با درآمد معمولی به راحتی در دسترس نیست.
دکتر نیما کلانتری، استاد گروه علوم کامپیوتر و مهندسی دانشگاه A&M تگزاس و مهندس کینبو لی (Qinbo Li) برای تسهیل روند کار، رویکردی مبتنی بر یادگیری ماشین (machine learning) را ایجاد نمودهاند که به کاربران امکان میدهد تا بتوانند با استفاده از این رویکرد زوایای مختلف یک تصویر گرفته شده را مشاهده نمایند.
کلانتری گفت: «مزیت این روش، این است که اکنون ما به ثبت یک صحنه به روشی خاص و یا استفاده از تجهیزات گران قیمت محدود نخواهیم بود. ما میتوانیم هر تصویری را حتی با قدمت 100 ساله در اینترنت دانلود و با استفاده از این روش آن را زنده کنیم و از زوایای مختلف به آن نگاه کنیم.»
“سنتز منظره“ فرآیند تولید عکسهای جدید از زوایای جدید از یک شی یا صحنه مشخص است. بهمنظور ایجاد تصاویر جدید، از اطلاعات مربوط به فاصله بین اشیا در صحنه برای ایجاد یک عکس مصنوعی به واسطهی یک دوربین مجازی که در نقاط مختلف صحنه (زوایای مختلف) قرار گرفته استفاده میشود. در طی چند دهه گذشته، روشهای مختلفی برای سنتز تصاویر جدید مشاهده شده است، اما بسیاری از آنها نیاز به شخصی دارند که به صورت دستی در یک زمان، چندین عکس از زوایای مختلف یک صحنه بگیرد. که این فرآیند دشواریهای خاص خود را دارد و ممکن است زمان زیادی را برای ایجاد یک چنین تصویری هدر دهد. با این حال، این روش قدیمی و زمانبر است همچنین برای تولید تصاویر جدید از تنها یک عکس مناسب نیست و نیاز به عکسبرداریهای متعدد دارد، برای ساده سازی فرآیند، محققان پیشنهاد میکنند که فرآیند مشابهی را برای رسیدن به یک عکس زنده طی شود که در آن برای ورودی فقط از یک عکس استفاده شود.
کلانتری گفت: «هنگامی که چندین تصویر دارید، میتوانید محل اشیا موجود در صحنه را از طریق فرآیندی به نام مثلث بندی تخمین بزنید. این بدان معناست که شما به عنوان مثال میتوانید بگویید، شخصی در جلوی دوربین قرار دارد که خانهای در پشت سر اوست و سپس کوه در پس زمینه قرار دارد. این برای فرآیند “سنتز منظره“ بسیار مهم است. اما وقتی یک تصویر واحد دارید، همه این اطلاعات باید از همان یک تصویر استنباط شود، که قاعدتاً چالش برانگیز است.»
اخیراً با افزایش روز افزون یادگیری عمیق (Deep Learning) که زیرمجموعهای از یادگیری ماشین (Machine Learning) است، جایی که شبکههای عصبی مصنوعی برای حل مسائل پیچیده با آموزش دیدن از حجم زیادی از اطلاعات سر و کار دارند، مسئله “سنتز منظره” از یک تصویر توجه بسیار زیادی را به خود جلب کرده است. علی رغم اینکه این روش برای استفاده یک کاربر قابل دسترستر است، اما میتواند برای یک کامپیوتر، برنامهی چالش برانگیزی باشد زیرا اطلاعات کافی برای تخمین محل اشیا در صحنه وجود ندارد.
این گروه برای آموزش یک شبکه یادگیری عمیق برای ایجاد منظره جدیدی که بر اساس یک عکس ورودی به وجود آمده باشد، مجموعه بزرگی از تصاویر و تصاویر با منظره جدید مربوط به همان تصاویر را به هوش مصنوعی نشان دادند. اگرچه این عمل یک فرآیند دشوار است، اما شبکه به آن نیاز دارد تا به مرور زمان یاد بگیرد چگونه از پس آن برآید. یک جنبه اساسی این رویکرد این است که برای سادهتر کردن روند آموزش و برای فعالیت شبکه، مدلسازی عکس ورودی الزامی است. اما “کلانتری“ و “لی“ در آزمایشات اولیه راه حلی برای انجام این کار و ساخت چنین مدلی نداشتند.
کلانتری گفت: «ما متوجه شدیم که توضیح و شرح دادن تصویر، برای آموزش دیدن بهینهی شبکه بسیار مهم است.»
این محققها برای کنترل پذیرتر شدن فرآیند آموزش، تصویر ورودی را به یک تصویر چند صفحهای تبدیل کردند که نوعی نمایش سه بعدی لایهای بود. ابتدا آنها تصویر را با توجه به اشیا موجود در صحنه به عمقهای مختلف تقسیم کردند. سپس، برای تولید عکسی از صحنه از منظره جدید، هواپیماها را به روشی خاص جلوی یکدیگر حرکت داده و آنها را ترکیب کردند. با استفاده از این شرح و توضیح به شبکه، شبکه میآموزد که موقعیت اشیا را در تصویر استنباط کند.
«کلانتری» و «لی» برای آموزش دیدن کارآمد این شبکه، به آن به مجموعهای متشکل از بیش از 2000 تصویر منحصر به فرد نشان دادند که حاوی اشیا مختلف بود. آنها اثبات کردند که رویکرد آنها میتواند تصاویر بسیار با کیفیتی از تصاویر با مناظر متنوع ایجاد نماید که از روشهای پیشرفته قبلی بهتر خواهد بود.
محققان در حال حاضر در تلاشند رویکرد خود را برای سنتز فیلمها نیز گسترش دهند. از آنجا که فیلمها اساساً دستهای از تصاویر منفرد هستند که به صورت متوالی و به سرعت پخش میشوند، میتوانند از روش خود برای ایجاد تصویرهای جدید از هر یک از تصاویر به طور مستقل و در زمانهای مختلف استفاده کنند. اما وقتی ویدیوی تازه ایجاد شده پخش میشود، در تصویر پَرِش وجود دارد و ثابت نیست.
کلانتری اضافه کرد: «ما در تلاش هستیم تا این جنبه از رویکردمان را بهبود ببخشیم تا خروجی فیلم تولید شده از زوایای مختلف نیز مناسب باشد.»
از روش سنتز یک تصویر نیز میتوان برای تولید تصاویری که تمرکز لنز دوربین تغییر یابد نیز استفاده کرد. همچنین این روش میتواند به طور بالقوه در واقعیت مجازی (VR) و برنامههای واقعیت افزوده (AR) مانند بازیهای ویدیویی و انواع مختلف نرم افزارها استفاده شود. که در آنها به شما امکان این را میدهد که یک محیط بصری خاص را کشف و تجربه کنید.
منبع: techxplore