رویکرد جدید یادگیری ماشین، عکس های دیجیتال را زنده می‌کند

هر روز میلیاردها عکس و فیلم در اپلیکیشن‌های مختلف رسانههای اجتماعی بارگذاری میشود. مشکلی که در تصاویر استاندارد گرفته شده توسط تلفن‌های هوشمند یا دوربین دیجیتال وجود دارد، این است که آن‌ها فقط از یک زاویه خاص یک صحنه را ضبط و ذخیره میکنند. در صورتی که در واقعیت ما می‌توانیم حرکت کنیم و از زوایای مختلف یک منظره را مشاهده کنیم. دانشمندان کامپیوتر، در تلاش‌اند تا تجربه‌ای را برای کاربران فراهم کنند که به آن‌ها امکان مشاهده یک صحنه از زوایای مختلف را بدهد؛ اما برای دستیابی به این هدف به تجهیزات دوربین ویژهای نیاز است که تهیه آن برای یک فرد با درآمد معمولی به راحتی در دسترس نیست.
دکتر نیما کلانتری، استاد گروه علوم کامپیوتر و مهندسی دانشگاه A&M تگزاس و مهندس کینبو لی (Qinbo Li) برای تسهیل روند کار، رویکردی مبتنی بر یادگیری ماشین (machine learning) را ایجاد نموده‌اند که به کاربران امکان میدهد تا بتوانند با استفاده از این رویکرد زوایای مختلف یک تصویر گرفته شده را مشاهده نمایند. 

رویکرد جدید یادگیری ماشین، عکس‌های دیجیتال را زنده می‌کند
به گفته نیما کلانتری، از فرآیند سَنتِز نمایش یک عکس نیز می‌توان برای تولید تصاویری استفاده نمود که تمرکز (focus) بر روی قسمت دیگری از تصویر ایجاد شده باشد.

کلانتری گفت: «مزیت این روش، این است که اکنون ما به ثبت یک صحنه به روشی خاص و یا استفاده از تجهیزات گران قیمت محدود نخواهیم بود. ما می‌توانیم هر تصویری را حتی با قدمت 100 ساله در اینترنت دانلود و با استفاده از این روش آن را زنده کنیم و از زوایای مختلف به آن نگاه کنیم 

سنتز منظره فرآیند تولید عکس‌های جدید از زوایای جدید از یک شی یا صحنه مشخص است. به‌منظور ایجاد تصاویر جدید، از اطلاعات مربوط به فاصله بین اشیا در صحنه برای ایجاد یک عکس مصنوعی به واسطه‌ی یک دوربین مجازی که در نقاط مختلف صحنه (زوایای مختلف) قرار گرفته استفاده میشود. در طی چند دهه گذشته، روشهای مختلفی برای سنتز تصاویر جدید مشاهده شده است، اما بسیاری از آن‌ها نیاز به شخصی دارند که به صورت دستی در یک زمان، چندین عکس از زوایای مختلف یک صحنه بگیرد. که این فرآیند دشواری‌های خاص خود را دارد و ممکن است زمان زیادی را برای ایجاد یک چنین تصویری هدر دهد. با این حال، این روش قدیمی و زمان‌بر است همچنین برای تولید تصاویر جدید از تنها یک عکس مناسب نیست و نیاز به عکس‌برداری‌های متعدد دارد، برای ساده سازی فرآیند، محققان پیشنهاد می‌کنند که فرآیند مشابه‌ی را برای رسیدن به یک عکس زنده طی شود که در آن برای ورودی فقط از یک عکس استفاده شود. 

کلانتری گفت: «هنگامی که چندین تصویر دارید، می‌توانید محل اشیا موجود در صحنه را از طریق فرآیندی به نام مثلث بندی تخمین بزنید. این بدان معناست که شما به عنوان مثال میتوانید بگویید، شخصی در جلوی دوربین قرار دارد که خانه‌‌ای در پشت سر اوست و سپس کوه در پس زمینه قرار دارد. این برای فرآیند سنتز منظره بسیار مهم است. اما وقتی یک تصویر واحد دارید، همه این اطلاعات باید از همان یک تصویر استنباط شود، که قاعدتاً چالش برانگیز است.» 

اخیراً با افزایش روز افزون یادگیری عمیق (Deep Learning) که زیرمجموعهای از یادگیری ماشین (Machine Learning) است، جایی که شبکههای عصبی مصنوعی برای حل مسائل پیچیده با آموزش دیدن از حجم زیادی از اطلاعات سر و کار دارند، مسئله سنتز منظره” از یک تصویر توجه بسیار زیادی را به خود جلب کرده است. علی رغم اینکه این روش برای استفاده یک کاربر قابل دسترستر است، اما می‌تواند برای یک کامپیوتر، برنامه‌ی چالش برانگیزی باشد زیرا اطلاعات کافی برای تخمین محل اشیا در صحنه وجود ندارد. 

این گروه برای آموزش یک شبکه یادگیری عمیق برای ایجاد منظره جدیدی که بر اساس یک عکس ورودی به وجود آمده باشد، مجموعه بزرگی از تصاویر و تصاویر با منظره جدید مربوط به همان تصاویر را به هوش مصنوعی نشان دادند. اگرچه این عمل یک فرآیند دشوار است، اما شبکه به آن نیاز دارد تا به مرور زمان یاد بگیرد چگونه از پس آن برآید. یک جنبه اساسی این رویکرد این است که برای سادهتر کردن روند آموزش و برای فعالیت شبکه، مدلسازی عکس ورودی الزامی است. اما کلانتری و لی در آزمایشات اولیه راه حلی برای انجام این کار و ساخت چنین مدلی نداشتند. 

کلانتری گفت: «ما متوجه شدیم که توضیح و شرح دادن تصویر، برای آموزش دیدن بهینه‌ی شبکه بسیار مهم است.» 

این محققها برای کنترل پذیرتر شدن فرآیند آموزش، تصویر ورودی را به یک تصویر چند صفحهای تبدیل کردند که نوعی نمایش سه بعدی لایهای بود. ابتدا آنها تصویر را با توجه به اشیا موجود در صحنه به عمقهای مختلف تقسیم کردند. سپس، برای تولید عکسی از صحنه از منظره جدید، هواپیماها را به روشی خاص جلوی یکدیگر حرکت داده و آنها را ترکیب کردند. با استفاده از این شرح و توضیح به شبکه، شبکه میآموزد که موقعیت اشیا را در تصویر استنباط کند. 

«کلانتری» و «لی» برای آموزش دیدن کارآمد این شبکه، به آن به مجموعهای متشکل از بیش از 2000 تصویر منحصر به فرد نشان دادند که حاوی اشیا مختلف بود. آنها اثبات کردند که رویکرد آنها میتواند تصاویر بسیار با کیفیتی از تصاویر با مناظر متنوع ایجاد نماید که از روشهای پیشرفته قبلی بهتر خواهد بود. 

محققان در حال حاضر در تلاشند رویکرد خود را برای سنتز فیلمها نیز گسترش دهند. از آن‌جا که فیلمها اساساً دستهای از تصاویر منفرد هستند که به صورت متوالی و به سرعت پخش میشوند، میتوانند از روش خود برای ایجاد تصویرهای جدید از هر یک از تصاویر به طور مستقل و در زمانهای مختلف استفاده کنند. اما وقتی ویدیوی تازه ایجاد شده پخش میشود، در تصویر پَرِش وجود دارد و ثابت نیست. 

کلانتری اضافه کرد: «ما در تلاش هستیم تا این جنبه از رویکردمان را بهبود ببخشیم تا خروجی فیلم تولید شده از زوایای مختلف نیز مناسب باشد.» 

از روش سنتز یک تصویر نیز میتوان برای تولید تصاویری که تمرکز لنز دوربین تغییر یابد نیز استفاده کرد. همچنین این روش میتواند به طور بالقوه در واقعیت مجازی (VR) و برنامههای واقعیت افزوده (AR) مانند بازیهای ویدیویی و انواع مختلف نرم افزارها استفاده شود. که در آنها به شما امکان این را میدهد که یک محیط بصری خاص را کشف و تجربه کنید.

منبع: techxplore

لینک کوتاه شده : https://amerandish.com/nUHxY

به اشتراک بگذارید

دیدگاهتان را بنویسید

نشانی ایمیل شما منتشر نخواهد شد. بخش‌های موردنیاز علامت‌گذاری شده‌اند *

_ مطالب مرتبط _

درخواست شما با موفقیت ارسال شد.

ضمن تشکر بابت ارسال پیام، در سریع‌ترین زمان ممکن کارشناسان شرکت عامراندیش درخواست شما را بررسی خواهند نمود.