امروزه دادههای تصویری به طور عظیمی رشد کردهاند. هوش مصنوعی با سرعتی بیسابقه مقادیر بسیار زیادی از تصویر و ویدیو را به اطلاعات با ارزش و عملی تبدیل میکند. دوربینهای هوش مصنوعی لبهای (Edge) دستگاههای تلفن هوشمند، خودرو، محاسبات، صنعتی و اینترنت اشیا را قادر میسازند تا روش پردازش، بازیابی، بهبود، تجزیه و تحلیل و جستجو و اشتراک ویدیو و تصاویر را دوباره تعریف کنند.
تراشههای پردازشگر سنسور دوربینهای هوش مصنوعی با داشتن قدرت پردازش بالا و حافظه داخلی تعبیه شده اجازه میدهند تا برنامههای بینایی ماشین و بینایی انسان سریعتر، کارآمدتر، مقرون به صرفهتر و بدون ارسال هیچ اطلاعاتی به سرورهای راه دور عمل کنند. طی چند سال گذشته، دوربینهای قابل حمل با کیفیت در دستگاههای مختلف نظیر تلفنهای هوشمند، دستگاههای نظارتی و وسایل نقلیه رباتیکی مانند اتومبیلهای خودمختار استفاده شدهاند.
تمام این پیشرفتها در نتیجه تلفیق هوش مصنوعی و پردازش تصویر به وجود آمدهاند. یادگیری ماشین نه تنها برای بالا بردن کیفیت فیلم و عکس گرفته شده توسط دوربینها، بلکه همچنین برای درک مطالب ویدئویی مانند یک انسان استفاده میشوند. یعنی با هدف اینکه ماشینها مانند یک انسان بتوانند اشیا، وقایع و حتی اتفاقها را در یک قاب شناسایی، تشخیص و طبقهبندی کنند. برنامههای بینایی ماشین و بینایی انسانی مبتنی بر هوش مصنوعی لبهای بیشتر توسط تلفنهای هوشمند، وسایل نقلیه رباتیک، خودرو، لوازم الکترونیکی مصرفی، سیستم عاملهای تلفن همراه و بازارهای مشابه سرور لبهای استفاده میشوند.
تلفنهای هوشمند و خودرو به دلیل رشد سریع و داشتن بیشترین حجم درآمد و خرید و فروش، بیشتر از سایر بخشها در محاسبات بینایی ماشین لبهای تاثیر گذارند. OMDIA TRACTICAپیشبینی میکند که تلفنهای همراه به تنهایی بیش از 50٪ از بازار جهانی تراشههای هوش مصنوعی در سال 2025 را به خود اختصاص دهد.
پردازش سیگنال تصویر (ISP)
تولیدکنندگانی مانند سون، گوگل، اپل، سامسونگ، هواوی، آنر، شیائومی، ویوو، اوپو و دیگران هنگام عرضه گوشیهای هوشمند جدیدشان به بازار آنها را با سنسور دوربین مجهز به هوش مصنوعی ادغام میکنند. در ساخت دوربینهای مجهز به هوش مصنوعی از فنآوریهای سنتی پردازش سیگنال تصویر و بینایی کامپیوتری مدرن و شبکههای یادگیری ماشین عمیق استفاده میشود. ISPها معمولاً کیفیت تصویر را بهبود میبخشند و همچنین مولفه تک رنگ به ازای هر پیکسل خروجی در تصویر خام را به تصاویر RGB یا YUV که معمولاً در جاهای دیگر سیستم استفاده میشوند، تبدیل میکنند.
یک ISP در ترکیب با پردازنده بینایی ماشین مبتنی بر هوش مصنوعی، میتواند تصویر قویتر و قابل پردازش بیشتری را نسبت به ISP مستقل ارائه دهد. به طور سنتی، ISPها برای پردازش تصاویر با هدف شبیهسازی بینایی انسان پیادهسازی شدهاند. با این حال هنگام اداره برنامههای کاربردی که هم از برنامه بینایی ماشین و هم از بینایی انسان استفاده میکنند، برای اجرای کارآمد و موثر الگوریتم بینایی کامپیوتری مبتنی بر یادگیری سنتی و یادگیری عمیق، نیاز به یک تغییر عملکرد است.
امروزه بسیاری از برنامههای دوربین مبتنی بر هوش مصنوعی به ارسال تصاویر و فیلمها به فضای ابری برای تجزیه و تحلیل متکی هستند و این کار باعث میشود پردازش دادهها کند شود و امنیت کمتری داشته باشد. علاوه بر این، تولید کنندگان باید برای انجام محاسبات، پردازندههای تخصصی یا GPU را بر روی دستگاهها نصب کنند. یک راه حل سادهتر برای انجام محاسبات بینایی ماشین لبهای، استفاده از تراشههای پردازنده هوش مصنوعی اختصاصی، کممصرف و با عملکرد بالا است که قادر به مدیریت الگوریتمهای یادگیری عمیق برای افزایش کیفیت تصویر و تجزیه و تحلیل هستند. یکی از این راه حلها تراشههای پردازنده مشترک Gyrfalcon Technology AI هستند.
حواس شبیه انسان
هدف نهایی یک دوربین بر پایه هوش مصنوعی، تقلید از چشم و مغز انسان و درک آنچه دوربین از طریق هوش مصنوعی تصور میکند است. ماژولهای دوربین مجهز به هوش مصنوعی با ثبت تصاویر پیشرفته و همچنین آنالیز تصویر، آگاهی از محتوا، شناسایی الگو و رویدادها مزایای متمایزی را نسبت به دوربینهای استاندارد ارائه میدهند. دوربینهای مجهز به هوش مصنوعی تصاویر فوری گوشیهای هوشمند شما را به عکسهایی با کیفیت DSLR تبدیل میکنند.
امروزه نیاز به استفاده از هوش مصنوعی در دستگاههایی که پردازش تصاویر را خودشان انجام میدهند بر هیچ کس پوشیده نیست و رقابت برای طراحی تراشههای پردازش لبهای یکپارچه و بهینهسازی شده، آغاز شدهاست. پردازش لبهای در هوش مصنوعی به ویژه محاسبات بینایی ماشین، ضمن افزایش سرعت، از بین بردن نیاز به پهنای باند، کم کردن تأخیر، پایین آوردن مصرف برق و هزینههای محاسبات ابری، توانسته است نگرانیهای مربوط به حریم خصوصی را نیز از بین ببرد. از آنجا که فروش دستگاههای مجهز به هوش مصنوعی برای انجام سریعتر محاسبات به سرعت در حال افزایش است، نیاز به تراشههای شتاب دهنده در پردازش لبهای هوش مصنوعی بیشتر شده است.
دوربینهای موبایل مجهز به هوش مصنوعی اکنون میتوانند تصاویری ثبت کنند که قابل رقابت با دوربینهای پیشرفته DSLR هستند. با این وجود، به دلیل اندازه و فاکتورهای پردازش لبهای تلفنهای هوشمند، موبایلها قادر به حمل سنسورهای تصویری یا لنزهای بزرگ نیستند. این چالش تولیدکنندگان را مجبور میکند تا با هدف افزایش کیفیت تصویر تکنولوژیهای ضبط تصویر، بازسازی تصویر و تجزیه و تحلیل تصویر را تلفیق کرده و فناوریهای پردازش تصویر را توسعه دهند. ورود هوش مصنوعی و یادگیری عمیق توانسته است یک استراتژی پردازش تصویر جایگزین را برای افزایش کیفیت تصویر و برنامههای بینایی ماشین نظیر تشخیص و شناسایی اشیا، تجزیه و تحلیل و جستجوی محتوا و… فراهم کند.
یادگیری عمیق
یادگیری عمیق شاخهای از الگوریتم های یادگیری ماشین است که هدف از آن یادگیری نمایش سلسله مراتبی دادهها است. یادگیری عمیق برتری خود را نسبت به دیگر الگوریتمهای یادگیری ماشین در بسیاری از حوزههای هوش مصنوعی مانند بینایی ماشین، تشخیص گفتار و پردازش زبان طبیعی نشان دادهاست. به طور کلی، توانایی بالای یادگیری عمیق برای پردازش دادههای ساختار نیافته به سه عامل نسبت داده میشود: (۱)توسعه سختافزار محاسباتی کارآمد (۲)در دسترس بودن مقادیر انبوه داده و (۳) توسعه الگوریتمهای پیچیده.
تصاویر گرفته شده به دلیل رزولوشن پایین، تجهیزات غیر دقیق یا شرایط جوی و محیطی نامناسب، دارای کیفیت پایین و نویز هستند و حالت موزاییکی دارند. به منظور افزایش کیفیت تصویر الگوریتمهای پویای شبکه عصبی از یک تراشه هوش مصنوعی با کارایی بالا، مقرون به صرفه و موثر استفاده میشود. در نتیجه رویههایی با هدف افزایش رزولوشن و دامنه دینامیکی (HDR) و از بین بردن حالت موزاییکی تصویر و نویز به CMOS دستگاهها افزوده میشوند.
یک سنسور تصویر هوشمند در یک دوربین هوش مصنوعی میتواند پردازش، بهبود، بازسازی و تجزیه و تحلیل تصاویر و فیلمهای ضبط شده را به صورت لبهای و با ترکیب یک موتور ISP سنتی با شبکههای بینایی ماشین مبتنی بر یادگیری عمیق را انجام دهد.
یک تراشه شتابدهنده شبکه عصبی با عملکرد بالا گزینه مناسبی برای ترکیب با توابع پردازش سیگنال تصویر است که پیش از این توسط یک ISP مستقل اداره میشدند. خروجی سنسور CMOS را میتوان ابتدا توسط یک ISP به منظور اصلاح اعوجاج لنز، تصحیح پیکسل و رنگ و از بین بردن نویز پردازش کرد و سپس برای انجام پردازشهای بیشتر آن را به به یک پردازنده تصویر یادگیری عمیق هدایت کرد. این سنسورهای هوشمند نو ظهور نه تنها نور را ثبت میکنند بلکه جزئیات، معنا، درک صحنه و اطلاعات مرتبط با نور مقابل خود را نیز ثبت میکنند.
پردازش لبهای مشترک
یک دوربین مجهز به هوش مصنوعی با استفاده از یک تراشه پردازنده مشترک اختصاصی مانند Gyrfalcon و با داشتن الگوریتمهای نوآورانه یادگیری عمیق، میتواند یک راه حل مبتنی بر بینایی ماشین برای حسگرهای CMOS هوشمند تلفنهای هوشمند و خودرو ارائه دهد. خط لوله پیچیده ISP را میتوان با یک مدل یادگیری عمیق بدون هیچگونه دانش قبلی در مورد سنسور و اپتیک مورد استفاده در یک دستگاه خاص، جایگزین کرد.
بسته به نوع برنامههای هدف و نیازهای عملکردی، یک تراشه پردازنده تصویر هوش مصنوعی به همراه معماری یادگیری عمیق شبکههای عصبی پیشرفته و قابلیتهای چند وجهی وضوح فوق العاده (SR) میتواند از گزینههای مختلف فاکتورهای ارتقا و اندازه تصویر پشتیبانی کند در حالی که میتواند در حالتهای مختلف بهبود تصویر نیز کار کند. برخی از این قابلیتها میتوانند شامل زوم با کیفیت بالا، تفکیکپذیری، محدوده دینامیکی بالا (HDR) چند حالته، الگوریتمهای کاهش نویز مبتنی بر هوش مصنوعی باشند.
یک ماژول دوربین مجهز به هوش مصنوعی با تراشه یکپارچه پردازنده تصویر، میتواند تصاویر 4K فوقالعاده با کیفیت (UHD) با فریمریت بالا و PSNR پیشرفته، کیفیت بصری زیاد و هزینه کم در مقایسه با پردازندههای مرسوم SR مبتنی بر شبکههای عصبی کامپیوتری تولید کند.
هدف حسگرهای CMOS هوشمند در حال ظهور ادغام عملکرد ISP و پردازنده شبکه یادگیری عمیق در یک پردازنده مشترک هوش مصنوعی است. یک پردازنده مشترک تصویر هوش مصنوعی میتواند مستقیما از دادههای خام خروجی سنسور برای ایجاد تصاویر با کیفیتی شبیه تصاویر دوربینهای DSLR استفاده کند و همچنین نتایج بسیار دقیق بینایی کامپیوتری را در یک ماژول دوربین ادغام کند. وجود یک پردازنده تصویر هوش مصنوعی بر روی دستگاه مزایای بیشماری از جمله افزایش کیفیت بینایی ماشین، عملکرد بالاتر، بهبود حریم خصوصی، کاهش پهنای باند و تأخیر، کاهش بار محاسباتی پردازنده، استفاده بهینه از انرژی را به همراه دارد. در نتیجه میتوان همیشه و در همه جا بدون نیاز به اینترنت از این دستگاهها استفاده کرد.