کاربردهای پردازش ویدیو به کمک هوش مصنوعی

کاربردهای پردازش ویدیو به کمک هوش مصنوعی

در چند سال گذشته، پردازش ویدیو، که به عنوان تحلیل محتوای ویدیو یا تحلیل ویدئویی هوشمند شناخته می شود، هم از نظر صنعتی و هم از نظر دانشگاهی توجه بیشتری را به خود جلب کرده است. به لطف پیشرفت‌های عظیم که در یادگیری عمیق صورت گرفته است، پردازش ویدیویی، وظایفی که زمانی مختص انسان بودند را، به حالت اتوماسیون درآورده است.

پیشرفت‌های اخیر در ‌پردازش ویدیو، به طورکل تحول بزرگی بوده است. از شمارش افراد در رویدادها و جشن‌ها گرفته تا تشخیص چهره، پلاک خودرو، تشخیص چهره‌های سرشناس، مانند بازیگران و غیره. دوربین‌های مدار بسته در به منظور شناسایی رویدادهای خاص مانند تصادفات رانندگی است وسایل نقلیه را رصد می‌کنند و در شرایط خطر هشدار می‌دهند.

این نوع فناوری عالی به نظر می رسد، اما چگونه کار می کند و چگونه می تواند به نفع تجارت شما باشد؟

در این متن، مفهوم اصلی پردازش ویدیویی، نحوه استفاده از آن در دنیای واقعی برای خودکار سازی فرآیندها و به دست آوردن بینش‌های ارزشمند، و آنچه را هنگام اجرای راه حل‌های هوشمند پردازش ویدیویی در سازمان خود استفاده می کنید باید بدانید، متوجه خواهید شد.

پردازش هوشمند ویدیو چیست؟

هدف اصلی از ‌پردازش ویدیو، شناسایی خودکار وقایع زمانی و مکانی در فیلم‌ها است. شخصی که به طور مشکوک حرکت می کند، علائم راهنمایی و رانندگی که رعایت نمی شود، ظهور ناگهانی شعله‌های آتش و دود؛ اینها فقط چند نمونه از آنچه که یک راه حل پردازش ویدیویی می تواند تشخیص دهد، هستند.

پردازش فیلم و زمان کاوی فیلم به صورت بلادرنگ

برخی از سیستم‌ها نظارت به صورت بلادرنگ را انجام می دهند که در آن اشیاء، ویژگی‌های اشیاء، الگوهای حرکات یا رفتارهای مربوط به محیط مانیتور شده شناسایی می‌شوند. پردازش ویدئویی در این موارد می‌تواند مورد استفاده قرار گیرد. برای تحلیل داده‌ها، باید به روندهای قبلی نیز توجه کنیم:

  • بیشترین زمان حضور مشتری در فروشگاه من چقدر است و متوسط سن مشتریان من چقدر است؟
  • چند بار چراغ، قرمز می‌شود؟ و کدام پلاک‌ها بیشتر چراغ قرمز را رعایت می‌کنند؟

برخی از کاربردهای شناخته شده

برخی از کاربردهای پردازش ویدئویی برای عموم مردم شناخته شده است. یک نمونه از این قبیل، نظارت بر فیلم دوربین‌های مدار بسته است، کاری که تقریباً ۵۰ سال است که وجود دارد. در اصل، این ایده ساده است: دوربین‌ها به صورت استراتژیک در محل‌هایی نصب می‌شوند تا به اپراتورهای انسانی امکان کنترل آنچه اتفاق می در یک اتاق، منطقه یا فضای عمومی اتفاق می‌افتند را شاهد باشند.

اما این کار، به حرف ساده است. معمولاً هر اپراتور مسئول بیش از یک دوربین است. همانطور که چندین مطالعه نشان داده اند، افزایش تعداد دوربین‌هایی که باید مورد نظارت قرار گیرند، بر عملکرد اپراتور تأثیر منفی می گذارد. به عبارت دیگر، حتی اگر مقدار زیادی سخت افزار در دسترس باشد و سیگنال‌هایی را تولید کند، رسیدگی به سیگنال‌ها، به دلیل محدودیت انسانی با مشکل مواجه می‌شود.

نرم افزار پردازش فیلم با ارائه ابزاری برای برخورد دقیق با حجم اطلاعات، می تواند بسیار کمک کننده باشد.

پردازش ویدیویی با یادگیری عمیق

یادگیری ماشین و به ویژه رشد چشمگیر رویکردهای یادگیری عمیق، تحلیلی در پردازش ویدیویی ایجاد کرده است.

استفاده از شبکه‌های عصبی عمیق (DNNs) امکان آموزش سیستم‌های پردازش ویدیویی را با تقلید از رفتار انسان فراهم کرده است و در نتیجه آن پارادایم‌ها تغیر کرده‌اند. این کار با سیستم‌هایی مبتنی بر تکنیک‌های کلاسیک بینایی رایانه آغاز شده است (به عنوان مثال در صورت تاریک شدن تصویر دوربین یا تغییر شدید آن در صورت هشدار) به سمت سیستم‌هایی با قابلیت شناسایی اشیاء خاص در یک تصویر حرکت کرده و مسیر آنها را ردیابی می‌کند.

به عنوان مثال، تشخیص نوری کاراکتر  (OCR) برای چندین دهه برای استخراج متن از تصاویر استفاده شده است. در اصل، کافی است که الگوریتم‌های  OCR را مستقیماً بر روی تصویر یک پلاک خودرو اعمال کنیم تا پلاک را تشخیص دهد. در پارادایم قبلی، اگر دوربین به گونه ای قرار گرفته باشد که در زمان اجرای OCR، یقین داشته باشیم که در حال فیلمبرداری از پلاک هستیم، این روند ممکن است، کار کند.

یک نمونه واقعی

از کاربردهای واقعی این امر می توان به شناسایی پلاک‌ها در اماکن و پارکینگ، جایی که دوربین در نزدیکی دروازه‌ها قرار دارد و می تواند در هنگام توقف ماشین پلاک فیلمبرداری کند، اشاره کرد. با این وجود، اجرای OCR  به طور مداوم بر روی تصاویر از دوربین ترافیک قابل اعتماد نیست: اگر OCR نتیجه‌ای را برگرداند، چگونه می توانیم مطمئن باشیم که واقعاً با پلاک خودرو مطابقت دارد؟

در الگوی جدید، مدل‌های مبتنی بر یادگیری عمیق قادر به تشخیص دقیق منطقه از تصویری هستند که در آن پلاک‌ها ظاهر می شوند. با استفاده از این اطلاعات،  OCR فقط در منطقه مورد نظر مورد استفاده قرار می‌گیرد و منجر به نتایج قابل اعتماد می‌شود.

کاربردهای پردازش ویدئو هوشمند

بهداشت و درمان

از گذشته تاکنون، مؤسسات بهداشت و درمان برای اطمینان از ایمنی بیماران، کارمندان و بازدید کنندگان، در سطحی که اغلب با اعمال قوانین سخت گیرانه، مبلغ زیادی پول را صرف نظارت تصویری کرده اند. سرقت، آدم ربایی نوزادان و فروش مواد مخدر از رایج ترین مسائلی بودند که وجود سیستم نظارتی را الزامی می‌کردند.

علاوه بر تسهیل وظایف نظارتی، تحلیل ویدئویی با بهره گیری از داده‌های جمع آوری شده برای دستیابی به اهداف تجاری، عرصه‌ای را برای پیشرفت و آسایش فراهم کرده است. به عنوان مثال، یک راه حل آنالیز ویدئویی می تواند تشخیص دهد که بیمار مطابق نیاز معاینه نشده و به کارکنان هشدار می‌دهد. تجزیه و تحلیل ترافیک بیماران و ملاقات کنندگان می‌تواند در تعیین راه‌های کوتاه کردن زمان انتظار، ضمن اطمینان از دسترسی واضح به منطقه اضطراری، بسیار ارزشمند باشد.

نظارت بر خانه سالمندان یا افراد دارای مشکلات بهداشتی نمونه دیگری از برنامه‌هایی است که بسیار ارزشمند هستند. به عنوان مثال، سقوط عامل اصلی آسیب و مرگ در افراد مسن است. اگرچه وسایل پزشکی شخصی می توانند از سقوط را جلوگیری کنند، اما باید پوشیده شوند و مورد توجه مصرف کننده قرار نگیرند. یک راه حل پردازش ویدیویی می‌تواند سیگنال‌های دوربین‌های خانگی را پردازش کند تا در صورت افتادن شخص، بلافاصله هشدار دهد.  چنین سیستمی همچنین می‌تواند تعیین کند که آیا شخص مثلاً چه موقع قرار است داروی خاصی مصرف کند؟

مراقبت‌های بهداشتی و روانی حوزه دیگری است که آنالیز ویدئویی می‌تواند کمک‌های چشمگیری به آن کند. سیستم‌هایی که صورت، وضعیت بدن و نگاه را تجزیه و تحلیل می‌کنند، می‌توانند برای کمک به پزشکان در ارزیابی بیماران استفاده شوند. چنین سیستمی قادر است عواطف را از زبان بدن و بیان‌ها تشخیص دهد، و به پزشک معالج اطلاعاتی عینی می دهد که می‌تواند فرضیه‌های پزشک را تأیید کند یا سرنخ‌های جدیدی را به آنها ارائه دهد.

شرح یک نمونه واقعی 

دانشگاه بوفالو یک برنامه تلفن هوشمند طراحی کرده است که برای کمک به تشخیص اختلال طیف اوتیسم (ASD)  در کودکان طراحی شده است.  این برنامه تنها با استفاده از دوربین تلفن‌های هوشمند، چهره و توجه خیره کننده کودک را در حال مشاهده تصاویر صحنه‌های اجتماعی (نمایش چندین نفر) دنبال می کند. این برنامه حرکات چشم را رصد م‌ کند و می تواند کودکان مبتلا به ASD را به طور دقیق تشخیص دهد، زیرا حرکات چشم آنها با حرکات یک فرد بدون اوتیسم متفاوت است.

حمل و نقل/شهر هوشمند

‌پردازش ویدیو ثابت کرده است که در زمینه حمل و نقل، به توسعه شهرهای هوشمند کمک شایانی کرده است.

در صورت عدم اتخاذ تدابیر کافی برای مدیریت ترافیک، افزایش ترافیک به ویژه در مناطق شهری می‌تواند منجر به افزایش تصادفات و ترافیک شود. راه حل‌های هوشمند پردازشفیلم می توانند نقش اساسی در این سناریو داشته باشند.

از آنالیز ترافیک می توان برای تنظیم دینامیکی سیستم‌های کنترل چراغ راهنمایی و نظارت بر ترافیک استفاده کرد. همچنین در تشخیص موقعیت‌های خطرناک در ‌بلادرنگ نیز می‌تواند مفید باشد، مانند وسیله نقلیه متوقف شده در یک فضای غیرمجاز در بزرگراه، شخصی که در مسیر اشتباه رانندگی می کند، وسیله نقلیه ای که بی جهت حرکت می کند یا وسایل نقلیه ای که در آن تصادف بوده اند.

در صورت بروز حادثه، این سیستم‌ها در جمع آوری مدارک در صورت وجود دادخواست کمک می‌کنند.

شمارش خودرو یا تمایز بین اتومبیل، کامیون، اتوبوس، تاکسی و غیره، آمارهایی با ارزش بالا تولید می‌کنند که برای به دست آوردن بینش در مورد ترافیک استفاده می‌شود. نصب دوربین‌های سرعت امکان کنترل دقیق رانندگان را به صورت گسترده فراهم می کند.

شناسایی پلاک اتومبیل، اتومبیل‌هایی را که مرتکب تخلف شده اند یا به لطف جستجوی بلادرنگ، وسیله نقلیه ای را که به سرقت رفته یا در یک جرم مورد استفاده قرار می گیرد، از دیگر مزایای پردازش ویدیویی هستند.

به جای استفاده از سنسورها در هر فضای پارکینگ، یک سیستم پارکینگ هوشمند مبتنی بر آنالیز ویدیویی به رانندگان کمک می‌کند تا با تجزیه و تحلیل تصاویر از دوربین‌های امنیتی، جای خالی را پیدا کنند.

اینها فقط چند نمونه از کارهایی است که فناوری پردازش ویدیو می‌تواند در ساختن شهرهایی امن تر کمک کننده باشد.

شرح یک نمونه واقعی 

یک نمونه عالی از ‌پردازش ویدیو که برای حل مشکلات در دنیای واقعی استفاده می‌شود، در یکی از شهرهای نیویورک است.  به منظور درک بهتر رویدادهای مهم ترافیکی، وزارت حمل و نقل شهر نیویورک از آنالیز ویدئویی و یادگیری ماشینی برای ردیابی ترافیک، الگوهای آب و هوایی، نقض پارکینگ و موارد دیگر استفاده می‌کند. دوربین‌ها فعالیت‌ها را ضبط می‌کنند، آنها را پردازش می‌کنند و هشدارهایی را در ‌بلادرنگ به مسئولان شهر می‌دهند.

خرده فروشی

استفاده از یادگیری ماشین و ‌پردازش ویدیو به ویژه در بخش خرده فروشی یکی از مهمترین گرایش‌های فناوری در سال‌های اخیر بوده است. فروشندگان آجر و ملات می توانند از پردازش ویدیویی استفاده کنند تا درک کنند که مشتریان آنها چه کسانی هستند و چگونه رفتار می کنند.

الگوریتم‌های پیشرفته هنر می توانند چهره‌ها را تشخیص دهند و ویژگی‌های اصلی افراد مانند جنسیت و سن را تعیین کنند. این الگوریتم‌ها همچنین می‌توانند مسیر مشتریان در فروشگاه‌ها را ردیابی کرده و مسیرهای پیمایش را برای کشف الگوهای پیاده روی تجزیه و تحلیل کنند. خرده فروشان می‌توانند با اضافه کردن تشخیص جهت از نگاه، مشخص کنند مشتری تا چه مدت به کالای خاصی نگاه می‌کند و در نهایت به یک سؤال اساسی پاسخ می دهد: بهترین مکان برای قرار دادن کالاها به منظور حداکثر فروش و بهبود تجربه مشتری کجاست؟

اطلاعات عملی بسیاری می تواند با یک راه حل تجزیه و تحلیل ویدئویی جمع آوری شود، مانند: تعداد مشتری، مشخصات مشتری، مدت زمان مراجعه و الگوهای پیاده روی. برای بهینه سازی سازماندهی فروشگاه مطابق با روز هفته، فصول سال یا تعطیلات، می توانید تمام این داده‌ها را با در نظر گرفتن ماهیت زمانی آنالیز کنید. از این طریق، یک خرده فروش می‌تواند هنگام مراجعه به فروشگاه خود و نحوه‌ی رفتار یک بار در داخل آن‌ها مانند مشتریان، حس کاملی از مشتریان خود بدست آورد.

‌پردازش ویدیو همچنین برای ایجاد مکانیسم‌های ضد سرقت بسیار عالی است. به عنوان مثال، الگوریتم‌های تشخیص چهره را می توان آموزش داد تا بتوانند از افراد شناخته شده وکسانی را پیدا کنند که یک کالا را در کوله پشتی خود مخفی کند.

علاوه بر این، اطلاعات استخراج شده از ‌پردازش ویدیو می توانند به عنوان داده‌های ورودی برای آموزش مدل‌های یادگیری ماشین، که هدفشان حل چالش‌های بزرگتر است، استفاده کنند. به عنوان نمونه، الگوهای پیاده روی و تعداد افراد موجود در فروشگاه می‌تواند اطلاعات مفیدی برای افزودن به راه حل‌های یادگیری ماشین برای پیش بینی تقاضا، بهینه سازی قیمت و پیش بینی موجودی باشد.

شرح یک نمونه واقعی 

Marine Layer  یک خرده فروش پوشاک است که دفتر مرکزی آن در سان فرانسیسکو است و یک راه حل هوشمند پردازش ویدیو را برای به دست آوردن دیدگاهی درباره ترافیک مشتری در فروشگاه‌های خود به کار گرفته است. سیستمی که آنها پیاده سازی کرده اند به طور خودکار بازدید کنندگان فروشگاه را شمارش می‌‌کند و شواهدی درباره ترافیک در هر ساعت یا یک روز خاص نشان می دهد. در حالی که این شرکت پیش از اجرای راه حل پردازش ویدیو، این اعداد را تخمین می زد، اما اکنون اطمینان ۱۰۰٪ در مورد آنها دارد و در زمان تحلیل داده بسیار صرفه جویی شده است.

امنیت

نظارت بر تصویر یک کار قدیمی در حوزه امنیتی است. از زمانی که سیستم‌ها به طور انحصاری توسط انسان کنترل می شدند تا راه حل‌های فعلی بر اساس آنالیز ویدئویی، زمان زیادی گذشته است.

برای شناسایی افراد و وسایل نقلیه در ‌بلادرنگ و تصمیم گیری مناسب می‌توان از تکنیک‌های تشخیص چهره و پلاک استفاده کرد. به عنوان مثال، می‌توان جستجوی مظنون را هم در ‌بلادرنگ و هم در فیلم‌های ویدئویی ذخیره شده، یا شناسایی پرسنل مجاز و دسترسی به تأسیسات امن را انجام داد.

مدیریت جمعیت یکی دیگر از عملکردهای مهم سیستم‌های امنیتی است. ابزارهای تجزیه و تحلیل فیلم برش لبه می تواند در مکان‌هایی مانند مراکز خرید، بیمارستان‌ها، ورزشگاه‌ها و فرودگاه‌ها تفاوت بزرگی ایجاد کند. این ابزارها می‌توانند تعداد تخمینی جمعیت در لحظه را فراهم کرده و در صورت رسیدن یا آستانه رسیدن به آستانه، هشدارهایی را انتشار دهند. آنها همچنین می توانند جریان جمعیت را برای شناسایی حرکت در جهات ناخواسته یا ممنوع تجزیه و تحلیل کنند.

تشخیص افراد به صورت بلادرنگ

در پردازش ویدیو، یک سیستم نظارتی برای شناسایی افراد در ‌بلادرنگ آموزش داده می‌شود. این روند زمینه‌ای را برای دستیابی به نتایج دیگر فراهم می‌کند. مثلا شمارش تعداد افرادی که روزانه از محل عبور می‌کنند. اهداف پیشرفته تر، بر اساس داده‌های تاریخی، تعیین جریان “عادی” افراد با توجه به روز هفته و ساعت روز و ایجاد هشدار در صورت ترافیک غیرمعمول است. اگر منطقه تحت نظارت فقط مختص عابر پیاده باشد، سیستم می تواند برای شناسایی اشیا غیر مجاز مانند موتور سیکلت یا اتومبیل آموزش داده شود و مجدداً به نوعی هشدار ایجاد کند.

این یکی از بزرگترین مزیت‌های این رویکرد است: سیستم‌های تجزیه و تحلیل محتوای ویدئویی را می‌توان برای شناسایی رویدادهای خاص، گاه با درجه بالایی از آموزش، آموزش داد. یک نمونه از این دست، شناسایی هرچه سریعتر آتش سوزی‌ها است. یا در مورد فرودگاه‌ها، هنگام ورود شخصی به منطقه ممنوعه یا قدم زدن در خلاف جهت در نظر گرفته شده مسافر، نسبت به هشدار دادن اقدام می‌کند. مورد استفاده دیگر کشف ‌بلادرنگ کیف‌های بدون مراقبت در یک فضای عمومی است.

در مورد کارهای کلاسیک مانند تشخیص مزاحم، به لطف الگوریتم‌هایی که می‌توانند حرکت ناشی از باد، باران، برف یا حیوانات را فیلتر کنند، می توانند به صورت قوی انجام شوند.

کارایی ارائه شده توسط آنالیز ویدئویی هوشمند روز به روز در حوزه امنیتی رشد می‌کند و این روندی است که در آینده ادامه خواهد یافت.

شرح یک نمونه واقعی 

باشگاه فوتبال دانمارک بروندبی اولین باشگاه فوتبال بود که در سال ۲۰۱۹ رسماً فناوری تشخیص چهره را برای بهبود ایمنی در روزهای شلوغ در ورزشگاه خود به کار گرفت. این سیستم افراد ممنوعه را برای حضور در بازی‌ها مشخص می‌کرد و کارمندان را قادر می‌ساخت از ورود آن‌ها به ورزشگاه جلوگیری کنند.

پردازش ویدیو هوشمند چگونه کار می‌کند؟

بیایید یک طرح کلی را در مورد چگونگی عملکرد یک راه حل پردازش ویدیویی بررسی کنیم. بسته به مورد استفاده خاص، معماری یک راه حل ممکن است، متفاوت باشد، اما این طرح همچنان یکسان است.

تجزیه و تحلیل محتوای ویدیو می تواند به دو روش مختلف انجام شود: در ‌بلادرنگ، با پیکربندی سیستم برای ایجاد هشدار برای رویدادها و حوادث خاص که در لحظه یا در پردازش پس از آن اتفاق می افتد، با انجام جستجوهای پیشرفته برای تسهیل کارهای پردازشی خاص.

سیستم‌های رادار

داده‌های در حال تجزیه و تحلیل می‌توانند از منابع ویدئویی مختلف پخش شوند. متداول ترین آنها دوربین‌های مدار بسته، دوربین‌های راهنمایی و رانندگی و رادارهای ویدیویی آنلاین است. با این وجود، هر منبع ویدیویی که از پروتکل مناسب استفاده می کند (به عنوان مثال RTSP: پروتکل جریان در ‌بلادرنگ یا( (HTTP) بطور کلی می تواند در کار ادغام شود.

هدف اصلی پوشش دادن است: ما باید از کل منطقه و از زوایای مختلف، جایی که ممکن است وقایع مورد نظارت واقع شود، یک دیدگاه واضح داشته باشیم. هر چه داده بیشتر باشد، پردازش بهتر است.

پردازش مرکزی در برابر پردازش لبه

نرم افزار آنالیز ویدئو را می توان بصورت مرکزی روی سرورهایی اجرا کرد که عموماً در ایستگاه نظارت واقع شده اند، که به عنوان پردازش مرکزی شناخته می شود. یا می توان آن را در دوربین‌ها تعبیه کرد، مانند استراتژی معروف به پردازش لبه.

انتخاب دوربین باید هنگام طراحی راه حل با دقت در نظر گرفته شود. بسیاری از نرم افزارهای قدیمی فقط با قابلیت پردازش مرکزی ساخته شده اند. با این حال، در سال‌های اخیر، معمولا راه حل‌های ترکیبی به چشم نمی‌خورد. در حقیقت، یک تمرین خوب تمرکز هر زمان ممکن است، پردازش در ‌بلادرنگ روی دوربین‌ها و عملکردهای آنالیز قانونی روی سرور مرکزی است.

با یک روش ترکیبی، پردازش انجام شده توسط دوربین‌ها داده‌های پردازش شده توسط سرورهای مرکزی را کاهش می دهد، که در غیر این صورت با افزایش تعداد دوربین‌ها به قابلیت پردازش گسترده و پهنای باند نیاز است. علاوه بر این، می توان پیکربندی نرم افزار را تنها برای ارسال اطلاعات در مورد حوادث مشکوک به سرور از طریق شبکه، کاهش ترافیک شبکه و نیاز به فضای ذخیره سازی فراهم کرد.

در همین حال، متمرکز کردن داده‌ها برای تجزیه و تحلیل قانونی امکان استفاده از ابزارهای جستجو و تحلیل چندگانه را فراهم می‌کند، از الگوریتم‌های عمومی گرفته تا پیاده سازی‌های موقت، همه با استفاده از مجموعه‌های مختلف پارامترهایی که به تعادل نویز و سکوت در نتایج به دست آمده کمک می کنند. در اصل، شما می توانید برای به دست آوردن نتایج دلخواه، الگوریتم‌های خود را وارد کنید، که این یک طرح بخصوص انعطاف پذیر و جذاب است. پس از طراحی و نصب معماری فیزیکی، لازم است سناریوهایی را که می خواهید روی آنها تمرکز کنید تعریف کنید و سپس مدل‌هایی که قصد شناسایی رویدادهای هدف دارند، را آموزش دهید.

تصادف وسایل نقلیه؟ جریان جمعیت؟ تشخیص چهره در یک فروشگاه خرده فروشی برای تشخیص مشتریان شناخته شده؟ هر سناریو منجر به یک سری وظایف اساسی می شود که سیستم باید بداند چگونه انجام دهد. به عنوان مثال: وسایل نقلیه را ردیابی کنید، در نهایت نوع آنها (مانند موتور سیکلت، ماشین، کامیون) را تشخیص دهید، مسیر آنها را با فریم ردیابی کنید، و سپس تکامل آن مسیرها را برای شناسایی تصادف احتمالی مطالعه کنید. متداول ترین، اساسی ترین وظایف در ‌پردازش ویدیو عبارتند از:

  • طبقه بندی تصویر: دسته بندی تصویر از بین مجموعه ای از دسته بندی‌های از پیش تعیین شده (مانند ماشین، شخص، اسب، قیچی، مجسمه).
  • محلی سازی: یک شی را در یک تصویر بیابید (معمولاً شامل کشیدن یک کادر محدود در اطراف جسم است).
  • تشخیص شی: یک شیء را در یک تصویر پیدا کرده و دسته بندی کند.
  • شناسایی شی: با استفاده از یک هدف، تمام نمونه‌های را در یک تصویر مشخص می‌شود (به عنوان مثال همه بازیکنان فوتبال را در تصویر پیدا کنید).
  • ردیابی شی: شیی را که به مرور زمان در یک فیلم حرکت می کند، ردیابی می‌شود.

آموزش مدل‌های از ابتدا به تلاش زیادی نیاز دارد. خوشبختانه، منابع نسبتاً خوبی در دسترس هستند که این کار را کمی آسان می‌کند. مجموعه داده‌های تصویری مانند ImageNet یا Microsoft Objects Common in Context (COCO) منابع کلیدی هستند که آموزش مدل‌های جدید را ساده تر می کنند.

چندین مدل از قبل آموزش دیده برای کارهایی نظیر طبقه بندی تصویر، تشخیص اشیاء و تشخیص چهره در دسترس است که به لطف تکنیک‌های یادگیری انتقال، امکان سازگاری (تنظیم دقیق) یک مدل را برای مورد استفاده مشخص فراهم می‌کند. این بسیار ارزانتر از یک آموزش کامل است.

سرانجام، پروژه‌های منبع آزاد در سال‌های اخیر به طور فزاینده ای توسط جامعه منتشر شده است تا ساخت سیستم‌های تحلیل فیلم‌های سفارشی را تسهیل کند. تکیه بر کتابخانه‌های دید کامپیوتری، مانند مواردی که در بند زیر ارائه شده است، به ساخت راه حل‌های سریعتر و دقیق تر کمک می‌کند.

بررسی انسانی

تقریباً در همه موارد، یک انسان برای نظارت بر هشدارهای ایجاد شده توسط یک سیستم پردازش ویدیویی و تصمیم گیری در صورت انجام هر کاری، لازم است. به این معنا، این سیستم‌ها به عنوان پشتیبانی ارزشمندی از اپراتورها عمل می‌کنند و به آنها کمک می‌کنند تا حوادثی را که ممکن است در غیر این صورت نادیده گرفته شود کشف کنند یا مدت زمان طولانی برای شناسایی دستی داشته باشند.

پروژه‌های متن باز

در حال حاضر هیچ کتابخانه ای تأسیس شده برای پردازش فیلم وجود ندارد. مواردی که وجود دارد معمولاً اجرای پژوهشی هستند، بنابراین استفاده از آن‌ها در یک زمینه عملی بسیار دشوار است. در موارد دیگر، کتابخانه‌ها به راحتی قابل استفاده هستند اما عملکرد ضعیفی دارند. بهترین گزینه برای شکار، کتابخانه‌های ردیابی شی یا ایجاد موقعیت‌ها و ایجاد چیزهای سفارشی است.

د Tryolabs، ما از الگوریتم‌های سطح تصویر مانند تشخیص شیء و تخمین گذاری برای انجام تجزیه و تحلیل‌های ویدیویی استفاده می‌کنیم، سپس لایه الگوریتم ردیابی خودمان را بر روی آن‌ها اضافه می کنیم و از آنجا ادامه می دهیم.

OpenCV

کتابخانه ویژن کامپیوتر متن باز (OpenCV) مشهورترین کتابخانه بینایی کامپیوتر است. این مجموعه شامل مجموعه ای جامع از الگوریتم‌های یادگیری ماشین برای انجام کارهای متداول از جمله طبقه بندی تصویر، تشخیص چهره، و تشخیص شی و ردیابی است. این بطور گسترده توسط شرکت‌ها و گروه‌های تحقیقاتی مورد استفاده قرار می گیرد، زیرا می توان از رابط  C ++ یا جاوا و پایتون استفاده کند.

از آنجا که این یک کتابخانه بینایی عمومی است، می توان یک سیستم پردازش ویدیو را با OpenCV پیاده سازی کند. با این حال، از آنجا که یک کتابخانه تخصصی پردازش ویدیو نیست، مراجعه به سایر کتابخانه‌های موجود (بسته به مورد استفاده) ممکن است جالب تر باشد.

Luminoth

همانطور که در بالا ذکر شد، ما ابزار خودمان را در Tryolabs برای انجام تجزیه و تحلیل‌های ویدیویی ساخته ای Luminoth . یک کتابخانه کشف شی است که با استفاده از TensorFlow در پایتون ساخته شده است. که آن را به همراه OpenCV برای موارد تجزیه و تحلیل ویدئو مانند تجزیه و تحلیل فروشگاه و جریان جمعیت در بخش خرده فروشی به کار گرفته ایم.

در حال حاضر، ما در حال کار بر روی نسخه ۲.۰ کتابخانه هستیم که براساس PyTorch ساخته شده است، و پشتیبانی از تخمین و نمایش بخش نمونه انسانی را ارائه می دهد. ما همچنین قصد داریم به زودی برنامه کتابخانه پشتیبانی ویدیویی و ردیابی را اضافه کنیم.

راه حل‌های پردازش ویدیو

مجموعه ای از راه حل‌های خارج  از چارچوب در پردازش ویدئویی، از سیستم‌های امنیتی کلاسیک گرفته تا سناریوهای پیچیده تر مانند خانه‌های هوشمند یا برنامه‌های مراقبت‌های بهداشتی وجود دارد.

اگر شما از یکی از این راه حل‌های استاندارد راضی هستید، ممکن است گزینه ای برای شما باشد. توجه داشته باشید که به طور کلی، باید نوعی سازگاری یا پارامتر سازی نرم افزار انجام شود و این راه حل‌ها فقط به یک میزان خاص اجازه شخصی سازی می دهند.

با این حال، اکثر شرکت‌ها برای دستیابی به اهداف فردی با یک راه حل پردازش ویدیویی، که به نرم افزارهای بهینه تری نیاز دارند، می توانند بینش‌های خاصی کسب کنند. در این حالت، راه حل ایده آل این است که به یک شرکت متخصص در خدمات پردازش ویدیویی مراجعه کنید. احتمالاً یک راه حل سفارشی دقیق تر است و می تواند موارد استفاده غیرمعمول یا بسیار خاص را برطرف کند.

نتیجه گیری کلی

راه حل‌های پردازش ویدئویی در کمک به ما در کارهای روزانه ما بسیار ارزشمند است. بخش‌های گسترده ای وجود دارد که می توانند از این فناوری بهره مند شوند، به ویژه که پیچیدگی برنامه‌های کاربردی بالقوه در سال‌های اخیر رو به افزایش است.

از شهرهای هوشمند، گرفته تا کنترل‌های امنیتی در بیمارستان‌ها و فرودگاه‌ها، گرفته تا افرادی که مراکز خرده فروشی و خرید را ردیابی می کنند، زمینه پردازش ویدیویی را امکان پذیر می‌کنند که هم برای انسان‌ها مفید باشد و برای شرکت‌ها نیز ارزان تر باشد.

امیدواریم که از این پست لذت برده باشید، و درک بهتری از آنچه در مورد پردازش ویدیویی، چگونگی عملکرد آن وجود دارد، و اینکه چگونه می توانید از آن در سازمان خود به منظور خودکار سازی فرایندها و کسب بینش‌های ارزشمند برای تصمیم گیری بهتر استفاده کنید، کسب کنید..

در اینجا در Tryolabs، ما از سال ۲۰۱۰ در حال ایجاد راه حل‌های یادگیری ماشین هستیم. همکاری با شرکت‌ها در صنایع مختلف به ما این امکان را می‌دهد تا چالش‌های آن‌ها و چگونگی استفاده از داده‌ها برای هدایت نتایج تجاری را بهتر بشناسیم.

لینک کوتاه شده : https://amerandish.com/wkMNr

به این مطلب امتیاز دهید

به اشتراک بگذارید

اشتراک گذاری در whatsapp
اشتراک گذاری در telegram
اشتراک گذاری در linkedin
اشتراک گذاری در twitter
اشتراک گذاری در email

نظرات شما

فارس آوا

تبدیل گفتار به متن

باتاوا

دستیارسازمانی - چت بات

هوشتل

اپراتورهوشمند مرکز تماس

بینایار

درک هوشمند ویدیو و تصویر

_ مطالب مرتبط _