در چند سال گذشته، پردازش ویدیو، که به عنوان تحلیل محتوای ویدیو یا تحلیل ویدئویی هوشمند شناخته می شود، هم از نظر صنعتی و هم از نظر دانشگاهی توجه بیشتری را به خود جلب کرده است. به لطف پیشرفتهای عظیم که در یادگیری عمیق صورت گرفته است، پردازش ویدیویی، وظایفی که زمانی مختص انسان بودند را، به حالت اتوماسیون درآورده است.
پیشرفتهای اخیر در پردازش ویدیو، به طورکل تحول بزرگی بوده است. از شمارش افراد در رویدادها و جشنها گرفته تا تشخیص چهره، پلاک خودرو، تشخیص چهرههای سرشناس، مانند بازیگران و غیره. دوربینهای مدار بسته در به منظور شناسایی رویدادهای خاص مانند تصادفات رانندگی است وسایل نقلیه را رصد میکنند و در شرایط خطر هشدار میدهند.
این نوع فناوری عالی به نظر می رسد، اما چگونه کار می کند و چگونه می تواند به نفع تجارت شما باشد؟
در این متن، مفهوم اصلی پردازش ویدیویی، نحوه استفاده از آن در دنیای واقعی برای خودکار سازی فرآیندها و به دست آوردن بینشهای ارزشمند، و آنچه را هنگام اجرای راه حلهای هوشمند پردازش ویدیویی در سازمان خود استفاده می کنید باید بدانید، متوجه خواهید شد.
پردازش هوشمند ویدیو چیست؟
هدف اصلی از پردازش ویدیو، شناسایی خودکار وقایع زمانی و مکانی در فیلمها است. شخصی که به طور مشکوک حرکت می کند، علائم راهنمایی و رانندگی که رعایت نمی شود، ظهور ناگهانی شعلههای آتش و دود؛ اینها فقط چند نمونه از آنچه که یک راه حل پردازش ویدیویی می تواند تشخیص دهد، هستند.
پردازش فیلم و زمان کاوی فیلم به صورت بلادرنگ
برخی از سیستمها نظارت به صورت بلادرنگ را انجام می دهند که در آن اشیاء، ویژگیهای اشیاء، الگوهای حرکات یا رفتارهای مربوط به محیط مانیتور شده شناسایی میشوند. پردازش ویدئویی در این موارد میتواند مورد استفاده قرار گیرد. برای تحلیل دادهها، باید به روندهای قبلی نیز توجه کنیم:
- بیشترین زمان حضور مشتری در فروشگاه من چقدر است و متوسط سن مشتریان من چقدر است؟
- چند بار چراغ، قرمز میشود؟ و کدام پلاکها بیشتر چراغ قرمز را رعایت میکنند؟
برخی از کاربردهای شناخته شده
برخی از کاربردهای پردازش ویدئویی برای عموم مردم شناخته شده است. یک نمونه از این قبیل، نظارت بر فیلم دوربینهای مدار بسته است، کاری که تقریباً 50 سال است که وجود دارد. در اصل، این ایده ساده است: دوربینها به صورت استراتژیک در محلهایی نصب میشوند تا به اپراتورهای انسانی امکان کنترل آنچه اتفاق می در یک اتاق، منطقه یا فضای عمومی اتفاق میافتند را شاهد باشند.
اما این کار، به حرف ساده است. معمولاً هر اپراتور مسئول بیش از یک دوربین است. همانطور که چندین مطالعه نشان داده اند، افزایش تعداد دوربینهایی که باید مورد نظارت قرار گیرند، بر عملکرد اپراتور تأثیر منفی می گذارد. به عبارت دیگر، حتی اگر مقدار زیادی سخت افزار در دسترس باشد و سیگنالهایی را تولید کند، رسیدگی به سیگنالها، به دلیل محدودیت انسانی با مشکل مواجه میشود.
نرم افزار پردازش فیلم با ارائه ابزاری برای برخورد دقیق با حجم اطلاعات، می تواند بسیار کمک کننده باشد.
پردازش ویدیویی با یادگیری عمیق
یادگیری ماشین و به ویژه رشد چشمگیر رویکردهای یادگیری عمیق، تحلیلی در پردازش ویدیویی ایجاد کرده است.
استفاده از شبکههای عصبی عمیق (DNNs) امکان آموزش سیستمهای پردازش ویدیویی را با تقلید از رفتار انسان فراهم کرده است و در نتیجه آن پارادایمها تغیر کردهاند. این کار با سیستمهایی مبتنی بر تکنیکهای کلاسیک بینایی رایانه آغاز شده است (به عنوان مثال در صورت تاریک شدن تصویر دوربین یا تغییر شدید آن در صورت هشدار) به سمت سیستمهایی با قابلیت شناسایی اشیاء خاص در یک تصویر حرکت کرده و مسیر آنها را ردیابی میکند.
به عنوان مثال، تشخیص نوری کاراکتر (OCR) برای چندین دهه برای استخراج متن از تصاویر استفاده شده است. در اصل، کافی است که الگوریتمهای OCR را مستقیماً بر روی تصویر یک پلاک خودرو اعمال کنیم تا پلاک را تشخیص دهد. در پارادایم قبلی، اگر دوربین به گونه ای قرار گرفته باشد که در زمان اجرای OCR، یقین داشته باشیم که در حال فیلمبرداری از پلاک هستیم، این روند ممکن است، کار کند.
یک نمونه واقعی
از کاربردهای واقعی این امر می توان به شناسایی پلاکها در اماکن و پارکینگ، جایی که دوربین در نزدیکی دروازهها قرار دارد و می تواند در هنگام توقف ماشین پلاک فیلمبرداری کند، اشاره کرد. با این وجود، اجرای OCR به طور مداوم بر روی تصاویر از دوربین ترافیک قابل اعتماد نیست: اگر OCR نتیجهای را برگرداند، چگونه می توانیم مطمئن باشیم که واقعاً با پلاک خودرو مطابقت دارد؟
در الگوی جدید، مدلهای مبتنی بر یادگیری عمیق قادر به تشخیص دقیق منطقه از تصویری هستند که در آن پلاکها ظاهر می شوند. با استفاده از این اطلاعات، OCR فقط در منطقه مورد نظر مورد استفاده قرار میگیرد و منجر به نتایج قابل اعتماد میشود.
کاربردهای پردازش ویدئو هوشمند
بهداشت و درمان
از گذشته تاکنون، مؤسسات بهداشت و درمان برای اطمینان از ایمنی بیماران، کارمندان و بازدید کنندگان، در سطحی که اغلب با اعمال قوانین سخت گیرانه، مبلغ زیادی پول را صرف نظارت تصویری کرده اند. سرقت، آدم ربایی نوزادان و فروش مواد مخدر از رایج ترین مسائلی بودند که وجود سیستم نظارتی را الزامی میکردند.
علاوه بر تسهیل وظایف نظارتی، تحلیل ویدئویی با بهره گیری از دادههای جمع آوری شده برای دستیابی به اهداف تجاری، عرصهای را برای پیشرفت و آسایش فراهم کرده است. به عنوان مثال، یک راه حل آنالیز ویدئویی می تواند تشخیص دهد که بیمار مطابق نیاز معاینه نشده و به کارکنان هشدار میدهد. تجزیه و تحلیل ترافیک بیماران و ملاقات کنندگان میتواند در تعیین راههای کوتاه کردن زمان انتظار، ضمن اطمینان از دسترسی واضح به منطقه اضطراری، بسیار ارزشمند باشد.
نظارت بر خانه سالمندان یا افراد دارای مشکلات بهداشتی نمونه دیگری از برنامههایی است که بسیار ارزشمند هستند. به عنوان مثال، سقوط عامل اصلی آسیب و مرگ در افراد مسن است. اگرچه وسایل پزشکی شخصی می توانند از سقوط را جلوگیری کنند، اما باید پوشیده شوند و مورد توجه مصرف کننده قرار نگیرند. یک راه حل پردازش ویدیویی میتواند سیگنالهای دوربینهای خانگی را پردازش کند تا در صورت افتادن شخص، بلافاصله هشدار دهد. چنین سیستمی همچنین میتواند تعیین کند که آیا شخص مثلاً چه موقع قرار است داروی خاصی مصرف کند؟
مراقبتهای بهداشتی و روانی حوزه دیگری است که آنالیز ویدئویی میتواند کمکهای چشمگیری به آن کند. سیستمهایی که صورت، وضعیت بدن و نگاه را تجزیه و تحلیل میکنند، میتوانند برای کمک به پزشکان در ارزیابی بیماران استفاده شوند. چنین سیستمی قادر است عواطف را از زبان بدن و بیانها تشخیص دهد، و به پزشک معالج اطلاعاتی عینی می دهد که میتواند فرضیههای پزشک را تأیید کند یا سرنخهای جدیدی را به آنها ارائه دهد.
شرح یک نمونه واقعی
دانشگاه بوفالو یک برنامه تلفن هوشمند طراحی کرده است که برای کمک به تشخیص اختلال طیف اوتیسم (ASD) در کودکان طراحی شده است. این برنامه تنها با استفاده از دوربین تلفنهای هوشمند، چهره و توجه خیره کننده کودک را در حال مشاهده تصاویر صحنههای اجتماعی (نمایش چندین نفر) دنبال می کند. این برنامه حرکات چشم را رصد م کند و می تواند کودکان مبتلا به ASD را به طور دقیق تشخیص دهد، زیرا حرکات چشم آنها با حرکات یک فرد بدون اوتیسم متفاوت است.
حمل و نقل/شهر هوشمند
پردازش ویدیو ثابت کرده است که در زمینه حمل و نقل، به توسعه شهرهای هوشمند کمک شایانی کرده است.
در صورت عدم اتخاذ تدابیر کافی برای مدیریت ترافیک، افزایش ترافیک به ویژه در مناطق شهری میتواند منجر به افزایش تصادفات و ترافیک شود. راه حلهای هوشمند پردازشفیلم می توانند نقش اساسی در این سناریو داشته باشند.
از آنالیز ترافیک می توان برای تنظیم دینامیکی سیستمهای کنترل چراغ راهنمایی و نظارت بر ترافیک استفاده کرد. همچنین در تشخیص موقعیتهای خطرناک در بلادرنگ نیز میتواند مفید باشد، مانند وسیله نقلیه متوقف شده در یک فضای غیرمجاز در بزرگراه، شخصی که در مسیر اشتباه رانندگی می کند، وسیله نقلیه ای که بی جهت حرکت می کند یا وسایل نقلیه ای که در آن تصادف بوده اند.
در صورت بروز حادثه، این سیستمها در جمع آوری مدارک در صورت وجود دادخواست کمک میکنند.
شمارش خودرو یا تمایز بین اتومبیل، کامیون، اتوبوس، تاکسی و غیره، آمارهایی با ارزش بالا تولید میکنند که برای به دست آوردن بینش در مورد ترافیک استفاده میشود. نصب دوربینهای سرعت امکان کنترل دقیق رانندگان را به صورت گسترده فراهم می کند.
شناسایی پلاک اتومبیل، اتومبیلهایی را که مرتکب تخلف شده اند یا به لطف جستجوی بلادرنگ، وسیله نقلیه ای را که به سرقت رفته یا در یک جرم مورد استفاده قرار می گیرد، از دیگر مزایای پردازش ویدیویی هستند.
به جای استفاده از سنسورها در هر فضای پارکینگ، یک سیستم پارکینگ هوشمند مبتنی بر آنالیز ویدیویی به رانندگان کمک میکند تا با تجزیه و تحلیل تصاویر از دوربینهای امنیتی، جای خالی را پیدا کنند.
اینها فقط چند نمونه از کارهایی است که فناوری پردازش ویدیو میتواند در ساختن شهرهایی امن تر کمک کننده باشد.
شرح یک نمونه واقعی
یک نمونه عالی از پردازش ویدیو که برای حل مشکلات در دنیای واقعی استفاده میشود، در یکی از شهرهای نیویورک است. به منظور درک بهتر رویدادهای مهم ترافیکی، وزارت حمل و نقل شهر نیویورک از آنالیز ویدئویی و یادگیری ماشینی برای ردیابی ترافیک، الگوهای آب و هوایی، نقض پارکینگ و موارد دیگر استفاده میکند. دوربینها فعالیتها را ضبط میکنند، آنها را پردازش میکنند و هشدارهایی را در بلادرنگ به مسئولان شهر میدهند.
خرده فروشی
استفاده از یادگیری ماشین و پردازش ویدیو به ویژه در بخش خرده فروشی یکی از مهمترین گرایشهای فناوری در سالهای اخیر بوده است. فروشندگان آجر و ملات می توانند از پردازش ویدیویی استفاده کنند تا درک کنند که مشتریان آنها چه کسانی هستند و چگونه رفتار می کنند.
الگوریتمهای پیشرفته هنر می توانند چهرهها را تشخیص دهند و ویژگیهای اصلی افراد مانند جنسیت و سن را تعیین کنند. این الگوریتمها همچنین میتوانند مسیر مشتریان در فروشگاهها را ردیابی کرده و مسیرهای پیمایش را برای کشف الگوهای پیاده روی تجزیه و تحلیل کنند. خرده فروشان میتوانند با اضافه کردن تشخیص جهت از نگاه، مشخص کنند مشتری تا چه مدت به کالای خاصی نگاه میکند و در نهایت به یک سؤال اساسی پاسخ می دهد: بهترین مکان برای قرار دادن کالاها به منظور حداکثر فروش و بهبود تجربه مشتری کجاست؟
اطلاعات عملی بسیاری می تواند با یک راه حل تجزیه و تحلیل ویدئویی جمع آوری شود، مانند: تعداد مشتری، مشخصات مشتری، مدت زمان مراجعه و الگوهای پیاده روی. برای بهینه سازی سازماندهی فروشگاه مطابق با روز هفته، فصول سال یا تعطیلات، می توانید تمام این دادهها را با در نظر گرفتن ماهیت زمانی آنالیز کنید. از این طریق، یک خرده فروش میتواند هنگام مراجعه به فروشگاه خود و نحوهی رفتار یک بار در داخل آنها مانند مشتریان، حس کاملی از مشتریان خود بدست آورد.
پردازش ویدیو همچنین برای ایجاد مکانیسمهای ضد سرقت بسیار عالی است. به عنوان مثال، الگوریتمهای تشخیص چهره را می توان آموزش داد تا بتوانند از افراد شناخته شده وكسانی را پیدا كنند كه یك كالا را در كوله پشتی خود مخفی كند.
علاوه بر این، اطلاعات استخراج شده از پردازش ویدیو می توانند به عنوان دادههای ورودی برای آموزش مدلهای یادگیری ماشین، که هدفشان حل چالشهای بزرگتر است، استفاده کنند. به عنوان نمونه، الگوهای پیاده روی و تعداد افراد موجود در فروشگاه میتواند اطلاعات مفیدی برای افزودن به راه حلهای یادگیری ماشین برای پیش بینی تقاضا، بهینه سازی قیمت و پیش بینی موجودی باشد.
شرح یک نمونه واقعی
Marine Layer یک خرده فروش پوشاک است که دفتر مرکزی آن در سان فرانسیسکو است و یک راه حل هوشمند پردازش ویدیو را برای به دست آوردن دیدگاهی درباره ترافیک مشتری در فروشگاههای خود به کار گرفته است. سیستمی که آنها پیاده سازی کرده اند به طور خودکار بازدید کنندگان فروشگاه را شمارش میکند و شواهدی درباره ترافیک در هر ساعت یا یک روز خاص نشان می دهد. در حالی که این شرکت پیش از اجرای راه حل پردازش ویدیو، این اعداد را تخمین می زد، اما اکنون اطمینان 100٪ در مورد آنها دارد و در زمان تحلیل داده بسیار صرفه جویی شده است.
امنیت
نظارت بر تصویر یک کار قدیمی در حوزه امنیتی است. از زمانی که سیستمها به طور انحصاری توسط انسان کنترل می شدند تا راه حلهای فعلی بر اساس آنالیز ویدئویی، زمان زیادی گذشته است.
برای شناسایی افراد و وسایل نقلیه در بلادرنگ و تصمیم گیری مناسب میتوان از تکنیکهای تشخیص چهره و پلاک استفاده کرد. به عنوان مثال، میتوان جستجوی مظنون را هم در بلادرنگ و هم در فیلمهای ویدئویی ذخیره شده، یا شناسایی پرسنل مجاز و دسترسی به تأسیسات امن را انجام داد.
مدیریت جمعیت یکی دیگر از عملکردهای مهم سیستمهای امنیتی است. ابزارهای تجزیه و تحلیل فیلم برش لبه می تواند در مکانهایی مانند مراکز خرید، بیمارستانها، ورزشگاهها و فرودگاهها تفاوت بزرگی ایجاد کند. این ابزارها میتوانند تعداد تخمینی جمعیت در لحظه را فراهم کرده و در صورت رسیدن یا آستانه رسیدن به آستانه، هشدارهایی را انتشار دهند. آنها همچنین می توانند جریان جمعیت را برای شناسایی حرکت در جهات ناخواسته یا ممنوع تجزیه و تحلیل کنند.
تشخیص افراد به صورت بلادرنگ
در پردازش ویدیو، یک سیستم نظارتی برای شناسایی افراد در بلادرنگ آموزش داده میشود. این روند زمینهای را برای دستیابی به نتایج دیگر فراهم میکند. مثلا شمارش تعداد افرادی که روزانه از محل عبور میکنند. اهداف پیشرفته تر، بر اساس دادههای تاریخی، تعیین جریان “عادی” افراد با توجه به روز هفته و ساعت روز و ایجاد هشدار در صورت ترافیک غیرمعمول است. اگر منطقه تحت نظارت فقط مختص عابر پیاده باشد، سیستم می تواند برای شناسایی اشیا غیر مجاز مانند موتور سیکلت یا اتومبیل آموزش داده شود و مجدداً به نوعی هشدار ایجاد کند.
این یکی از بزرگترین مزیتهای این رویکرد است: سیستمهای تجزیه و تحلیل محتوای ویدئویی را میتوان برای شناسایی رویدادهای خاص، گاه با درجه بالایی از آموزش، آموزش داد. یک نمونه از این دست، شناسایی هرچه سریعتر آتش سوزیها است. یا در مورد فرودگاهها، هنگام ورود شخصی به منطقه ممنوعه یا قدم زدن در خلاف جهت در نظر گرفته شده مسافر، نسبت به هشدار دادن اقدام میکند. مورد استفاده دیگر کشف بلادرنگ کیفهای بدون مراقبت در یک فضای عمومی است.
در مورد کارهای کلاسیک مانند تشخیص مزاحم، به لطف الگوریتمهایی که میتوانند حرکت ناشی از باد، باران، برف یا حیوانات را فیلتر کنند، می توانند به صورت قوی انجام شوند.
کارایی ارائه شده توسط آنالیز ویدئویی هوشمند روز به روز در حوزه امنیتی رشد میکند و این روندی است که در آینده ادامه خواهد یافت.
شرح یک نمونه واقعی
باشگاه فوتبال دانمارک بروندبی اولین باشگاه فوتبال بود که در سال 2019 رسماً فناوری تشخیص چهره را برای بهبود ایمنی در روزهای شلوغ در ورزشگاه خود به کار گرفت. این سیستم افراد ممنوعه را برای حضور در بازیها مشخص میکرد و کارمندان را قادر میساخت از ورود آنها به ورزشگاه جلوگیری کنند.
پردازش ویدیو هوشمند چگونه کار میکند؟
بیایید یک طرح کلی را در مورد چگونگی عملکرد یک راه حل پردازش ویدیویی بررسی کنیم. بسته به مورد استفاده خاص، معماری یک راه حل ممکن است، متفاوت باشد، اما این طرح همچنان یکسان است.
تجزیه و تحلیل محتوای ویدیو می تواند به دو روش مختلف انجام شود: در بلادرنگ، با پیکربندی سیستم برای ایجاد هشدار برای رویدادها و حوادث خاص که در لحظه یا در پردازش پس از آن اتفاق می افتد، با انجام جستجوهای پیشرفته برای تسهیل کارهای پردازشی خاص.
سیستمهای رادار
دادههای در حال تجزیه و تحلیل میتوانند از منابع ویدئویی مختلف پخش شوند. متداول ترین آنها دوربینهای مدار بسته، دوربینهای راهنمایی و رانندگی و رادارهای ویدیویی آنلاین است. با این وجود، هر منبع ویدیویی که از پروتکل مناسب استفاده می کند (به عنوان مثال RTSP: پروتکل جریان در بلادرنگ یا( (HTTP) بطور کلی می تواند در کار ادغام شود.
هدف اصلی پوشش دادن است: ما باید از کل منطقه و از زوایای مختلف، جایی که ممکن است وقایع مورد نظارت واقع شود، یک دیدگاه واضح داشته باشیم. هر چه داده بیشتر باشد، پردازش بهتر است.
پردازش مرکزی در برابر پردازش لبه
نرم افزار آنالیز ویدئو را می توان بصورت مرکزی روی سرورهایی اجرا کرد که عموماً در ایستگاه نظارت واقع شده اند، که به عنوان پردازش مرکزی شناخته می شود. یا می توان آن را در دوربینها تعبیه کرد، مانند استراتژی معروف به پردازش لبه.
انتخاب دوربین باید هنگام طراحی راه حل با دقت در نظر گرفته شود. بسیاری از نرم افزارهای قدیمی فقط با قابلیت پردازش مرکزی ساخته شده اند. با این حال، در سالهای اخیر، معمولا راه حلهای ترکیبی به چشم نمیخورد. در حقیقت، یک تمرین خوب تمرکز هر زمان ممکن است، پردازش در بلادرنگ روی دوربینها و عملکردهای آنالیز قانونی روی سرور مرکزی است.
با یک روش ترکیبی، پردازش انجام شده توسط دوربینها دادههای پردازش شده توسط سرورهای مرکزی را کاهش می دهد، که در غیر این صورت با افزایش تعداد دوربینها به قابلیت پردازش گسترده و پهنای باند نیاز است. علاوه بر این، می توان پیکربندی نرم افزار را تنها برای ارسال اطلاعات در مورد حوادث مشکوک به سرور از طریق شبکه، کاهش ترافیک شبکه و نیاز به فضای ذخیره سازی فراهم کرد.
در همین حال، متمرکز کردن دادهها برای تجزیه و تحلیل قانونی امکان استفاده از ابزارهای جستجو و تحلیل چندگانه را فراهم میکند، از الگوریتمهای عمومی گرفته تا پیاده سازیهای موقت، همه با استفاده از مجموعههای مختلف پارامترهایی که به تعادل نویز و سکوت در نتایج به دست آمده کمک می کنند. در اصل، شما می توانید برای به دست آوردن نتایج دلخواه، الگوریتمهای خود را وارد کنید، که این یک طرح بخصوص انعطاف پذیر و جذاب است. پس از طراحی و نصب معماری فیزیکی، لازم است سناریوهایی را که می خواهید روی آنها تمرکز کنید تعریف کنید و سپس مدلهایی که قصد شناسایی رویدادهای هدف دارند، را آموزش دهید.
تصادف وسایل نقلیه؟ جریان جمعیت؟ تشخیص چهره در یک فروشگاه خرده فروشی برای تشخیص مشتریان شناخته شده؟ هر سناریو منجر به یک سری وظایف اساسی می شود که سیستم باید بداند چگونه انجام دهد. به عنوان مثال: وسایل نقلیه را ردیابی کنید، در نهایت نوع آنها (مانند موتور سیکلت، ماشین، کامیون) را تشخیص دهید، مسیر آنها را با فریم ردیابی کنید، و سپس تکامل آن مسیرها را برای شناسایی تصادف احتمالی مطالعه کنید. متداول ترین، اساسی ترین وظایف در پردازش ویدیو عبارتند از:
- طبقه بندی تصویر: دسته بندی تصویر از بین مجموعه ای از دسته بندیهای از پیش تعیین شده (مانند ماشین، شخص، اسب، قیچی، مجسمه).
- محلی سازی: یک شی را در یک تصویر بیابید (معمولاً شامل کشیدن یک کادر محدود در اطراف جسم است).
- تشخیص شی: یک شیء را در یک تصویر پیدا کرده و دسته بندی کند.
- شناسایی شی: با استفاده از یک هدف، تمام نمونههای را در یک تصویر مشخص میشود (به عنوان مثال همه بازیکنان فوتبال را در تصویر پیدا کنید).
- ردیابی شی: شیی را که به مرور زمان در یک فیلم حرکت می کند، ردیابی میشود.
آموزش مدلهای از ابتدا به تلاش زیادی نیاز دارد. خوشبختانه، منابع نسبتاً خوبی در دسترس هستند که این کار را کمی آسان میکند. مجموعه دادههای تصویری مانند ImageNet یا Microsoft Objects Common in Context (COCO) منابع کلیدی هستند که آموزش مدلهای جدید را ساده تر می کنند.
چندین مدل از قبل آموزش دیده برای کارهایی نظیر طبقه بندی تصویر، تشخیص اشیاء و تشخیص چهره در دسترس است که به لطف تکنیکهای یادگیری انتقال، امکان سازگاری (تنظیم دقیق) یک مدل را برای مورد استفاده مشخص فراهم میکند. این بسیار ارزانتر از یک آموزش کامل است.
سرانجام، پروژههای منبع آزاد در سالهای اخیر به طور فزاینده ای توسط جامعه منتشر شده است تا ساخت سیستمهای تحلیل فیلمهای سفارشی را تسهیل کند. تكيه بر كتابخانههاي ديد كامپيوتري، مانند مواردي كه در بند زير ارائه شده است، به ساخت راه حلهاي سريعتر و دقيق تر كمك ميكند.
بررسی انسانی
تقریباً در همه موارد، یک انسان برای نظارت بر هشدارهای ایجاد شده توسط یک سیستم پردازش ویدیویی و تصمیم گیری در صورت انجام هر کاری، لازم است. به این معنا، این سیستمها به عنوان پشتیبانی ارزشمندی از اپراتورها عمل میکنند و به آنها کمک میکنند تا حوادثی را که ممکن است در غیر این صورت نادیده گرفته شود کشف کنند یا مدت زمان طولانی برای شناسایی دستی داشته باشند.
پروژههای متن باز
در حال حاضر هیچ کتابخانه ای تأسیس شده برای پردازش فیلم وجود ندارد. مواردی که وجود دارد معمولاً اجرای پژوهشی هستند، بنابراین استفاده از آنها در یک زمینه عملی بسیار دشوار است. در موارد دیگر، کتابخانهها به راحتی قابل استفاده هستند اما عملکرد ضعیفی دارند. بهترین گزینه برای شکار، کتابخانههای ردیابی شی یا ایجاد موقعیتها و ایجاد چیزهای سفارشی است.
د Tryolabs، ما از الگوریتمهای سطح تصویر مانند تشخیص شیء و تخمین گذاری برای انجام تجزیه و تحلیلهای ویدیویی استفاده میکنیم، سپس لایه الگوریتم ردیابی خودمان را بر روی آنها اضافه می کنیم و از آنجا ادامه می دهیم.
OpenCV
کتابخانه ویژن کامپیوتر متن باز (OpenCV) مشهورترین کتابخانه بینایی کامپیوتر است. این مجموعه شامل مجموعه ای جامع از الگوریتمهای یادگیری ماشین برای انجام کارهای متداول از جمله طبقه بندی تصویر، تشخیص چهره، و تشخیص شی و ردیابی است. این بطور گسترده توسط شرکتها و گروههای تحقیقاتی مورد استفاده قرار می گیرد، زیرا می توان از رابط C ++ یا جاوا و پایتون استفاده کند.
از آنجا که این یک کتابخانه بینایی عمومی است، می توان یک سیستم پردازش ویدیو را با OpenCV پیاده سازی کند. با این حال، از آنجا که یک کتابخانه تخصصی پردازش ویدیو نیست، مراجعه به سایر کتابخانههای موجود (بسته به مورد استفاده) ممکن است جالب تر باشد.
Luminoth
همانطور که در بالا ذکر شد، ما ابزار خودمان را در Tryolabs برای انجام تجزیه و تحلیلهای ویدیویی ساخته ای Luminoth . یک کتابخانه کشف شی است که با استفاده از TensorFlow در پایتون ساخته شده است. که آن را به همراه OpenCV برای موارد تجزیه و تحلیل ویدئو مانند تجزیه و تحلیل فروشگاه و جریان جمعیت در بخش خرده فروشی به کار گرفته ایم.
در حال حاضر، ما در حال کار بر روی نسخه 2.0 کتابخانه هستیم که براساس PyTorch ساخته شده است، و پشتیبانی از تخمین و نمایش بخش نمونه انسانی را ارائه می دهد. ما همچنین قصد داریم به زودی برنامه کتابخانه پشتیبانی ویدیویی و ردیابی را اضافه کنیم.
راه حلهای پردازش ویدیو
مجموعه ای از راه حلهای خارج از چارچوب در پردازش ویدئویی، از سیستمهای امنیتی کلاسیک گرفته تا سناریوهای پیچیده تر مانند خانههای هوشمند یا برنامههای مراقبتهای بهداشتی وجود دارد.
اگر شما از یکی از این راه حلهای استاندارد راضی هستید، ممکن است گزینه ای برای شما باشد. توجه داشته باشید که به طور کلی، باید نوعی سازگاری یا پارامتر سازی نرم افزار انجام شود و این راه حلها فقط به یک میزان خاص اجازه شخصی سازی می دهند.
با این حال، اکثر شرکتها برای دستیابی به اهداف فردی با یک راه حل پردازش ویدیویی، که به نرم افزارهای بهینه تری نیاز دارند، می توانند بینشهای خاصی کسب کنند. در این حالت، راه حل ایده آل این است که به یک شرکت متخصص در خدمات پردازش ویدیویی مراجعه کنید. احتمالاً یک راه حل سفارشی دقیق تر است و می تواند موارد استفاده غیرمعمول یا بسیار خاص را برطرف کند.
نتیجه گیری کلی
راه حلهای پردازش ویدئویی در کمک به ما در کارهای روزانه ما بسیار ارزشمند است. بخشهای گسترده ای وجود دارد که می توانند از این فناوری بهره مند شوند، به ویژه که پیچیدگی برنامههای کاربردی بالقوه در سالهای اخیر رو به افزایش است.
از شهرهای هوشمند، گرفته تا کنترلهای امنیتی در بیمارستانها و فرودگاهها، گرفته تا افرادی که مراکز خرده فروشی و خرید را ردیابی می کنند، زمینه پردازش ویدیویی را امکان پذیر میکنند که هم برای انسانها مفید باشد و برای شرکتها نیز ارزان تر باشد.
امیدواریم که از این پست لذت برده باشید، و درک بهتری از آنچه در مورد پردازش ویدیویی، چگونگی عملکرد آن وجود دارد، و اینکه چگونه می توانید از آن در سازمان خود به منظور خودکار سازی فرایندها و کسب بینشهای ارزشمند برای تصمیم گیری بهتر استفاده کنید، کسب کنید..
در اینجا در Tryolabs، ما از سال 2010 در حال ایجاد راه حلهای یادگیری ماشین هستیم. همکاری با شرکتها در صنایع مختلف به ما این امکان را میدهد تا چالشهای آنها و چگونگی استفاده از دادهها برای هدایت نتایج تجاری را بهتر بشناسیم.