کلان داده یا بیگ دیتا (Big Data) عبارتی است که برای توصیف مقادیر بزرگی از داده (اعم از داده های ساختار یافته و بدون ساختار) استفاده می شود که روز به روز بیشتر مشاغل را درگیر خود می کند. این اندازه و بزرگی داده ها نیست که آن را برای مشاغل پر اهمیت می کند بلکه کار هایی که سازمان ها می توانند با استفاده از این داده ها انجام دهند، به کلان داده ها اهمیت می بخشد.
از کلان داده ها می توان برای استخراج اطلاعات مورد نیاز برای تصمیم گیری استفاده کرد و با تجزیه و تحلیل این داده ها می توان تصمیمات بهتری گرفت و حرکات استراتژیک و حساس را با دقت بیشتری اجرا نمود.
تاریخچه کلان داده
همان گونه که گفته شد، واژه “کلان داده” برای داده هایی استفاده می شود که حجم بزرگی داشته باشند و یا انقدر پیچیده و سریع باشد که با روش های سنتی نتوان آن ها را پردازش کرد. عمل دستیابی و ذخیره سازی مقادیر بزرگ از داده ها سال ها است که انجام می شود. اما مفهوم کلان داده برای اولین بار در اوایل دهه 2000 میلادی بیان شد. زمانی که داگ لنی، تحلیل گر صنعتی، جریان داده های بزرگ را با سه واژه بیان کرد.
ویژگی های کلان داده
در ابتدا سه ویژگی (3V) برای بیگ دیتا تعریف شد اما الان بیگ دیتا پنج ویژگی (5V) دارد.
1. حجم (Volume)
سازمان ها دادهها را از منابع مختلفی مانند: معاملات تجاری، دستگاه های هوشمند (IoT)، تجهیزات صنعتی، فیلمها، رسانههای اجتماعی و موارد دیگر جمع آوری می کنند. در گذشته، ذخیره سازی دادهها به دلیل مشکل فضا ذخیر سازی کار سختی بود اما امروزه با پیشرفت علم و ابزارهای ذخیره سازی مشکلی در ذخیر سازی بیگ دیتا نداریم.
چند نمونه از حجم بیگ دیتا:
- تا سال 2016 در فیس بوک 2.5 تریلیون پست وجود داشت که این عدد بسار بزرگ است.
- فرض کنید یک سنسور دما دارید و هر یک دقیقه دما را اندازه گیری میکنید، شما بعد از یک سال بیش از 525،600 نقطه های دما در زمان یک سال دارید! حالا یک کارخانه را با هزار سنسور تصور کنید این کارخانه فقط برای اندازه گیری دما چه مقدار داده باید جمع آوری و ذخیره کند.
2. نرخ تولید بالا (Velocity)
اکثر بیگ دیتاها به صورت مقطعای جمع آوری نمیشوند بلکه در بسیاری از موارد با گذر زمان اندازه بیگ دیتا گسترش پیدا میکند.
چند نمونه از نرخ تولید بیگ دیتا
- روزانه بیش از ۵۴ میلیارد پیامک در واتساپ رد و بدل میشود.
- ماهانه بیش از 180 میلیارد جستجو در گوگل انجام میشود.
- روزانه 900 میلیون عکس در فیس بوک بارگذاری میشود.
- روزانه 500 میلیون توییت در توییتر منشتر میشود.
3. تنوع پذیری (Variety)
علاوه بر افزایش سرعت و تنوع داده ها، جریان داده ها غیرقابل پیش بینی هستند و اغلب تا حد زیادی تغییر می کنند. این مسئله برای کسب و کارهایی که با کلان داده ها سر و کار دارند چالش بر انگیز است، اما مشاغل باید پیش بینی کنند که چه چیزی در رسانههای اجتماعی قرار است رواج پیدا کند و یا به عبارتی ترند (trend) شود و چگونه میتوان بارهای داده های روزانه، فصلی و غیره آن را مدیریت کرد.
4. ارزش (value)
داده های بزرگ باید ارزشمند باشند در غیر این صورت نمیتوان از آنها برای رشد کسب و کار خود استفاده کرد. اگر قصد جمع آوری و تفسیر داده ها را داربد حتما اطمینان پیدا کنید که این داده ها میتواند شما را در رسیدن به اهدافتون کمک کنند.
بسیاری از بیگ دیتاهای که سازمان ها جمع آوری میکند بی ارزش و غیر مفید هستند و فقط حجم زیادی از منابع سخت افزاری سازمان را اشغال کردهاند.
5. صحت (Veracity)
به میزان دقیق یا درست بودن یک مجموعه داده، صحت داده میگویند. وقتی صحبت از صحت داده های کلان میشود، فقط کیفیت داده ها مهم نیست بلکه حذف مواردی مانند تعصب، ناهنجاریها یا ناسازگاریها، تکثیرها و بی ثباتیها باعث بهبود دقت داده های بزرگ میشود. به عنوان مثال دادههای رسانه های اجتماعی، بسیار ناپایدار است به خاطر اینکه رسانه های اجتماعی فضایی احساسی و هیجانی است و به سرعت رفتار کاربران در آن تغییر میکند.
کسب و کارها باید روابط، سلسله مراتب و پیوندهای داده های مختلف را به یکدیگر برقرار کنند. در غیر این صورت، این داده های جمع آوری شده می تواند به سرعت از کنترل خارج شوند.
انواع بیگ دیتا
بیگ دیتا ها را میتوان به 3 نوع تقسیم بندی کرد:
- داده های بدون ساختار
- داده های نیمه ساختار یافته
- داده های ساختار یافته
چرا کلان داد ها مهم هستند؟
اهمیت کلان داده ها به این که چه مقدار داده دارید باز نمی گردد، بلکه این که چه کاری قرار است با این حجم از داده انجام دهید است که به آن ها اهمیت می بخشد. شما می توانید داده ها را از هر منبع تهیه کرده و آن را تجزیه و تحلیل کنید تا پاسخ هایی را پیدا کنید که باعث:
- کاهش هزینه
- کاهش زمان صرف شده
- توسعه محصول جدید و ارائه پیشنهادات بهینه
- تصمیم گیری هوشمندانه
شود. هنگامی که داده های بزرگ را با آنالیز دقیق ترکیب می کنید، می توانید کارهای مختلفی در زمینه کسب و کار انجام دهید که به عنوان مثال عبارتند از:
- تعیین علت اصلی نارسایی ها ، مشکلات و نقص ها در زمان.
- ارائه آفر و کوپن به مشتریان براساس عادات خرید آن ها.
- محاسبه کل ریسک موجود در کمتر از چند دقیقه.
- رفتارهای پر خطر و کلاهبردارانه را قبل از اینکه سازمان شما را تحت تاثیر قرار دهد شناسایی کنید.
پیوند کلان داده و هوش مصنوعی
کلان داده و هوش مصنوعی توسط دانشمندان داده یا سازمان های بزرگ به عنوان افسانه مکانیک داده ها در نظر گرفته می شوند. بسیاری از سازمان ها امیدوارند که هوش مصنوعی بتواند با استفاده از داده های سازمانی آن ها، کسب وکارشان را متحول کند.
یادگیری ماشین نسخه پیشرفته هوش مصنوعی می باشد که به وسیله آن ماشین ها می توانند داده ها را تجزیه و تحلیل کرده و یا ارسال و دریافت کنند و یا این که مفاهیم جدید را یاد بگیرند. کلان داده به شرکت ها کمک می کند که اطلاعات مورد نیازشان را از آن ها استخراج کرده و بینش معناداری را از آن بدست بیاورند.
از آنجا که هوش مصنوعی به عنوان ابزاری برای کاهش مداخله انسان شناخته شده است ، افراد فکر می کنند که هوش مصنوعی کلیه قابلیت های یادگیری ماشین را دارد و می تواند روبات هایی ایجاد کند که مشاغل انسانی را به عهده می گیرد. آن ها فکر می کنند که قرار است نقش انسان با گسترش هوش مصنوعی کاهش یابد اما این فرضیه با وارد شدن مبحث کلان داده تغییر میابد. ماشین آلات می توانند بر اساس واقعیت ها تصمیم بگیرند اما نمی توانند تعاملات عاطفی داشته باشند، اما با وجود کلان داده ، دانشمندان داده با استفاده از هوش هیجانی خود و ترکیب آن با داده هایی که از کلان داده ها بدست می آورند قادرند تا به روش صحیحی تصمیم گیری کنند.
یک دانشمند داده ، نه تنها قادر به تجزیه و تحلیل نیازهای مشتریان می باشد بلکه از قوانین و مقررات محلی بازار های خاص نیز مطلع شوند. با استفاده از این اطلاعات ، آنها بهترین گزینه ها را برای بازار ارائه می دهند که این امر ممکن است با استفاده از یادگیری ماشین امکان پذیر نباشد.
بنابر این مشخص است که با ادغام هوش مصنوعی و کلان داده به بسیاری از مفاهیم و گزینه های جدید می رسیم که هر کدام قابلیت متحول کردن بخش عظیمی از کسب و کار های مختلف را دارد. هوش مصنوعی و کلان داده در کنار هم می توانند به کسب و کارها کمک کنند تا علاقه و نیاز مشتریان خود را بهتر درک کنند.
سازمان ها و کسب و کارهای مختلف با استفاده از مفاهیم یادگیری ماشینی می توانند منافع خود و مشتری را در کمترین زمان ممکن تشخیص دهند.
در صورتی که این مطلب برای شما مفید بود آن را با دوستانتان به اشتراک بگذارید.
تحلیل کلان داده از روش های مختلفی امکان پذیر است؛ 1. تحلیلهای پیشبینی کننده 2. تحلیلهای توصیف کننده 3. تحلیلهای تجویز کننده
بیگ دیتا (Big Data) مجموعهای از دادههای که از حجم و پیچیدگی بسیار زیاد برخودار هستند و نمیتوان آنها را با هیچ یک از ابزارهای سنتی مدیریت کرد.
داده ها به دو دستهی کمی (قابل اندازه گیری هستند و میتوان آنها را به صورت عددی نشان داد) و کیفی (دادههای توصیفی مانند میزان صداقت و خلاقیت افراد که قابل محاسبه نیستند) تقسیم بندی میشوند.
کلمه "Data" برای اولین بار در سال 1946 به معنی "اطلاعات رایانه ای قابل انتقال و ذخیره سازی" استفاده شد.