چیستی، چرایی و چگونگی داده محور بودن در دنیایی لبریز از داده
خطاهای استفاده از داده های ناکافی بسیار کمتر از خطاهای عدم استفاده از داده ها هستند.
چارلز ببج
حتی تصور اینکه با دسترسی به انواع گوناگون داده ها به چه قدرت زیادی دست پیدا می کنید، دشوار است.
تیم برنرز لی
همه چیز را جمع کنید[1]
فرض کنید شما می خواهید اوضاع و احوال سایتتان را رصد[2]کنید و به حداقلی درباره آنچه درون آن و یا پیرامون آن رخ می دهد دست یابید. می خواهید بفهمید که تعامل مخاطبین با وبسایت شما تا چه اندازه و به چه شکل بوده است. به عنوان مثال هر کدام از آنها تا چه میزان به عمق[3]وبسایت شما نفوذ کرده اند. در این زمینه سایت هم با سایت فرق می کند. به عنوان مثال در برخی سایت ها با یک کلیک شما گزینه افزودن به سبد خرید[4]را انتخاب کرده و خریدتان را انجام می دهید حال آنکه در برخی دیگر باید از چند مسیر مختلف و با چند کلیک بگذرید تا به چنین هدفی برسید. تازه این تمام ماجرا نیست. فرض کنید چند آیتم مختلف را برای خرید انتخاب کرده اید و حالا میخواهید یکی از آن ها را از فهرست خریدتان حذف کنید. در بعضی از سایت ها این کار شدنی است اما در بعضی دیگر باید برگردید و کل فرآیند را از ابتدا و مجددا انجام دهید. دی جی پاتیل در کتاب معروفش ساخت تیم های علم داده[5]که توسط انتشارات اوریلی به انتشار رسیده است می گوید: وانمود کردن به داده محور بودن آسان است. اما اگر شما به این طرز فکر برسید که همه چیزهایی که می توانید را جمع آوری[6]و اندازه گیری[7] کنید و بعد از آن به این فکر کنید که این داده ها چه معنایی دارند، من به شما قول می دهم از اکثر سازمان هایی که ادعای داده محور بودن می کنند جلوتر هستید.
همه چیز را جمع آوری کنید حتی چیزهایی که به نظرتان به درد نخور می آیند، به یاد داشته باشید که در دنیای امروز گاهی شما تنها یک بار شانس جمع آوری داده یا داده هایی خاص را خواهید داشت. ممکن است یادتان باشد فلان لینک در فلان جای فلان سایت است اما هنگامی که پس از دو ماه به آنجا می روید و روی آن کلیک می کنید متوجه شوید به آن محتوای مورد نظر دسترسی ندارید.
هر چه داده های بیشتری جمع آوری کنید شانس شما برای مدل سازی و درک رفتار کاربران بیشتر خواهد بود و از همه مهم تر شما بافت یا Context را بهتر میشناسید. (همان طور که می دانید بافت، پادشاه است.) با شناخت بافت مربوطه، شما سلایق و امیال کاربران را خواهید شناخت و می توانید به تحلیل های بهتری دست بیابید. چنانچه شما یک سازمان داده محور باشید و یا بخواهید که یک سازمان داده محور باشید نیاز به بازاریابی داده محور[8]، فروش داده محور[9]، خدمات مشتریان داده محور[10]، زنجیره تامین داده محور[11]و نیروی انسانی داده محور[12]خواهید داشت. جمله همه چیز را جمع آوری کنید ممکن است در آغاز بسیار ایده هیجان انگیزی به نظر برسد اما در عمل ممکن است به دلیلی بزرگ برای سردردهای شما[13]بدل شود. همانطور که مستحضرید سه واژه هستند که کلان داده (Big Data) را تعریف می کنند: Variety (تنوع )، Velocity (سرعت) و Volume (حجم) که در اصطلاح عامیانه به آن ها ۳V گفته می شود.
Volume حجم: ما در دنیای حاضر شاهد رشد نمایی ذخیره داده ها هستیم. ما می توانیم در این ذخیره سازی انواع متفاوتی از داده ها نظیر ویدئو، موسیقی، تصاویر بزرگ را در شبکه های اجتماعی مشاهده کنیم. سیستم های ذخیره سازی با حجم ترابایت یا پتابایت در سازمان ها بسیار معمول هستند. همان طور که پایگاه داده رشد می کند، برنامه های کاربردی و معماری ساخته شده برای حمایت از داده ها نیز نیاز به بررسی مجدد دارند. گاهی اوقات داده های مشابه از زوایای گوناگون بایستی مورد بررسی قرار بگیرد . حجم زیاد داده ها نشان دهنده Big Data است.
Velocity سرعت: رشد داده ها و انفجار رسانه های اجتماعی، نگاه ما را به داده ها تغییر داده است. زمانی رسیده است که ما به عنوان استفاده کننده از داده، به این باور رسیده ایم که داده های دیروز داده های گذشته هستند. کانال های رادیویی و شبکه های خبری به شدت دچار تغییر شده اند چرا که به سرعت اخبار را در اختیار ما قرار می دهند. امروزه مردم در شبکه های اجتماعی آخرین رخدادها را برای استفاده دیگران به روز رسانی می کنند. در شبکه های اجتماعی گاهی گذشت چند ثانیه منجر به قدیمی شدن یک پیغام می شود که دیگر مورد علاقه کاربران نیست. مردم اغلب پیام های قدیمی را دور ریخته و به موارد جدید علاقه و توجه نشان می دهند. این داده با سرعت بالا نشان دهنده Big Data است.
Variety تنوع: اطلاعات را می توان در فرمت های متعدد ذخیره نمود. به عنوان نمونه پایگاه داده، اکسل، اکسس یا حتی یک فایل متنی ساده را به کار برد. گاهی اوقات داده ها در فرمت های سنتی قرار نمی گیرند بلکه به شکل ویدئو، پیام کوتاه، فایل PDF و ... هستند. سازمان ها نیاز به این دارند که داده ها را سازماندهی نمایند و آن ها را در قالب معناداری قرار دهند. اگر تمامی داده ها دارای یک فرمت باشند کار بسیار ساده است اما این محدودیت در واقعیت وجود ندارد.جهان واقعی دارای داده های زیادی در فرمت های متفاوتی است و چالش اصلی رویارویی با این تنوع داده هاست. تنوع داده ها نشان دهنده Big Data است.
اولویت بندی منابع داده ها
در یک سازمان – کوچک یا بزرگ – از کجا باید فهمید اولویت کدام داده ها و در چه شرایطی بالاتر است؟ آیا اولویت ما همیشه مالی است و یا نیاز تحلیلگران را در نظر می گیریم؟ آیا مجموعه داده های مرکزی برایمان کافی هستند یا نیاز به داده های خرد و پراکنده نیز داریم؟ به عنوان مثال قسمت خدمات پس از فروش در یک سازمان تنها یکی از قسمت های آن سازمان است که با تمام مطالعات ما پیرامون آن تازه متوجه میشویم که قسمتهای دیگری با نیازهای دیگر وجود دارند.

[1] Collect all the things
[2]Observe
[3]Deep into
[4]Add to cart
[5]Building Data Science Teams
[6]Collect
[7]Measure
[8] Data driven marketing
[9]Data driven sales
[10]Data driven customer service
[11]Data driven supply chain
[12]Data driven HR
[13] Main reason of your big headaches
