داده کاوی یک فرآیند استخراج دانش ضروری است که شامل جمع آوری و سازماندهی اطلاعات مفید است. سازمانها با هر شکل و اندازهای که هم به بخش عمومی و هم به بخش دولتی تعلق دارند، بر کاوش عمیقتر در دادههای سازمانیافته برای کمک به سرمایهگذاریهای آینده و همچنین تجربه مشتری در حال ارائه تمرکز دارند. کاوش در داده را میتوان نه تنها در یک محیط کاملاً مبتنی بر کسب و کار بلکه در چندین زمینه دیگر نیز به طور موثر به کار برد. برخی از نمونههای عالی و قابل توجه عبارتند از تجزیه و تحلیل دادههای مراقبتهای بهداشتی، پیش بینی آب و هوا، پزشکی، تجزیه و تحلیل دادههای حمل و نقل و پیش بینی ها، پیش بینی انتظارات برای شرکتهای بیمه و این لیست ادامه دارد.
هنگامی که داده کاوی در یک صنعت خاص مورد استفاده قرار میگیرد، مزایای بسیاری وجود دارد. در عصر کنونی، دادههایی که ذخیره، بررسی و سازماندهی میشوند روز به روز در حال گسترش هستند. طبق آمار یک مطالعه اخیر، بیش از 2000000 جستجو در هر دقیقه توسط گوگل دریافت میشود، بیش از 200 میلیون ایمیل نیز در همان بازه زمانی ارسال میشود، 48 ساعت ویدئو در یوتیوب نیز در همان 60 ثانیه آپلود میشود. 700000 نوع محتوای مختلف در همان دقیقه از طریق فیس بوک به اشتراک گذاشته میشود و کمی بیش از 100000 توییت در همان دقیقه توییت میشود. همه این دادهها وقتی به رسانههای دیگر مانند پلتفرمهای خبری، پلتفرمهای معاملات سهام و پلتفرمهای اشتراکگذاری رسانه اضافه میشوند، دادههای بیشتری را تولید میکنند که با گذشت هر ثانیه ایجاد میشوند.
مطالعه بیشتر: حکمرانی داده چیست ؟
داده کاوی چیست؟
به عبارت ساده، داده کاوی فرآیند غربال کردن مجموعههای بزرگ داده برای شناسایی و توصیف الگوها، کشف و ایجاد روابط با هدف پیش بینی روندهای آینده بر اساس آن الگوها و روابط است.
چرا داده کاوی در حال حاضر مهم است؟ آیا از زمانهای بسیار قدیم تا کنون دادهها را “کاوش” نکرده ایم؟
جواب این سوال بله و خیر است. درست است که دادهها همیشه برای شناسایی الگوها و پیشبینی نتایج مورد تجزیه و تحلیل قرار میگرفتند، دادههایی که سازمانها باید با آنها سر و کار داشتند در زمانهای اخیر با ظهور کلان دادهها منفجر شدند. از آنجایی که این مجموعه دادههای بزرگ، شناسایی الگوهای چند بعدی را با استفاده از تکنیکها یا ابزارهای سنتی تقریباً غیرممکن میسازد؛ دادهکاوی در شکل مدرن خود، با ظهور جدیدترین ابزارها و پردازش سریعتر، کشف الگوها، کنار هم قرار دادن مدلهای پیش بینی کننده و برقراری روابط را خودکار کرده که در نتیجه آنها را کارآمد میکند.
مطالعه بیشتر: ویژگیهای یک سازمان داده محور
داده کاوی چگونه کار میکند؟
فرایند داده کاوی به طور خلاصه یافتن روندها و الگوها معنادارِ حاصل از بررسی ،تجزیه و تحلیل حجم بزرگ اطلاعات است. این فرایند در موارد متعددی از جمله مدیریت ریسک، مسدود کردن ایمیلهای نامربوط، شناسایی متقلبان و شناسایی و فهم احساس کاربران نسبت به یک موضوع کاربرد دارد.
اگر بخواهیم تصویری کلی از پنج قدم اساسی داده کاوی داشته باشیم میتوانیم به ترتیب زیر آنها را مرتب کنیم :
- جمع آوری دادهها و بارگذاری آنها در محل ذخیره داده ها
- انتقال دادهها به سرور داخلی و مدیریت آنها در فضای ابری خود
- تعیین نحوه ساماندهی دادهها توسط تیمهای تخصصی مدیریت ،تحلیل کسب و کار و متخصصان IT که به دادهها دسترسی دارند.
- مرتب شدن دادهها توسط نرم افزار کاربردی مخصوص کار بر روی دادهها بر اساس نتایجی که کاربر ارائه می دهد.
- ارائه نتایج تهیه شده توسط نرم افزار به وسیله ی کاربر در قالبهایی مانند نمودار و جدول
داده کاوی در مقابل تجزیه و تحلیل داده و انبار داده
داده کاوی گاهی اوقات به عنوان مترادف با تجزیه و تحلیل داده در نظر گرفته میشود. اما عمدتاً به عنوان یک جنبه خاص از تجزیه و تحلیل دادهها در نظر گرفته میشود که تجزیه و تحلیل مجموعه دادههای بزرگ را برای کشف اطلاعات غیرقابل شناسایی، خودکار میکند. سپس این اطلاعات میتواند در فرآیند علم داده و سایر برنامههای کاربردی هوش تجاری و تجزیه و تحلیل استفاده شود.
انبار داده با ارائه مخازن برای مجموعه دادهها از تلاشهای داده کاوی پشتیبانی میکند. به طور سنتی، دادههای تاریخی در انبارهای داده سازمانی یا بازارهای داده کوچکتر که برای واحدهای تجاری منفرد یا برای نگهداری زیرمجموعههای خاصی از دادهها ساخته شدهاند، ذخیره میشوند. با این حال، امروزه، دریاچههای دادهای که دادههای تاریخی و فعلی را ذخیره میکنند و مبتنی بر پلتفرمهای کلان داده مانند Hadoop و Spark، پایگاههای داده NoSQL یا سرویسهای ذخیرهسازی شی ابری هستند، اغلب برای پشتیبانی از برنامههای استخراج داده استفاده میشوند.
برای مطالعه بیشتر: استاندارد سازی داده ها
نرم افزار ذخیره سازی و استخراج داده ها
ماموریت اصلی برنامههای داده کاوی این است که بر پایه نیاز کاربران روابط و روندهایی که در میان دادهها وجود دارد را پیدا کنند. برای درک بهتر نحوه کار این نرم افزارها به عنوان مثال میشود یک رستوران را در نظر گرفت. داده کاوی میتواند با آنالیز دادههای جمع اوری شده از زمان حضور مشتریان و سفارشاتشان تشخیص دهد که چه زمانی باید چه نوع غذایی توسط رستوران ارائه شود.
کار دیگر داده کاوی ادراک رفتار مشتری بر اساس یافتن ارتباطات منطقی، روندها و الگوها ی پرتکرار در بین دستههای طلاعات است.
از دیگر جنبههای مهم داده کاوی انبارداری اطلاعات و داده هاست. انبار داری دادهها به این معناست که سازمانها دادههایشان را در یک پایگاه داده به طور متمرکز نگهداری میکنند. اگر سازمانی انبار داده ی کارامدی داشته باشد میتواند هر بخش از این انبار را برای کاربرانی با درخواستهای متفاوت آنالیز کند. گاهی اوقات نیز تحلیلگران با توجه به دادههای مورد نیاز خود و مشخصات آنها با گرد آوری آنها یک انبار داده تاسیس میکنند.
مطالعه بیشتر: شاخصهای ارزیابی عملکرد کارکنان
مزایای داده کاوی چیست؟
مزیت گسترده شناسایی الگوهای پنهان، روابط متعاقب و ایجاد مدلهای پیش بینی را میتوان برای بسیاری از کارکردها و زمینهها در سازمانها اعمال کرد. به طور خاص، عملکردهای متمرکز بر مشتری میتوانند دادههای مشتری را برای جذب مشتریان جدید، حفظ مشتریان، فروش متقابل به مشتریان فعلی استخراج کنند.
مثالهای دیگری که میتوان به آن اشاره کرد افزایش نرخ تبدیل مشتری و/یا ساخت مدلهای پیشبینی فروش آینده یا محصولات و خدمات جدید است. شرکتهای بخش مالی میتوانند مدلهای کشف تقلب و مدلهای کاهش ریسک بسازند. بخش انرژی و تولید میتواند مدلهای تعمیر و نگهداری فعال و مدلهای تشخیص کیفیت را ارائه دهند. خردهفروشان میتوانند مدلهای قرار دادن/پر کردن سهام را در فروشگاه ها بسازند و اثر بخشی تبلیغات و کوپنها را ارزیابی کنند. شرکتهای داروسازی میتوانند مجموعه دادههای ترکیبات شیمیایی بزرگ را استخراج کنند تا عواملی را برای درمان بیماریها شناسایی کنند.
چالشها و مشکلات پیش روی دیتا ماینینگ
دیتا ماینینگ یکی از مفیدترین تکنیکهایی است که به کارآفرینان، محققان و افراد کمک میکند تا اطلاعات ارزشمندی را از مجموعههای عظیم داده استخراج کنند. برخی از چالشهای پیش روی داده کاوی عبارتند از:
- استخراج انواع مختلف دانش در پایگاههای داده: نیازهای کاربران مختلف متفاوت است. انواع مختلف دانش ممکن است علاقه کاربران مختلف را برانگیزد. در نتیجه، دیتا ماینینگ باید طیف وسیعی از وظایف کشف دانش را پوشش دهد.
- دانش کاوی تعاملی در سطوح مختلف انتزاعی: فرآیند داده کاوی باید تعاملی باشد زیرا کاربران را قادر میسازد تا بر روی جستجوی الگوها، ارائه و اصلاح درخواستهای داده کاوی بسته به نتایج برگشتی تمرکز کنند.
- دانش پیش زمینه: این امر میتواند برای بیان الگوهای کشف شده نه تنها به صورت مختصر بلکه در سطوح مختلف انتزاع برای هدایت فرآیند کشف و بیان الگوهای کشف شده استفاده شود.
- زبان های جست و جوی داده کاوی موقت و داده کاوی: فرآیند دیتا ماینینگ باید تعاملی باشد. زیرا کاربران را قادر میسازد تا بر روی جست وجوی الگوها، ارائه و اصلاح درخواستهای داده کاوی بسته به نتایج برگشتی تمرکز کنند.
- ارائه و تجسم نتایج داده کاوی: پس از شناسایی الگوها، باید به زبانهای سطح بالا و نمایشهای بصری بیان شوند. کاربران باید بتوانند به راحتی این نمایشها را درک کنند.
- مدیریت دادههای پر سر و صدا یا ناقص: استفاده از تکنیکهای پاکسازی داده ها که میتوانند نویز و اشیاء ناقص را هنگام استخراج منظم دادهها مدیریت کنند، ضروری است. بدون روشهای پاکسازی داده ها، دقت الگوهای کشف شده پایین خواهد بود.
- ارزیابی الگو: این نشان دهنده جذابیت موضوع است. الگوهایی که پیدا شدهاند باید جذاب باشند. زیرا یا به دانش قبلی اشاره میکنند یا اصالت ندارند.
- چالشهای امنیتی و اجتماعی: از جمع آوری و تبادل دادهها برای تصمیم گیری استفاده میشود، بنابراین باید سطح بالایی از امنیت وجود داشته باشد. اطلاعات حساس و اطلاعات خصوصی در مورد افراد خاص برای تجزیه و تحلیل الگوی رفتار کاربر و پروفایل مشتری جمع آوری میشود. محرمانه بودن اطلاعات و دسترسی غیرمجاز اکنون مشکلات مهمی هستند.
- رابط کاربری: فنآوریهای دیتا ماینینگ تنها زمانی میتوانند مفید باشند که دانشی که کشف میکنند برای کاربر جالب و مهمتر از همه قابل درک باشد. با کمک تجسم و تفسیر مناسب میتوان نتایج داده کاوی را ساده کرد و نیازهای آنها را بهتر درک کرد. تحقیقات زیادی بر روی مجموعه دادههای عظیمی انجام میشود که دانش استخراج شده را نشان داده و تغییر میدهد تا به تجسم بهینه دست یابد.
- دادههای پیچیده: دادههای دنیای واقعی ناهمگن هستند و میتوانند دادههای چندرسانهای شامل تصاویر، صدا و تصویر، دادههای پیچیده، دادههای زمانی، دادههای مکانی، سریهای زمانی، متن زبان طبیعی و غیره باشند. رسیدگی به این انواع مختلف دادهها و استخراج دادههای مورد نیاز دشوار است. اطلاعات ابزارها و روشهای جدیدی برای استخراج اطلاعات مرتبط در حال توسعه هستند.
- (i) انواع دادههای پیچیده: پایگاه داده میتواند شامل عناصر داده پیچیده، اشیاء با دادههای گرافیکی، دادههای مکانی و دادههای زمانی باشد. استخراج همه این نوع دادهها برای انجام یک دستگاه عملی نیست.
- (ii) استخراج از منابع مختلف: دادهها از منابع مختلف در شبکه جمع آوری میشوند. منبع داده بسته به نحوه ذخیره سازی آنها ممکن است انواع مختلفی داشته باشد مانند ساختار یافته، نیمه ساختاریافته یا بدون ساختار.
- کارایی: عملکرد سیستم دیتا ماینینگ به کارایی الگوریتمها و تکنیکهای مورد استفاده بستگی دارد. الگوریتمها و تکنیک های طراحیشده برای تأثیرگذاری بر عملکرد فرآیند دادهکاوی در حد استاندارد نیستند.
کاربردهای داده کاوی
در عصر اطلاعات امروز، به نظر میرسد تقریباً هر بخش، صنعت، بخش و شرکتی میتواند از داده کاوی استفاده کند. استخراج داده یک فرآیند مبهم است تا زمانی که مجموعهای از دادهها برای تجزیه و تحلیل وجود داشته باشد، کاربردهای مختلفی خواهد داشت.
1 -فروش
هدف نهایی یک شرکت کسب درآمد است و داده کاوی استفاده هوشمندانهتر و کارآمدتر از سرمایه را برای افزایش درآمد تشویق میکند. به عنوان مثال در مورد نقطه فروش در کافی شاپ محله مورد نظر خود فکر کنید. کافی شاپ زمان هر خرید، محصولاتی که در همان زمان خریداری شدهاند و محبوبترین محصولات پخته شده را ثبت و جمع آوری میکند. با استفاده از این اطلاعات، کافی شاپ میتواند خط تولید خود را به صورت استراتژیک ایجاد کند
2- بازاریابی
هنگامی که کافی شاپ از ترکیب ایدهآل خود مطلع شد، زمان اعمال تغییرات فرا رسیده است. با این حال، برای مؤثرتر کردن تلاشهای بازاریابی، فروشگاه میتواند از داده کاوی برای شناسایی بهتر مکانهایی که مشتریانش آگهیها را مشاهده میکنند، جمعیتشناسی را هدف قرار دهد، کجا تبلیغات دیجیتالی قرار داده و چه تاکتیکهای بازاریابی با آنها طنینانداز میشود به همین منظور در جهت افزایش اثربخشی کمپینهای بازاریابی خود استفاده میکند. این امر شامل همسوسازی کمپینهای بازاریابی، پیشنهادات تبلیغاتی، پیشنهادات فروش متقابل و برنامهها با یافتههای دیتا ماینینگ است.
3- ساخت
برای شرکت هایی که کالاهای خود را تولید میکنند، داده کاوی نقش مهمی در تجزیه و تحلیل هزینههای هر ماده خام، موادی که به بهترین شکل استفاده میشوند، نحوه صرف زمان در طول فرآیند تولید و اینکه چه تنگناهایی بر فرآیند تأثیر منفی میگذارد، ایفا میکند. استخراج داده کمک میکند تا اطمینان حاصل شود که جریان کالاها بدون وقفه و کم هزینه است.
4- تشخیص تقلب
قلب داده کاوی یافتن الگوها، روندها و همبستگیهایی است که نقاط داده را به یکدیگر مرتبط میکند. بنابراین، یک شرکت میتواند از داده برای شناسایی نقاط پرت یا همبستگیهایی که نباید وجود داشته باشند، استفاده کند. به عنوان مثال، یک شرکت ممکن است جریان نقدی خود را تجزیه و تحلیل کند و یک تراکنش تکراری به یک حساب ناشناخته را بیابد. که در این صورت ممکن است شرکت بخواهد در صورت سوء استفاده از پول، آن را بررسی کند.
برای مطالعه بیشتر: مشاهده سازی داده ها
چه مهارتهایی برای داده کاوی مورد نیاز است؟
داده کاوی در تجزیه و تحلیل دادههای عددی و هوش مصنوعی/ یادگیری ماشینی (نرم افزار و سیستمهایی که مانند انسانها بر اساس الگوریتمها درک و یاد میگیرند) و پایگاه دادهها قرار دارد. اینها به تواناییهای فنی تبدیل میشوند که شامل دانش پایتون، R و SQLاست. یک داده کاوی موفق باید علاوه بر مهارتهای فنی فوق، زمینه/دانش کسب و کار و سایر مهارتهای به اصطلاح نرم (تیم، هوش تجاری، ارتباطات و غیره) را نیز داشته باشد. نکتهای که باید همواره در نظر داشته باشید این است که داده کاوی ابزاری است که تنها هدف آن دستیابی به یک هدف تجاری (افزایش درآمدها / کاهش هزینه ها) با تسریع قابلیتهای پیش بینی است. یک مهارت فنی خالص بدون زمینههای تجاری آن به هدف نمیرسد.
یک نکته درباره داده از کتاب متا براون بیان میکند:
اکتشافات یک داده کاوی تنها زمانی ارزش دارد که تصمیم گیرنده بخواهد بر اساس آنها عمل کند. به عنوان یک داده کاو، تأثیر شما به اندازه توانایی شما برای متقاعد کردن یک مشتری، یک مدیر اجرایی، یک بوروکرات دولتی در مورد حقیقت و ارتباط اطلاعاتی که باید به اشتراک بگذارید، خواهد بود. این بدان معنی است که شما باید یاد بگیرید که یک داستان خوب بگویید نه هر داستانی، بلکه داستانی که صادقانه حقایق و پیامدهای آنه ا را به روشی که برای تصمیم گیرنده شما قانع کننده باشد، منتقل کند.
مطالعه بیشتر: هوش تجاری چیست ؟
فرآیند داده کاوی
تحلیلگران داده معمولاً برای موفقیت بیشتر در طول فرآیند داده کاوی از یک جریان خاص وظایف پیروی میکنند. بدون این ساختار، یک تحلیلگر میتواند در میانه مطالعه خود با مشکلی مواجه شود که اگر از قبل برنامه ریزی کرده بود، میتوانست به راحتی از آن اجتناب کند. این فرآیند معمولاً به مراحل زیر تقسیم میشود.
مرحله 1: درک کسب و کار
قبل از استخراج، پاکسازی یا تجزیه و تحلیل هر داده ای، مهم است که موجودیت اساسی و پروژه در دست را درک کنید. اهدافی که شرکت در تلاش است با استخراج دادهها به آن دست یابد چیست؟ وضعیت فعلی کسب و کار آنها چگونه است؟ یافتههای تجزیه و تحلیل SWOT چیست؟ قبل از بررسی هر داده ای، فرآیند استخراج با درک آنچه که موفقیت در پایان فرآیند را تعریف میکند، آغاز میشود.
مطالعه بیشتر: مدیریت پروژه به چه معناست ؟
مرحله 2: درک اطلاعات
هنگامی که مشکل کسب و کار به وضوح تعریف شد، زمان آن رسیده است که به دادهها فکر کنید. که شامل چه منابعی است، چگونه ذخیره میشود، اطلاعات چگونه جمع آوری میشود، و نتیجه یا تجزیه و تحلیل نهایی ممکن است چگونه باشد. این مرحله همچنین محدودیتهای موجود بر روی دادهها، ذخیرهسازی، امنیت و اکتساب را در نظر میگیرد و ارزیابی میکند که این محدودیتها چگونه بر رویه داده کاوی تأثیر میگذارند.
مرحله 3: آماده سازی داده ها
اکنون زمان آن فرا رسیده است که اطلاعات را جمع آوری کنید. امکان جمع آوری، آپلود، استخراج یا محاسبه دادهها وجود دارد. دادهها متعاقباً استاندارد، پاکسازی میشوند، از نظر پرت بودن و خطا و منطقی بودن آنها بررسی میشوند. در طول این مرحله از داده کاوی، دادهها ممکن است از نظر اندازه نیز بررسی شوند، زیرا مجموعهای از اطلاعات ممکن است محاسبات و تجزیه و تحلیل غیرضروری را کاهش دهد.
مرحله 4: ساخت مدل
با در دست داشتن مجموعه دادههای منظم، وقت آن رسیده است که اعداد را خرد کنیم. دانشمندان داده از انواع داده کاوی فوق برای جستجوی روابط، روندها، تداعیها یا الگوهای متوالی استفاده میکنند. برای تعیین اینکه چگونه دادههای گذشته ممکن است با نتایج آینده همبستگی داشته باشند، دادهها ممکن است در مدلهای پیش بینی نیز گنجانده شوند.
مرحله 5: ارزیابی نتایج
با ارزیابی نتایج مدل داده، مؤلفه داده محور داده کاوی به پایان میرسد. نتایج حاصل از تجزیه و تحلیل ممکن است تجمیع، تفسیر به تصمیم گیرندگانی ارائه شود که تا این مرحله عمدتاً از این فرآیند حذف شده اند. در این مرحله، سازمانها میتوانند بر اساس یافتهها تصمیم گیری کنند.
مرحله 6: اجرای تغییر و نظارت
فرآیند داده کاوی با اقدامات مدیریتی در پاسخ به یافتههای تجزیه و تحلیل به پایان میرسد. ممکن است شرکت تصمیم بگیرد که اطلاعات به اندازه کافی قوی نبوده یا یافتهها برای تغییر مسیر مرتبط نبوده اند. از طرف دیگر، شرکت ممکن است بر اساس یافتهها به صورت استراتژیک حرکت کند. در هر صورت، مدیریت تأثیرات نهایی کسب و کار را بررسی میکند و با شناسایی مشکلات یا فرصتهای تجاری جدید، حلقههای DM آینده را دوباره ایجاد میکند.
- نکته: مدلهای مختلف فرآیند دادهکاوی مراحل مختلفی خواهند داشت، اگرچه فرآیند کلی معمولاً مشابه است. به عنوان مثال، مدل پایگاههای داده کشف دانش دارای نه مرحله، مدل CRISP-DM دارای شش مرحله و مدل فرآیند SEMMA دارای پنج مرحله است.
تکنیکهای داده کاوی
داده کاوی تا زمانی که از یک یا چند تکنیک زیر استفاده کند بسیار مؤثر است:
1.الگوهای ردیابی
یکی از اساسیترین تکنیکها در داده کاوی، یادگیری تشخیص الگوها در مجموعه دادههای شما است. اینکار معمولاً تشخیص برخی انحرافات در دادههای شما است که در فواصل زمانی منظم اتفاق میافتد، یا یک فرورفتگی و جریان یک متغیر خاص در طول زمان. به عنوان مثال، ممکن است ببینید که فروش شما از یک محصول خاص درست قبل از تعطیلات افزایش یافته است، یا متوجه شوید که هوای گرمتر افراد بیشتری را به وب سایت شما هدایت میکند.
2.طبقه بندی
طبقه بندی یک تکنیک دادهکاوی پیچیدهتری است که شما را مجبور میکند تا ویژگیهای مختلف را با هم در دستههای قابل تشخیص جمعآوری، سپس از آنها برای نتیجهگیری بیشتر استفاده کرده یا عملکردی را انجام دهید. به عنوان مثال، اگر در حال ارزیابی دادههای مربوط به سوابق مالی و سابقه خرید مشتریان فردی هستید، ممکن است بتوانید آنها را به عنوان ریسکهای اعتباری «کم»، «متوسط» یا «بالا» طبقهبندی کنید. سپس میتوانید از این طبقه بندیها برای کسب اطلاعات بیشتر در مورد آن مشتریان استفاده کنید.
3.وابستگی
وابستگی با الگوهای ردیابی مرتبط است، اما بیشتر به متغیرهای مرتبط وابسته است. در این مورد، شما به دنبال رویدادها یا ویژگیهای خاصی خواهید بود که با یک رویداد یا ویژگی دیگر همبستگی زیادی دارند. برای مثال، ممکن است متوجه شوید که وقتی مشتریان شما یک کالای خاص را میخرند، اغلب یک کالای دوم مرتبط را نیز میخرند. این معمولاً همان چیزی است که برای پر کردن بخشهای «مردم نیز خریدند» از فروشگاههای آنلاین استفاده میشود.
4.تشخیص نقاط پرت
در بسیاری از موارد، شناخت الگوی فراگیر نمیتواند درک روشنی از مجموعه دادههای شما بدهد. همچنین باید بتوانید ناهنجاریها یا نقاط پرت را در دادههای خود شناسایی کنید. برای مثال، اگر خریداران شما تقریباً منحصراً مرد هستند، اما در یک هفته عجیب و غریب در ماه جولای، افزایش شدیدی در خریداران زن وجود دارد، میخواهید این سنبله را بررسی کنید و ببینید چه چیزی باعث آن شده است. بنابراین میتوانید آن را تکرار کنید یا مخاطب خود را در این فرآیند بهتر درک کنید.
5.خوشه بندی
خوشهبندی بسیار شبیه به طبقهبندی است، اما شامل گروهبندی تکههایی از دادهها بر اساس شباهتهایشان است. به عنوان مثال، ممکن است بر اساس میزان درآمدی که دارند یا هر چند وقت یکبار تمایل به خرید از فروشگاه شما دارند، جمعیتشناسی متفاوتی از مخاطبان خود را در بستههای مختلف دستهبندی کنید.
6.پیش بینی
پیشبینی یکی از با ارزشترین تکنیکهای داده کاوی است، زیرا از آن برای نمایش انواع دادههایی که در آینده خواهید دید استفاده میشود. در بسیاری از موارد، تنها شناخت و درک روندهای تاریخی برای ترسیم پیش بینی تا حدودی دقیق از آنچه در آینده رخ خواهد داد، کافی است. به عنوان مثال، ممکن است تاریخچه اعتباری مصرف کنندگان و خریدهای گذشته را بررسی کنید تا پیش بینی کنید که آیا آنها در آینده یک ریسک اعتباری خواهند بود یا خیر.
مشاغل مربوط با داده کاوی
کارشناسان علم داده تقریباً در هر بخش شغلی (نه فقط فناوری) مورد نیاز هستند. در واقع، پنج شرکت بزرگ فناوری (گوگل، آمازون، اپل، مایکروسافت و فیس بوک) تنها نیمی از یک درصد کارکنان ایالات متحده را استخدام میکنند. با این حال، برای شکستن این نقشهای پردرآمد و پرتقاضا معمولاً به یک آموزش پیشرفته نیاز است.
متخصصان داده کاوی دارای تحصیلات عالی هستند (88 درصد حداقل دارای مدرک کارشناسی ارشد و 46 درصد دارای مدرک دکترا هستند) و در حالی که استثنائات قابل توجهی وجود دارد، معمولاً برای توسعه عمق دانش لازم برای کسب عنوان متخصص داده کاوی به یک پیشینه آموزشی بسیار قوی نیاز است. در گزارشی از KDnuggets ، که یک سایت پیشرو در زمینه دادههای بزرگ است برخی از مشاغل پیشرو در علم داده آورده شده است که میتوانید با مدرک پیشرفته وارد آن شوید.
1-متخصص داده کاوی (Data Scientist)
الزامات شغلی معمولی: دادهها را برای شرکتها پیدا کنید، تمیز کرده و سازماندهی کنید. متخصصان داده کاوی باید بتوانند مقادیر زیادی از اطلاعات خام و پردازششدۀ پیچیده را تجزیه و تحلیل کنند تا الگوهایی را بیابند که به نفع یک سازمان است و به تصمیمگیری استراتژیک تجاری کمک میکند. در مقایسه با تحلیلگران داده، متخصصان دادهکاوی بسیار فنیتر هستند.
مطالعه بیشتر: نظام مدیریت استراتژیک
2-مهندس یادگیری ماشین (Machine Learning Engineer)
الزامات شغلی معمولی: مهندسان یادگیری ماشین قیفهای داده ایجاد میکنند و راهحلهای نرمافزاری را ارائه میدهند. آنها معمولاً به مهارتهای آماری و برنامهنویسی قوی و همچنین دانش مهندسی نرم افزار نیاز دارند. آنها علاوه بر طراحی و ساخت سیستمهای یادگیری ماشینی، مسئولیت اجرای آزمایشها و تحقیقات برای نظارت بر عملکرد اینگونه سیستمها را نیز بر عهده دارند.
مطالعه بیشتر: یادگیری ماشینی به چه معناست ؟
3- متخصص یادگیری ماشین (Machine Learning Scientist)
الزامات شغلی معمولی: الگوریتمها و روشهای دادهکاوی به روز را که در سیستمهای تطبیقپذیر (شامل تکنیکهای یادگیری تحت نظارت، بدون نظارت و عمیق) به کار میرود را جستجو میکنند. متخصصان یادگیری ماشینی اغلب با عناوینی مانند پژوهشگر یا مهندس پژوهش نیز شناخته میشوند.
4-معمار برنامهها (Applications Architect)
الزامات شغلی معمولی: رفتار برنامههای کاربردی مورد استفاده در یک تجارت و نحوه تعامل آنها با یکدیگر و با کاربران را ردیابی میکنند. معماران برنامهها بر طراحی معماری برنامهها نیز متمرکز هستند، از جمله اجزای ساختمان داده مانند رابط کاربری و زیرساخت.
5- معمار سازمانی (Enterprise Architect)
الزامات شغلی معمولی: یک معمار سازمانی مسئول همسویی استراتژی سازمان با فناوری مورد نیاز برای اجرای اهداف آن است. برای انجام این کار، آنها باید درک کاملی از کسب و کار و نیازهای فناوری آن داشته باشند تا بتوانند معماری سیستم مورد نیاز، برای برآورده کردن این نیازها را طراحی کنند.
مطالعه بیشتر: تدوین برنامه استراتژیک
6- معمار داده (Data Architect)
الزامات شغلی معمولی: اطمینان حاصل میکنند که راهحلهای مبتنی بر داده برای عملکرد و طراحی برنامههای تحلیلی برای پلتفرمهای متعدد ساخته شدهاند. علاوه بر ایجاد سیستمهای پایگاه داده کاوی جدید، معماران داده اغلب راههایی برای بهبود عملکرد سیستمهای موجود پیدا میکنند و همچنین برای دسترسی مدیران و تحلیلگران پایگاه داده تلاش میکنند.
7- معمار زیرساخت (Infrastructure Architect)
الزامات شغلی معمولی: نظارت بر این که همه سیستمهای تجاری به طور بهینه کار میکنند و میتوانند از توسعه فناوریهای جدید و نیازمندیهای سیستم پشتیبانی کنند. عنوان شغلی مشابه آن، معمار زیرساخت ابری است که بر استراتژی محاسبات ابری یک شرکت نظارت دارد.
8- مهندس داده (Data Engineer)
الزامات شغلی معمولی: انجام پردازش دستهای یا پردازش در زمان واقعی بر روی دادههای جمعآوری و ذخیره شده. مهندسان داده کاوی همچنین مسئول ایجاد و نگهداری شاهراههای داده هستند که یک اکوسیستم داده قوی و به هم پیوسته را در یک سازمان ایجاد میکند و اطلاعات را برای متخصصان دادهکاوی قابل دسترس میکند.
9- توسعهدهنده هوش تجاری (Business Intelligence (BI) Developer)
الزامات شغلی معمولی: توسعهدهندگان BI استراتژیهایی را طراحی و توسعه میدهند تا به کاربران تجاری در یافتن سریع اطلاعات مورد نیاز برای اتخاذ تصمیمات تجاری بهتر کمک کنند. آنها که به شدت از دادهها آگاه هستند، از ابزارهای BI استفاده میکنند یا برنامههای کاربردی تحلیلی BI سفارشی را برای تسهیل درک کاربران نهایی از سیستمهای خود توسعه میدهند.
10- آمارگر (Statistician)
الزامات شغلی معمولی: متخصصان آمار، برای جمعآوری، تجزیه و تحلیل و تفسیر دادهها به منظور شناسایی روندها و روابطی که میتوانند برای اطلاعرسانی در تصمیمگیری سازمانی استفاده شوند، کار میکنند. علاوه بر این، مسئولیتهای روزانه آمارگران اغلب شامل فرآیندهای جمعآوری دادههای طراحی، انتقال یافتهها به ذینفعان و مشاوره استراتژی سازمانی است.
11- تحلیلگر داده
الزامات شغلی معمولی: مجموعه دادهها بزرگ را تغییر داده و دستکاری میکنند تا با تحلیل مورد نظر برای شرکتها مطابقت داشته باشد. برای بسیاری از شرکتها، این نقش میتواند شامل ردیابی تجزیه و تحلیل وب و تجزیه و تحلیل تست A/B نیز باشد. تحلیلگران داده کاوی همچنین با تهیه گزارشهایی برای رهبران سازمانی که به طور مؤثر روندها و بینشهای به دست آمده از تجزیه و تحلیل آنها را به هم میرسانند، به فرآیند تصمیمگیری کمک میکنند.
دانشمندان داده، همواره مورد تقاضا هستند
Schedlbauer (دکترا و استاد علوم داده در دانشگاه نورث ایسترن) در مورد آینده داده کاوی میگوید که در حالی که برخی از مشاغل علم داده احتمالاً ظرف 10 سال آینده خودکار خواهند شد، “نیاز واضحی برای متخصصانی وجود دارد که نیازهای تجاری را درک کرده، بتوانند راهحلی مبتنی بر داده ابداع و سپس آن راهحل را اجرا کنند.”
متخصصان علم داده تقریباً در هر زمینهای، از امنیت دولتی گرفته تا برنامههای دوستیابی، مورد نیاز هستند. میلیونها کسب و کار و ادارات دولتی برای موفقیت و ارائه خدمات بهتر به مشتریان خود به دادههای بزرگ متکی هستند. مشاغل علم داده، تقاضای بالایی دارند و این روند به این زودیها کاهش نخواهد یافت.
خدمات دادهکاوی یسنا پارس
ما در دپارتمان مشاوره مدیریت یسنا پارس، بر آنیم تا مشاورههای مدیریتی مورد نیاز شما را با شیوههای متناسب ارائه نماییم تا بتوانید تکنیکهای داده کاوی را به صورت اصولی در سازمانتان اجرا نمایید و در نهایت از مزایای آن بهرهمند شوید.
خدمات مشاوره و اجرایی دادهکاوی در شرکت یسناپارس با دو روش ذیل ارائه میگردد:
مشاوره به صورت منتورینگ (مربیگری)
در این روش ارائه خدمات مشاوره به نحوی است که بتوانید با شناخت کامل و علمی از موضوع و استفاده از دانش و تجربیات و توصیههای تیم مشاور به صورت جلسات حضوری، آنلاین و تلفنی و بهره گیری از مستندات آموزشی مانند کتاب، جزوه، ویدئو و … مراحل و گامهای استقرار نظام مذکور را در سازمانتان اجرا نمایید.
مشاور و مجری (تولید محتوا)
در این روش ارائه خدمات مشاوره با محوریت تولید محتوای بومی و متناسب با نیاز شما توسط تیم مشاوره انجام میشود و پس از آن تیم مشاور با همکاری شما، کلیه اقدامات متناسب با محتوای تولید شده را جهت جاریسازی سیستم تا رسیدن به نتیجه مطلوب برنامهریزی و اجرا مینماید.
تاریخچه و ریشههای داده کاوی
فن آوریهای ذخیره سازی داده، هوش تجاری و تجزیه و تحلیل در اواخر دهه 1980 و اوایل دهه 1990 شروع به ظهور کردند و برای تجزیه و تحلیل حجم زیاد دادههای سازمانی، توانایی افزایش یافتهای را فراهم کردند.این اصطلاح تا سال 1995 مورد استفاده قرار گرفت، زمانی که اولین کنفرانس بین المللی کشف دانش و داده کاوی در مونترال برگزار شد.
این رویداد توسط انجمن پیشرفت هوش مصنوعی یا AARI حمایت میشود. از سال 1999، این کنفرانس که عموماً به عنوان KDD 2021 و غیره شناخته میشود عمدتاً توسط SIGKDD، در زمینه کشف دانش و داده کاوی در انجمن ماشینهای محاسباتی سازماندهی شده است.
یک مجله فنی به نام Data Mining and Knowledge Discovery اولین شماره خود را در سال 1997 منتشر کرد. در ابتدا به صورت فصلی، اکنون هر دو ماه یکبار منتشر میشود و حاوی مقالات بررسی شده در مورد داده کاوی و نظریه ها، تکنیکها و شیوههای کشف دانش است. نشریه دیگر، مجله آمریکایی در سال 2016 راه اندازی شد.
مفاهیم کلیدی داده کاوی
دستیابی به بهترین نتایج از داده کاوی به مجموعهای از ابزارها و تکنیکها نیاز دارد. برخی از افراد احتمالاً قبلاً با آن آشنا هستند، اما برای برخی دیگر ممکن است جدید باشند. در اینجا چند مورد از رایجترین اصطلاحات و مفاهیم در این زمینه آورده شده است.
1- فرآیندهای داده
دسته اول مفاهیم به خود دادهها و نحوه انتقال و مدیریت آنها مربوط میشود.
- پاکسازی و آماده سازی داده ها: دادههای خام از طیف گستردهای از منابع در مجموعهای بزرگی از قالبها و سطوح کیفیت به دست میآیند. قبل از اینکه بتوان آن را به شکل معناداری استفاده کرد، آن داده باید از حالت خام خود به قالبی تبدیل شود که برای تجزیه و تحلیل و پردازش مناسبتر باشد، که شامل فرآیندهایی مانند شناسایی و حذف خطاها، فراخوانی دادههای از دست رفته، و علامت گذاری نقاط پرت میباشد.
- ذخیره سازی داده ها:قبل از اینکه بتوانید از دادهها برای تصمیمگیری استفاده کنید، احتمالاً نیاز دارید که دادهها را از منابع مختلف جمعآوری کنید و آنها را در یک مخزن داده ادغام کنید، مگر اینکه فقط با زیرمجموعهای محدود از دادهها کار کنید. این مخزن به طور کلی به عنوان انبار داده شناخته میشود. ذخیره سازی به عنوان سنگ بنای اکثر پروژههای داده کاوی گسترده عمل میکند.
- تجزیه و تحلیل داده ها:پس از پاکسازی و جمعآوری دادهها، میتوانید آنها را از نظر روندهای گذشته بررسی کنید. این کار میتواند در تصمیمگیری های آینده اعمال شود. برای ارائه هوش تجاری مفید، فرآیند ارزیابی اطلاعات دیجیتال تاریخی به عنوان تجزیه و تحلیل دادهها شناخته میشود.
- تجزیه و تحلیل پیش بینی کننده: در جایی که تجزیه و تحلیل داده برای شناسایی روندها به گذشته نگاه میکند، تجزیه و تحلیل پیش بینی کننده از این دادهها برای پیش بینی نتایج آینده استفاده میکند. تجزیه و تحلیل پیشبینیکننده بر مدلسازی داده، یادگیری ماشین و هوش مصنوعی برای کشف الگوها در دادههای بزرگ متکی است.
برای مطالعه بیشتر: کنترل پروژه چیست و چه تفاوتی با مدیریت پروژه دارد ؟
2- مفاهیم علوم کامپیوتر
در مرحله بعد، شما باید با برخی از اصطلاحات رایج علوم کامپیوتر آشنا شوید که این اصطلاحات نحوه تعامل برنامهها و الگوریتمهای مختلف با دادهها را برای ارائه بینش معنادار توصیف میکنند.
- هوش مصنوعی (AI): با فناوری مدرن، سیستمهای خودکار میتوانند فعالیت های تحلیلی را انجام دهند که قبلاً تنها با استفاده از هوش انسانی امکانپذیر بود. این فعالیتها میتواند شامل مواردی مانند برنامه ریزی، یادگیری، استدلال و حل مسئله باشد. وقتی صحبت از داده کاوی میشود، هوش مصنوعی به استفاده از یک برنامه کامپیوتری برای شناسایی روندهای معنی دار در دادهها اشاره دارد.
- یادگیری ماشینی (ML): اولین کامپیوترها به یک برنامه صریح نیاز داشتند تا آنها را در هر فرآیندی، گام به گام آموزش دهد. اما فرض بر این است که برنامه نویس قبل از هر سناریوی که ممکن است پیش بیاید آگاه است. اخیراً، برنامهنویسان از احتمالات آماری برای نوشتن الگوریتم های یادگیری ماشینی استفاده میکنند که به رایانهها توانایی «یادگیری» و تطبیق بدون برنامهریزی صریح را میدهد.
- پردازش زبان طبیعی (NLP): بسیاری از منابع داده با ارزش، مانند رسانههای اجتماعی، به راحتی به زمینههای ساده تقسیم نمیشوند. پردازش زبان طبیعی یکی از ویژگیهای هوش مصنوعی است که به برنامه رایانه ای توانایی «خواندن» و درک منابع داده های معمولی یا بدون ساختار را میدهد.
- شبکههای عصبی: گاهی اوقات یک الگوریتم یادگیری ماشین به اندازه کافی برای انجام کار به تنهایی قدرتمند نیست. شبکه عصبی مجموعهای از الگوریتمها است که برای حل مسائل پیچیدهتر با هم کار کرده و بیشتر شبیه مغز انسان فکر میکنند. درست مانند یک الگوریتم ساده یادگیری ماشینی، شبکههای عصبی توانایی یادگیری و تطبیق را دارند.
3.تکنیکهای داده کاوی
- تکنیکهای زیادی وجود دارد که توسط فناوری داده کاوی برای درک دادههای کسب و کار شما استفاده میشود. در ادامه چند مورد از رایجترین آنها آورده شده است:
- یادگیری قوانین انجمنی: یادگیری قوانین انجمنی به عنوان تجزیه و تحلیل سبد بازار شناخته میشود، یادگیری قوانین انجمنی به دنبال روابط جالب بین متغیرها در یک مجموعه داده است که ممکن است بلافاصله آشکار نباشد، مانند تعیین اینکه کدام محصولات معمولاً با هم خریداری میشوند. این کار میتواند برای برنامه ریزی بلندمدت فوق العاده ارزشمند باشد.
- طبقه بندی: این تکنیک، موارد موجود در یک مجموعه داده را بر اساس ویژگی های مشترک به دسته ها یا کلاس های هدف مختلف مرتب میکند. این کار به الگوریتم اجازه میدهد تا حتی موارد پیچیده داده را به طور مرتب طبقه بندی کند.
- خوشه بندی: برای کمک به کاربران برای درک گروه بندی یا ساختار طبیعی درون دادهها، میتوانید فرآیند پارتیشن بندی یک مجموعه داده را در مجموعهای از زیر کلاسهای معنادار به نام خوشهها اعمال کنید. این فرآیند به تمام اشیاء موجود در مجموعه داده نگاه میکند و آنها را بر اساس شباهت به یکدیگر، به جای ویژگیهای از پیش تعیین شده، گروه بندی میکند.
- درخت تصمیم: روش دیگر برای دسته بندی دادهها درخت تصمیم است. این روش یک سری سوالات آبشاری میپرسد تا موارد موجود در مجموعه داده را در کلاسهای مربوطه مرتب کند.
- همبستگی: این تکنیک برای پیشبینی طیفی از مقادیر عددی، مانند فروش، قیمت سهام بر اساس یک مجموعه داده خاص استفاده میشود.