2-1- انواع سوالات داده‌کاوی

داده‌کاوی، طیف وسیعی از فعالیت‌ها را پوشش می‌دهد. و به دنبال ارائه جواب به سوالاتی از قبیل سوالات زیر است:

  • چه چیزی در این داده‌ها هست؟
  • چه نوع الگوهایی را می‌توان از هزارتوی داده‌ها تشخیص داد؟
  • چطور می‌توان تمام این داده‌ها را برای منافع آتی، استفاده کرد؟

2-1-1- جمعیت و نمونه[1]

در داده‌کاوی، مجموعه‌داده‌ها می‌توانند کلان[2] باشند- ممکن است میلیون‌ها مورد وجود داشته باشد. با این‌حال، انواع صنایع متفاوت از لحاظ تعداد مواردی که از فرایندهای کسب و کار پدیدار می‌شوند تا حد زیادی با هم فرق می‌کنند. برای مثال، اپلیکیشن‌های وب می‌توانند داده‌ها را از میلیون‌ها کوکی[3] جمع‌آوری کند در حالیکه سایر اپلیکیشن‌ها مانند باشگاه طرفداران[4] یا برنامه‌های مدیریت ارتباط با مشتری[5]، ممکن است موارد محدودتری داشته باشند. قوانین محافظت از داده‌ها و بازار محلی و مشتریان صنعت فرق می‌کنند اما در بسیاری از کشورها، امکان خریداری یا اجاره اطلاعات هم در یک سطح پرجزئیات و هم خلاصه یا در سطح انبوه[6]، وجود دارد.

داده‌کاوی از روش علمی کاوش و کاربرد استفاده می‌کند. ما با حجم انبوهی از داده‌ها روبرو هستیم که در برخی موارد می‌توانیم آن را به عنوان یک جمعیت کل درنظر بگیریم. به عبارت دیگر، ما تمام اطلاعاتی موجود را داریم. در موارد دیگر، مجموعه‌داده ما ممکن است به عنوان یک نمونه بزرگ درنظر گرفته شود. اگر با مقادیر نسبتاً کم داده‌ها (بالغ بر 10هزارمورد) سروکار داشته باشیم، در آنصورت شاید ترجیح دهیم با کل مجموعه‌داده کار کنیم. اگر با مجموعه‌داده‌های بزرگ سروکار داشته باشیم، شاید برای سهولت در کار با داده‌ها، کار با یک زیرمجموعه را انتخاب کنیم. اگر این تجزیه و تحلیل روی یک نمونه اجرا شود، پیامد آن این است که نتایج، نمونه معرف کل جمعیت خواهند بود. به عبارت دیگر، نتایج این تجزیه و تحلیل روی نمونه را می‌توان طوری تعمیم داد که برای کل جمعیت، وارد باشد.

بنابراین این نمونه باید خوب باشد، در اینجا منظورمان از خوب بودن این است که باید نمونه معرف کل و بدون جانبداری (سوگیری)[7] باشد. خود نمونه‌گیری یک موضوع کلی است. با توجه به اینکه ما معمولاً با جمعیت‌های بزرگ سروکار داریم و می‌توانیم از پس نمونه‌های بزرگ بربیاییم، می‌توانیم یک نمونه تصادفی را بگیریم که در آن تمام اعضاء جمعیت، شانس برابری برای انتخاب‌شدن دارند. ما مباحث عملی پیرامون نمونه‌گیری در سایر بخش‌های این کتاب را بررسی خواهیم کرد. همچنین می‌توانیم مجموعه‌داده را به درون نمونه‌های متعدد قسمت‌بندی کنیم طوری که بتوانیم نتایج خود را آزمایش کنیم. اگر یک مجموعه‌داده کوچک داشته باشیم در آنصورت با گرفتن زیرمجموعه‌های تصادفی درون همان نمونه، که به عنوان خودراه‌اندازی[8] به آن اشاره می‌شود، مجدداً نمونه گیری می‌کنیم. سپس باید روش‌های بررسی اینکه آیا نمونه حاصل نمونه معرف هست یا خیر، را درنظر بگیریم.

گاهی اوقات ما تنها بخشی از این جمعیت را برای یک تجزیه و تحلیل خاص در نظر می‌گیریم، برای مثال، شاید تنها به رفتار خرید نزدیک کریسمس یا در ماه‌های تابستان علاقمند باشیم. در این مورد، این زیرمجموعه به عنوان یک چارچوب نمونه‌گیری یاد می‌شود چرا که نمونه‌های بیشتر دقیقاً از این زیرمجموعه انتخاب خواهد شد.

2-1-2 آماده‌سازی داده‌ها[9]

آماده‌سازی داده برای داده‌کاوی یک گام حیاتی است که گاهی اوقات نادیده گرفته می‌شود. ما از سال‌ها قبل می‌دانستیم که «دو به اضافه دو می‌شود چهار». اعداد عینی[10]، ملموس[11]، جامد[12]، رویدادنی[13] و فراتر از بحث و ابزاری دانسته می‌شوند که می‌توانند برای اندازه‌گیری همه‌چیز و هرچیز استفاده شوند. اما اعداد وردش (تنوع یا واریاسیون) ذاتی[14] دارند، برای مثال، دو محصول شاید طی یک روز معین فروخته شده باشند اما ممکن است قیمت فروش آنها متفاوت باشد؛ تفسیر بر اساس ارزش اسمی[15] شاید درست نباشد. برخی از کسب و کارها برای تصمیم‌گیری از داده‌ها استفاده می‌کنند بدون اینکه حتی مطمئن شوند داده‌ها بامعنی هستند و بدون اینکه در ابتدا داده‌ها را به دانش و درنهایت به آگاهی[16] تبدیل کنند. «آگاهی» از داده‌هایی ناشی می‌شود که اعتبار آنها از طریق استفاده از تجربیات گذشته سنجیده شده است و بر اساس ملاحظات زمینه آن، توصیف می‌شود.

2-1-3- روش‌های نظارت‌شده و نظارت‌نشده[17]

داده‌کاوی، فرایندی است که از انواع روش‌های تجزیه و تحلیل داده برای کشف الگوهای نامعلوم، غیرمنتظره، جالب و وارد و روابط میان داده‌ها استفاده می‌کند که ممکن است برای معتبرسازی و پیش‌بینی‌های دقیق استفاده شود. درکل، دو روش تجزیه و تحلیل داده وجود دارد: نظارت‌شده و نظارت نشده

تجزیه و تحلیل داده‌های نظارت‌شده برای برآورد یک وابستگی مجهول بین داده‌های ورودی-خروجی معلوم استفاده می‌شود. متغیرهای ورودی ممکن است شامل کمیت‌هایی از اقلام متفاوت خریداری شده توسط یک مشتری خاص باشند، اطلاعاتی که در خرید اعلام کرده‌اند، موقعیت مکانی و قیمتی که پرداخت کرده‌اند. متغیرهای خروجی ممکن است شامل نشانه‌ای از این باشد که آیا مشتری به یک کمپین فروش (مثل کمپین حراج) واکنش نشان می‌دهد یا خیر. متغیرهای خروجی همچنین در داده‌کاوی به عنوان نشانه‌ها یا اهداف درنظر گرفته می‌شوند. در محیط نظارت‌شده، متغیرهای ورودی نمونه از طریق یک سیستم یادگیری پذیرفته می‌شوند و خروجی متعاقب از این سیستم یادگیری با خروجی از این نمونه مقایسه می‌شود. به عبارت دیگر، ما سعی می‌کنیم پیش‌بینی کنیم که چه کسی به یک کمپین فروش پاسخ خواهد داد. تفاوت میان خروجی سیستم یادگیری و خروجی نمونه را می توان مثلاً از یک سیگنال خطا[1] آموخت. سیگنال‌های خطا برای تنظیم سیستم یادگیری استفاده می‌شوند. این فرایند بارها با داده‌های این نمونه انجام می‌شود و سیستم یادگیری تا زمانی که خروجی به یک حد آستانه خطای کمینه برسد، تنظیم می‌شود. این همان فرایندی است که برای کوک دقیق یک پیانوی به تازگی خریداری شده انجام می‌شود. کوک دقیق باید توسط یک کارشناس یا با استفاده از برخی ابزارآلات الکترونیکی انجام داد. کارشناس، نت‌ها را برای نمونه آموزشی آماده می‌کند و پیانوی تازه خریداری‌شده، سیستم یادگیری است. این کوک کردن زمانی کامل می‌شود که ارتعاش نت‌های کلیدی پیانو با ارتعاش در گوش کارشناس، مطابقت داشته باشد.

تجزیه و تحلیل داده های نظارت‌نشده شامل هیچ کوک دقیقی نیست. الگوریتم‌های داده‌کاوی از میان داده‌ها جستجو می‌کنند تا الگوها را کشف کنند و هیچ متغیر هدف یا نشانه‌ای وجود ندارد. تنها مقادیر ورودی به سیستم یادگیری ارائه می‌شوند بدون اینکه نیاز به اعتبارسنجی در مقابل هر خروجی وجود داشته باشد. هدف از تجزیه و تحلیل داده‌های نظارت‌نشده، کشف ساختارهای «طبیعی» در داده‌های ورودی است. در سیستم‌های بیولوژیک، ادراک، کاری است که از طریق یک تکنیک نظارت‌نشده آموخته می‌شود.

2-1-4- تکنیک‌های کشف دانش[2]

یک تحلیل‌گر بسته به مشخصات مسائل کسب و کار و دسترس‌پذیری داده‌های «تمیز[3]» و مناسب برای تجزیه و تحلیل، باید درباره اینکه از کدام تکنیک‌ کشف دانش برای کسب بهترین خروجی استفاده کند، تصمیم بگیرد. از جمله تکنیک‌های موجود عبارتند از:

  • روش‌های آماری[4]: رگرسیون چندگانه[5]، رگرسیون لجستیک[6]، تجزیه و تحلیل واریانس[7] و مدل‌های لگاریتم خطی[8] و استنباط بیزین[9].
  • درخت‌های تصمیم[10] و قواعد تصمیم‌گیری[11]: الگوریتم‌های دسته بندی و درخت رگرسیون[12] (CART) و الگوریتم‌های هرس[13]
  • تجزیه و تحلیل خوشه‌ای[14]: الگوریتم بخش‌پذیر[15]، الگوریتم‌های توده‌شو[16]، خوشه‌بندی سلسله‌مراتبی[17]، خوشه‌بندی تیغه‌ای[18] و خوشه‌بندی صعود تدریجی[19]
  • قواعد مربوطه[20]: تجزیه و تحلیل سبد بازار[21]، الگوریتم قیاسی[22] و الگوهای زنجیروار (توالی)[23] و تجزیه و تحلیل شبکه اجتماعی[24]
  • شبکه‌های عصبی مصنوعی[25]: پرسپترون‌های چندلایه با یادگیری انتشار به عقب[26]، شبکه‌های شعاعی[27]، نقشه‌های خودسازمان‌دهنده (SOM)[28] و شبکه‌های کوهونن[29]
  • الگوریتم‌های ژنتیک[30]: که به عنوان یک روش‌شناسی برای حل مسائل بهینه‌سازی سخت استفاده می‌شوند
  • سیستم‌های استنباط فازی[31]: براساس نظریه مجموعه‌ها[32] و منطق فازی[33] است
  • روش‌های بصری‌سازی Nبعدی[34]: تکنیک‌های هندسی[35]، مبتنی بر آیکون[36]، پیکسل‌گرا[37] و سلسله‌مراتبی[38]
  • استدلال مبتنی بر مورد (CBR)[39]: براساس مقایسه موارد جدید با موارد ذخیره‌شده، از اندازه‌گیری‌های تشابه استفاده می‌کند و می‌تواند هنگامی که تنها یک چند مورد معدود در اختیار هستند، استفاده شود

این فهرست دقیق و کامل نیست و ترتیب آن نشانه هیچ‌گونه الویت‌بندی در کاربرد این تکنیک‌ها نیست. این کتاب روی روش‌هایی تمرکز خواهد کرد که بطور گسترده که در طیف وسیعی از محصولات نرم‌افزاری داده‌کاوی استفاده و اجرا می‌شوند و روش‌هایی که برای ارائه نتایج خوب به سوالات کسب و کار در یک زمان نسبتاً کوتاه، معروف هستند. ما بیشتر روی نیاز کسب و کار تمرکز خواهیم کرد تا جنبه‌های علمی. کتاب‌شناسی شامل منابع ادبیاتی است که تمام این تکنیک‌ها را پوشش می‌دهد.

2-2- فرایند داده‌کاوی

نیاز برای داده‌کاوی از این ادراک ناشی شد که روش اجرای یک کسب و کار را می‌توان بهبود داد. اولین گام منطقی، درک نیازهای کسب و کار و شناسایی و الویت‌بندی زمینه‌هایی است که نیاز به توجه دارند. اینها معمولاً عبارتند از: افت بسیار شدید مشتری[40]، فروش ناامیدکننده[41]، مناطق جغرافیایی با بازده ضعیف غیرمنتظره یا مشکلات مربوط به کیفیت یا از جهت مثبت، مسائلی مثل اینکه چطور مشتریان بالقوه را به مشتری تبدیل کرد یا زمینه‌های دارای فرصت را توسعه داد. با نگاه به داده‌های مرتبط، می‌توان از عهده بسیاری از این سوالات برآمد.

تمام واکاوش‌های داده‌کاوی باید یک فرایند تعریف شده را دنبال کنند که کیفیت نتایج را تضمین می‌کند. تعاریف متفاوتی برای فرایند داده‌کاوی موجود هستند که در اصل شبیه هستند برای مثال، CRISP-DM و SEMMA.

در کل، فرایند داده‌کاوی در شکل 2-3 نشان داده شده است.

صرفنظر از زمینه کاربرد یا تعریف مسئله عینی، فرایند نظری را می‌توان با مراحل زیر ترسیم کرد:

  1. وظیفه کسب و کار: روشن‌سازی سوال کسب و کار ورای این مسئله
  2. داده: آماده‌سازی و پردازش داده‌های موردنیاز
  3. مدلسازی: تجزیه و تحلیل داده
  4. ارزیابی و اعتبارسنجی در خلال مرحله تجزیه و تحلیل
  5. کاربرد نتایج داده‌کاوی و یادگیری از تجربه

این مراحل، مثالی از یک بهبود کسب و کار یا چرخه ممیزی هستند. اکنون هر مرحله با جزئیات بیشتر بحث خواهد شد.

2-3- وظیفه کسب و کار: روشن‌سازی سوال کسب و کار در ورای مسئله

همانند تمام تلاش‌های علمی، بسیار مهم است که چیزی که سعی داریم انجام دهیم مشخص باشد. در اینجا، تعریف مسئله و مشخص‌سازی هدف اقدام، کاربرد طرح‌ریزی‌شده و دوره زمانی کاربرد را درنظر می‌گیریم. سناریوی داده‌کاوی را درنظر بگیرید که درباره یک پروژه با یک مشتری یا مراجع[1] بحث می‌کند.

یک بخش حیاتی از تعریف مسئله داشتن یک اطلاعات لازم مکتوب یا شفاهی توسط مراجع درباره اقدام بازاریابی طرح‌ریزی‌شده است. این باید شامل موضوعاتی مانند موارد زیر باشد:

  • گروه هدف بابرنامه
  • بودجه یا تولید بابرنامه
  • میزان و نوع ترویج یا ایمیل‌جمعی (تعداد صفحات، با نمایش خوب، کوپن‌ها، تخفیف‌ها و غیره.)
  • صنایع و دپارتمان‌های درگیر
  • کالاهای دخیل در تبلیغات
  • سناریوی ارائه، برای مثال، «گاردن پارتی»
  • تصویر منتقل‌شده، برای مثال قیمت‌گذاری تهاجمی[2]، صلاحیت برند یا نوآوری
  • ساختار قیمت‌گذاری

شاید وضعیت این طور باشد که فعالیت بازاریابی بابرنامه[3]، فعال‌سازی مجدد خریداران دائمی است که در خلال سال گذشته خریدی انجام نداده‌اند. شما باید با دقت تعریف کنید که گروه هدف برنامه‌ریزی‌شده از لحاظ اینکه دائم معنا می‌شود چه کسانی هستند، چه کسی خریدار است، آیا آنهایی که خرید انجام می‌دهند اما کالاها را برمی‌گردانند را نیز لحاظ می‌کنید، درباره افرادی که پرداختی انجام نداده‌اند چه، چه کالاهایی گنجانده شده‌اند، آیا یک سقف مقدار یا قیمت[4] وجود دارد، آیا کانال مورداستفاده مهم است یا موقعیت مکانی خرید و غیره. چگونه خریدارانی را که بطور مداوم 10 سال قبل خرید می‌کردند اما 3 سال پیش خرید را متوقف کرده‌اند و آنهایی که تنها سه بار خرید داشته‌اند و درست اخیراً آن را متوقف کرده‌اند دسته‌بندی می‌کنیم؟ این سوالات برطرف‌نشدنی هستند، اما نیاز به توافق با مراجع (یا موکل) دارد و تعاریف باید ثبت و برای ارجاع بعدی ذخیره شوند. دلیل اصلی این است که این تعریف‌ها بر هدف تأثیر می‌گذارند و احتمالاً مدل را تحت تأثیر قرار می‌دهند.

اطلاعات زیر موردنیاز است:

  • مشخص‌سازی ابتدایی هدف، برای مثال، فعال‌سازی گردش‌کار[5]، غیرفعال‌سازی مشتریان غیرفعال یا فروش جانبی[6]
  • روشن‌سازی کاربردهای احتمالی متفاوت، برای مثال برای تخمین یک گروه هدف بالقوه یا برای یک ایمیل‌جمعی انبوه
  • تعهد به دوره زمانی اقدام و دوره کاربرد
  • ملاحظه هرگونه تأثیرات فصلی که باید موردتوجه باشد
  • ملاحظه هر اقدام مشابه در گذشته

ماهر شدن در استخراج این نوع اطلاعات، اهمیت بسیار بالایی دارد. این برای تمرین در یک وضعیت آزمایشی، ایده‌ی خوبی است تا ببینیم این کار را چگونه می‌توان به بهترین نحو انجام داد.

اشکالات غیرمنتظره معمول زمانی رخ می‌دهند که مراجع تمام جزئیات را به موقع برای بحث اولیه تثبیت نکرده است یا هنگامی که چیزها مابین دریافت اطلاعات و اقدام بدون اطلاع داده‌کاو، تغییر می‌کنند. بعضی اوقات، همکاران بازاریابی ترجیح می‌دهند خیلی وسواسی دیده نشوند چرا که ممکن است احساس کنند این باعث می‌شود انعطاف‌پذیری آنها محدود شود. اما بدون دانستن تمام جزئیات، شانس کمی برای ساخت یک مدل خوب وجود دارد. برای مثال، ممکن است مراجع (یا مشتری) بگوید که این حرکت یک شیوه برندینگ با هدف آوردن مردم به نقاط همیشگی فروش است و به این ترتیب گروه هدف وسیع و کمتر قیمت‌گراست یعنی شامل افرادی است که بطور خاص به قیمت حساس نیستند؛ در آنصورت این کمپین به یکی از قیمت‌گذاری‌های تهاجمی تغییر می‌کند و گروه هدف زیر سطح بهینه[7] است زیرا آنها بطور خاص به قیمت حساس نیستند. پس این اقدام (یا حرکت) عملکرد ضعیفی دارد.

داده‌کاوهای مجرب می‌فهمند که این گام از تعریف مسئله در افزودن ارزش و تعیین اینکه آیا آنها موفق خواهند بود یا خیر، سرنوشت‌ساز است. این کار ممکن است زمان زیادی طول بکشد اما تلاش بسیار ارزشمندی است. یک خرده روانشناسی در اینجا می‌تواند سودمند باشد؛ منابع کالکوت[8] را در قسمت کتاب‌شناسی ببینید که نگاهی میندازد به اینکه چطور تحلیل‌گران داده می‌توانند تعامل خود را با مالکان فرایند بهینه سازند تا مطمئن شوند که در حقیقت همدیگر را درک کرده‌اند.

علاوه بر این، پیش از انجام هر کار داده‌کاوی باید وضعیت خط‌مبنا[9] ارزیابی شود به این ترتیب منافع را می‌توان ارزیابی کرد. برای مثال، مطمئن شوید که شاخص‌های عملکرد کلیدی از قبیل نرخ پاسخ، هزینه ایمیل‌های جمعی و فراوانی خرید، معلوم هستند. اهداف قابل اندازه‌گیری باید تعریف‌شده و با مدیریت به توافق رسیده باشند. با این‌حال، شایان ذکر است که داده‌کاوی داده‌ها اساساً با آزمایش فرضیه فرق می‌کند چرا که این کار بطور ضروری توضیحی است طوری که تعریف اهداف دقیق میسر نیست اما ما می‌توانیم زمینه‌هایی را که در آن انتظار بهبود داریم تعریف کنیم.

2-4- داده‌ها: آماده‌سازی و پردازش داده های موردنیاز

برای ارائه داده‌های موردنیاز برای این تجزیه و تحلیل، باید دوره زمانی تجزیه و تحلیل، واحد مدنظر پایه و روش‌های تخمین، متغیرها و تقسیم‌بندی داده‌ها برای تولید داده‌های یادگیری و آزمایش و برای نمونه‌های تصادفی را درنظر بگیریم.

2-4-1- تثبیت دوره زمانی تجزیه و تحلیل

در استقرار، احتمالاً یک شکاف زمانی بین استفاده از مدلی که داده‌کاو تولید کرده است و اجرای فعالیت وجود دارد. برای مثال، ممکن است ما از مدل داده‌کاوی خودمان برای تعیین یک فهرست ایمیل‌زنی به مشتریانی که بیشترین احتمال خرید را دارند استفاده کنیم اما آن مشتریان این ایمیل جمعی را چند روز (یا حتی چند ساعت یا ماه‌ها) بعد دریافت کنند.

این دوره تجزیه و تحلیل شامل دوره زمانی پایه (برای متغیرهای ورودی) و دوره زمانی هدف یا نشانه (برای متغیرهای هدف یا خروجی) است. دوره پایه همیشه قبل از دوره هدف قرار دارد و منعکس‌کننده شکاف زمانی میان اجرای یک مدل و استفاده از نتایج اجرای مدل است.

ما از فعالیت‌های گذشته تصمیم می‌گیریم که شکاف زمانی استقرار چقدر بزرگ باشد و سپس یک عدم تطابق زمانی را در داده‌های مدل می‌گنجانیم طوری که برای مثال، متغیرهای ورودی مانند سن، مکان، بخش و رفتار خرید از دوره‌ای بیشتر از یک دوره زمانی نیستند، مثلاً بگوییم عدد دوره زمانی 10، و متغیرهای هدف مانند اقدام خرید یا فعالیت‌های کلیدی[10] از یک دوره بعدتر، بگوییم عدد دوره 14 هستند و نه قبل از آن. توجه کنید که این دوره زمانی بسته به نوع کسب و کار فرق می‌کند و می‌تواند به منزله روزها، ماه‌ها، فصل‌ها یا برخی واحدهای زمانی دیگر از چرخه کسب و کار باشند.

این عدم تطابق زمانی متغیرها یک تفاوت عمده با سایر مدلسازی‌های آماری دارد اما نشان‌دهنده چالش‌های بزرگ روش‌شناسی نیست؛ بلکه مسئله ملاحظه دقیق و آماده‌سازی داده‌های درست است.

برای درنظر گرفتن نوسانات فصلی، غالباً دوره‌ای که تقریباً یک‌سال قبل از دوره کاربرد قرار دارد به عنوان دوره هدف انتخاب می‌شود. دوره پایه متناظر، معمولاً یک چند هفته قبل از دوره هدف است و همانطور که در متن پیش رو آمده است بواسطه ملاحظات عملی زمان درنظر گرفته شده برای فعالیت شامل پست کردن و چاپ تعیین می‌شود. برای مثال، در اطلاعات لازم، مراجع می‌گوید که امسال یک ارسال ایمیل برای کریسمس می‌خواهد پس مشتریان لازم است که مطالب چاپی تبلیغاتی را تا انتهای نوامبر دریافت کنند. بخاطر نوسانات فصلی معلوم، ما تصمیم می‌گیریم تا از یک دوره هدف از 1تا 31 دسامبر تا آخر سال استفاده کنیم. با توجه به اینکه معلوم است پردازش و تحویل چهار هفته طول می‌کشد، انتهای دوره پایه، 31 اکتبر سال گذشته است. پس در آماده‌سازی این مدل، از متغیرهای ورودی تا 31 اکتبر و متغیرهای هدف برای 1 تا 31 دسامبر استفاده می‌کنیم. در این دوره کاربرد برای تعیین کسانی که قرار است مطالب تبلیغاتی امسال به آنها ارسال شود، مدل با متغیرهای ورودی از سال جاری تا 31 اکتبر استفاده می‌شود. ما در حال پیش‌بینی رفتار خرید مشتریان در 1 تا 31 دسامبر سال جاری هستیم. توجه کنید که ما کل ماه نوامبر را برای پردازش و تحویل ایمیل‌جمعی کنار گذاشته‌ایم.

در کنار جابجایی زمانی در داده‌ها، دسترس‌پذیری داده‌ها نیز باید مدنظر قرار گیرد. ترفندهای معمولی عبارتند از:

روال: تحدید حدود زمانی

تعیین دوره تجزیه و تحلیل شامل دوره پایه و دوره هدف

  • در عمل هنوز یکی از مجموعه‌داده‌های ضروری در دسترس نیست.
  • دپارتمان‌ها یا صنایع بین دوره تجزیه و تحلیل (شامل هدف و پایه) و دوره کاربرد تغییر کرده‌اند.

بازهم اشاره می‌کنیم که متغیرهای هدف معمولاً به یک زمان متفوت از متغیرهای توضیحی (ورودی) اشاره دارند. مسئله مقیاس زمانی در شکل 2-4 خلاصه شده است.

2-4-2 واحد موردعلاقه پایه[1]

باید راجع به اینکه چه چیزی یک مورد را می‌سازد یا واحد علاقه پایه چیست تصمیم گرفته شود، خواه یک شخص، یک شرکت یا یک مکان یا یک صورت‌حساب موجود باشد و یا غیره. برای بازاریابی، این واحد معمولاً یک شخص است زیرا شخص، کسی است که تصمیم به خرید می‌گیرد. اما در سایر صنایع، این مورد می‌تواند یک روز (یعنی یک مورد شامل ارزش داده‌ای یک روز) باشد، و دوره‌های پایه و هدف احتمالاً همزمان باشد. در یک فرایند تولید، یک واحد می‌تواند تمام موادی باشد که یک محصول ساخته شده را می‌سازند و هدف، کیفیت محصول است. تفسیر عدم‌تطابق زمانی[2] یعنی اینکه معمولاً باید قبل از اینکه تغییرات در ورودی مواد بر خروجی اثر بگذارند یک دوره اجرا وجود داشته باشد و این باید در مدلسازی لحاظ شود.

2-4-3 متغیرهای هدف[3]

متغیر هدف بنابر اطلاعات لازم، ثابت است. بعضی اوقات یک متغیر هدف محسوس را نمی‌توان بطور مستقیم از داده‌های موجود بدست آورد و با برخی روشهای دیگر بهتر استخراج می‌شوند. ممکن است ما از مقدار خرید یا میزان فروش[4] براساس یک سطح متفاوت استفاده کنیم، نه براساس اینکه چه تعداد اقلام ویژه فروخته شدند، بلکه درباره اینکه چه تعداد اقلام کلی فروخته شدند، برای مثال، نه اینکه چه میزان فنجان صورتی، بلکه چه تعداد فنجان، یا حتی صرفاً چه میزان تکه از ظروف سفالی فروخته شده است. این تصمیم بطور کلی براساس اطلاعات لازم گرفته می‌شود و هدف از اقدام اما همچنین روی داده‌های موجود و مقدار داده‌های موجود که با مدل برنامه ریزی شده تناسب دارد، برای مثال اگر یک تعداد بسیار کم از فنجان‌های صورتی فروخته شده باشد، این مدل خیلی قابل اعتماد نیست.

بطور مشابه، خلاصه‌سازی باید روی دپارتمان، صنعت یا زمینه مصرف برای استعلام متغیر هدف باشد. توجه کنید که متغیر هدف باید قابل اندازه‌گیری، دقیق، استوار و نیز مربوط باشد.

در مدل‌سازی پیشگویانه، واریاسیون کمتر در متغیر هدف ارجح است. این با مدل‌سازی آماری معمول که در آنجا واریاسیون بیشتر ارجح است فرق دارد. دلیل آن این است که عوامل تأثیرگذار بسیاری هستند که نمی‌توان آنها را کنترل کرد؛ حتی اگر سعی کنید به بهترین نحو داده‌ها را تطبیق دهید، همیشه تأثیرات زمانی وجود دارند و هیچ داده‌ی کنترل‌کننده‌ای وجود ندارد؛ رقبا و محیط کسب و کار همگی بر نتیجه اثر می‌گذارند. بنابراین، داشتن دقت بسیار زیاد بی‌ربط و گمراه‌کننده است. در مدل‌سازی پیشگویانه، هدف‌های صفر و یکی و مربوط به رده‌بندی‌[5] می‌توانند کاملاً قابل قبول باشند در حالیکه در سایر مدل‌سازی‌های آماری، یک متغیر پیوسته معمولاً ارجحیت دارد. دلیل آماری برای اجتناب از اهداف صفر و یکی و رده‌بندی این است که آنها به داده‌های بیشتری نیاز دارند؛ با این‌حال، از طریق داده‌کاوی، معمولاً داده‌های زیادی فراهم می‌شود پس این مسئله نگران‌کننده‌ای نیست.

2-4-4 متغیرهای ورودی و متغیرهای توصیفی (توضیحی)[6]

تمام متغیرهای ورودی تنها برای دوره پایه تولید می‌شوند. یک نکته ظریف ولی مهم این است که آنها باید در فرایند داده‌کاوی استفاده شوند چرا که آنها در انتهای دوره پایه بودند. این می‌تواند در خصوص متغیرهایی که ایستا نیستند اما در معرض تغییرند مشکلاتی را بوجود آورد، مانند وضعیت تأهل یا نشانی. مگر اینکه بتوان تعیین کرد که آیا تغییر کرده‌اند یا نه، از این متغیرها باید با احتیاط استفاده کرد حتی اگر معمولاً به عنوان ایستا یا کندتغییر[7] درنظر گرفته می‌شوند.

مدل‌های بهبودیافته پایدارتر با دسته‌بندی متغیرهای پیوسته بدست می‌آیند. زمانی که متغیرهایی مانند مقدار فروش یا خرید دسته بندی می‌شوند، تأکید بیشتری بر تفاوت‌ها در فرایند کسب و کار دارند. برای مثال، اگر کسی 0 یورو خرج کند در مقایسه با کسی که 1 یورو خرج کرده، پیامدهای کاملاً متفاوتی دارد. از لحاظ ریاضی این کمیت‌ها بسیار شبیه هم هستند اما در کاربرد کسب و کار ما، هر خرید، حتی 1 یورو، نشان‌دهنده نوعی علاقه به کسب و کار ماست، درحالیکه صفر به درستی می‌تواند نشان‌دهنده عدم علاقه باشد. بدون دسته‌بندی، تفاوت بین عدم خرید و یک خرید کوچک ممکن است کم ارزش به نظر برسد. در انتهای دیگر این مقیاس، اهمیت اینکه بدانید یک خریدار متعلق به 10 درصد از جمعیتی است که بیشتر از 2516 یورو خرج می‌کنند به جای 5035 یورو، خیلی بیشتر است. به یک مفهوم، اهمیت خریداری که 5035 یورو صرف می‌کند عمدتاً این است که آنها در رده‌بندی زیاد خرج‌کننده‌ها هستند.

این دسته‌بندی را می‌توان به انواع روشهایی که بعداً توصیف می‌شود اجرا کرد.

2-5- مدل‌سازی: تجزیه و تحلیل داده‌ها

بوضوح روش‌های داده‌کاوی بسیار متعددی دردسترس هستند و در این اثنا روشهای بیشتری نیز در حال توسعه هستند. هسته‌ی فرایند داده‌کاوی، ایجاد یک مدل خوب است. خوب یعنی اینکه خوب پیش‌بینی می‌کند. با این‌حال، به دلیل اینکه داده‌کاوی معمولاً در یک محیط پویا و متغیر مستقر می‌شود، یک مدل سریع برای یک مسئله کسب و کار مناسب که به سرعت تولید شده و به دقت و بطور حساس مستقر شده است می‌تواند ارزش کسب و کاری بالاتری داشته باشد حتی اگر نسبت به مدلی که زمان بیشتری برای رسیدن به جواب طول می‌کشد، اندکی کمتر خوب پیش‌بینی کند. این روشهای تجزیه و تحلیل بطور مفصل در فصل 6 توصیف می‌شوند.

استفاده از ابزارهای داده‌کاوی به نسبت آسان است. توجه کردن به کل فرایند داده‌کاوی مهم است. این توجه شامل مراحل قبلاً مشخص‌شده می‌شود: تعریف مسئله، انتخاب دقیق داده‌ها، گزینش متغیرها و نیز بررسی‌های ارتباط و دقت مدل‌ها.

انواع و اقسام نرم‌افزارهای داده‌کاوی در دسترس هستند که روشهای مشترکی (بیشتر همه‌کاره) را ارائه می‌دهند. بسته به خط‌مشی شرکت، الگوریتم‌ها را نیز می‌توان به صورت نرم‌افزار رایگان بدست آورد. شاید رویکرد فرایندگرای بصری‌تری که نیاز به مهارت‌های برنامه‌نویسی بسیار کمی دارد، ترجیح بیشتری داشته باشد.

نرم‌افزار داده‌کاوی خوب باید شامل برخی ابزارهای قوی برای آماده‌سازی و تبدیل داده‌ها باشد. بدست آوردن مدل‌های استقرار یا اسکریپت‌هایی که به راحتی در یک محیط متفاوت استفاده می‌شوند باید سرراست باشد.

2-6- ارزیابی و اعتبارسنجی در خلال مرحله تجزیه و تحلیل

ارزیابی کیفیت مدل محاسبه‌شده را می‌توان به سه روش انجام داد: استفاده از یک نمونه آزمایشی که همان انشعاب[8] (بین هدف=0 و هدف=1) نمونه آموزشی را دارد، استفاده از یک نمونه‌ی آزمون که یک لایه‌بندی متفاوت دارد و استفاده از یک نمونه آزمون که همان انشعاب مجموعه‌داده‌ی کل را دارد. ما می‌توانیم تعدادی از مدل‌های نامزد را با استفاده از رگرسیون‌ها، درخت‌های تصمیم و غیره تولید کنیم. این مدلها ممکن است برحسب متغیرهایی که در این مدل دارند، با هم فرق کنند. در آنصورت مجبوریم این مدلها را مقایسه کنیم و این کار با اعمال هر مدل به نمونه های آزمون و مقایسه نتایج انجام می‌شود. برخی از نرم‌افزارهای داده‌کاوی، بطور خودکار مقایسه‌هایی را بین مدل‌ها انجام می‌دهند یا ابزاری را ارائه می‌دهند که به مقایسه مدلها در هنگام اجرا روی همان نمونه‌ها کمک می‌کند.

روشهای مقایسه شامل ساخت نمودارهای ارتقاء و بهبود[1] و آماده‌سازی معیارهای درهم‌ریختگی[2] است.

بعضی اوقات، توانایی مدل برای رتبه‌بندی مشتریان به روشی مناسب، مهم‌تر از کیفیت آماری مدلهاست. یک مدل سودمند مدلی است که یک ترتیب رتبه‌بندی معتبر از مشتریان برحسب متغیرهای مربوطه است.

روش دیگر برای تأیید اعتبار مدلهای عرضه شده توسط بیشتر نرم‌افزارهای داده‌کاوی، اعتبارسنجی متقابل است. این یک روش ارزیابی این است که چقدر نتایج تجزیه و تحلیل به یک مجموعه‌داده مستقل تعمیم داده خواهد شد و شامل تعداد روشهای متفاوت است. ما توصیه می‌کنیم که اعتبارسنجی متقابل زمانی استفاده شود که مجموعه‌داده مشابه یا شامل داده‌های بشدت قابل اعتماد و با کیفیت بالاست.

مهم‌ترین جنبه اعتبارسنجی، بررسی این است که این مدل یا هر راهکار داده‌کاوی دیگر، تا زمانی که به کسب و کار مربوط می‌شود، معنی می دهد و اینکه نتایج برای نفع کسب و کار معتبر و قابل استفاده هستند یا خیر.

[1] Lift and gain charts

[2] confusion matrices

[1] Basic Unit of Interest

[2] temporal mismatch

[3] Target Variables

[4] turnover

[5] categorical

[6] Explanatory Variables

[7] slow changing

[8] split

[1] Client: کارخواه

[2] aggressive pricing

[3] planned marketing activity

[4] price/value cut-off

[5] Turnover activation

[6] cross-selling

[7] Sub-optimal

[8] Caulcutt

[9] baseline situation

[10] churn activities

[1] error signal

[2] Knowledge-Discovery

[3] clean

[4] Statistical methods

[5] multiple regression

[6] logistic regression

[7] analysis of variance

[8] log-linear models

[9] Bayesian inference

[10] Decision trees

[11] decision rules

[12] Classification And Regression Tree algorithms

[13] pruning algorithms

[14] Cluster analysis

[15] divisible algorithm

[16] agglomerative algorithms

[17] Hierarchical clustering

[18] partitional clustering

[19] incremental clustering

[20] Association rule

[21] market basket analysis

[22] a priori algorithm

[23] Sequence patterns

[24] social network analysis

[25] Artificial neural networks

[26] multilayer perceptrons with back-propagation learning

[27] radial networks

[28] Self-Organising Maps (SOM)

[29] Kohonen

[30] Genetic algorithms

[31] Fuzzy inference systems

[32] fuzzy sets

[33] fuzzy logics

[34] N-dimensional visualisation methods

[35] geometric

[36] icon-based

[37] pixel-oriented

[38] hierarchical

[39] Case-Based Reasoning (CBR)

[40]  too many dropout customers

[41] disappointing sales

[1] Population and Sample

[2] enormous

[3] Cookies: کوکی یک فایل است که توسط یک وب سایت برای حفظ اطلاعات بر روی رایانه شما قرار می‌گیرد. یک کوکی می‌تواند شامل اطلاعاتی باشد که شما در آن لیست وارد کرده اید مانند ایمیل، نشانی، شماره تلفن و سایر اطلاعات شخصی.

[4] Loyalty clubs

[5] Customer Relationship Management

[6] summary or aggregate level

[7] unbiased

[8] bootstrapping

[9] Data Preparation

[10] concrete

[11] tangible

[12] solid

[13] inevitable

[14] inherent variation

[15] Face value

[16] intelligence

[17] Supervised and Unsupervised Methods

امور ثبت و صدور گواهینامه BRS

تهران سعادت آباد خیابان سپیدار پلاک ۱۰

تلفن : ۰۲۱۲۶۷۶۱۲۸۱

www.BRSMENA.com

www.BRS.ir

#ایزو #استاندارد #مدیریت #ممیزی #مشاوره #سیستم_کیفیت #ایزو۹۰۰۱ #ایزو۲۲۰۰۰ #ایزو۴۵۰۰۱ #ایزو۱۴۰۰۱#استاندارد #SHS #کرونا #کووید19

منبع : https://brs.ir/node/68