تعریف دادهکاوی (اقتباسی از کتاب یک راهنمای عملی در دادهکاوی )
2-1- انواع سوالات دادهکاوی
دادهکاوی، طیف وسیعی از فعالیتها را پوشش میدهد. و به دنبال ارائه جواب به سوالاتی از قبیل سوالات زیر است:
- چه چیزی در این دادهها هست؟
- چه نوع الگوهایی را میتوان از هزارتوی دادهها تشخیص داد؟
- چطور میتوان تمام این دادهها را برای منافع آتی، استفاده کرد؟
2-1-1- جمعیت و نمونه[1]
در دادهکاوی، مجموعهدادهها میتوانند کلان[2] باشند- ممکن است میلیونها مورد وجود داشته باشد. با اینحال، انواع صنایع متفاوت از لحاظ تعداد مواردی که از فرایندهای کسب و کار پدیدار میشوند تا حد زیادی با هم فرق میکنند. برای مثال، اپلیکیشنهای وب میتوانند دادهها را از میلیونها کوکی[3] جمعآوری کند در حالیکه سایر اپلیکیشنها مانند باشگاه طرفداران[4] یا برنامههای مدیریت ارتباط با مشتری[5]، ممکن است موارد محدودتری داشته باشند. قوانین محافظت از دادهها و بازار محلی و مشتریان صنعت فرق میکنند اما در بسیاری از کشورها، امکان خریداری یا اجاره اطلاعات هم در یک سطح پرجزئیات و هم خلاصه یا در سطح انبوه[6]، وجود دارد.
دادهکاوی از روش علمی کاوش و کاربرد استفاده میکند. ما با حجم انبوهی از دادهها روبرو هستیم که در برخی موارد میتوانیم آن را به عنوان یک جمعیت کل درنظر بگیریم. به عبارت دیگر، ما تمام اطلاعاتی موجود را داریم. در موارد دیگر، مجموعهداده ما ممکن است به عنوان یک نمونه بزرگ درنظر گرفته شود. اگر با مقادیر نسبتاً کم دادهها (بالغ بر 10هزارمورد) سروکار داشته باشیم، در آنصورت شاید ترجیح دهیم با کل مجموعهداده کار کنیم. اگر با مجموعهدادههای بزرگ سروکار داشته باشیم، شاید برای سهولت در کار با دادهها، کار با یک زیرمجموعه را انتخاب کنیم. اگر این تجزیه و تحلیل روی یک نمونه اجرا شود، پیامد آن این است که نتایج، نمونه معرف کل جمعیت خواهند بود. به عبارت دیگر، نتایج این تجزیه و تحلیل روی نمونه را میتوان طوری تعمیم داد که برای کل جمعیت، وارد باشد.
بنابراین این نمونه باید خوب باشد، در اینجا منظورمان از خوب بودن این است که باید نمونه معرف کل و بدون جانبداری (سوگیری)[7] باشد. خود نمونهگیری یک موضوع کلی است. با توجه به اینکه ما معمولاً با جمعیتهای بزرگ سروکار داریم و میتوانیم از پس نمونههای بزرگ بربیاییم، میتوانیم یک نمونه تصادفی را بگیریم که در آن تمام اعضاء جمعیت، شانس برابری برای انتخابشدن دارند. ما مباحث عملی پیرامون نمونهگیری در سایر بخشهای این کتاب را بررسی خواهیم کرد. همچنین میتوانیم مجموعهداده را به درون نمونههای متعدد قسمتبندی کنیم طوری که بتوانیم نتایج خود را آزمایش کنیم. اگر یک مجموعهداده کوچک داشته باشیم در آنصورت با گرفتن زیرمجموعههای تصادفی درون همان نمونه، که به عنوان خودراهاندازی[8] به آن اشاره میشود، مجدداً نمونه گیری میکنیم. سپس باید روشهای بررسی اینکه آیا نمونه حاصل نمونه معرف هست یا خیر، را درنظر بگیریم.
گاهی اوقات ما تنها بخشی از این جمعیت را برای یک تجزیه و تحلیل خاص در نظر میگیریم، برای مثال، شاید تنها به رفتار خرید نزدیک کریسمس یا در ماههای تابستان علاقمند باشیم. در این مورد، این زیرمجموعه به عنوان یک چارچوب نمونهگیری یاد میشود چرا که نمونههای بیشتر دقیقاً از این زیرمجموعه انتخاب خواهد شد.
2-1-2 آمادهسازی دادهها[9]
آمادهسازی داده برای دادهکاوی یک گام حیاتی است که گاهی اوقات نادیده گرفته میشود. ما از سالها قبل میدانستیم که «دو به اضافه دو میشود چهار». اعداد عینی[10]، ملموس[11]، جامد[12]، رویدادنی[13] و فراتر از بحث و ابزاری دانسته میشوند که میتوانند برای اندازهگیری همهچیز و هرچیز استفاده شوند. اما اعداد وردش (تنوع یا واریاسیون) ذاتی[14] دارند، برای مثال، دو محصول شاید طی یک روز معین فروخته شده باشند اما ممکن است قیمت فروش آنها متفاوت باشد؛ تفسیر بر اساس ارزش اسمی[15] شاید درست نباشد. برخی از کسب و کارها برای تصمیمگیری از دادهها استفاده میکنند بدون اینکه حتی مطمئن شوند دادهها بامعنی هستند و بدون اینکه در ابتدا دادهها را به دانش و درنهایت به آگاهی[16] تبدیل کنند. «آگاهی» از دادههایی ناشی میشود که اعتبار آنها از طریق استفاده از تجربیات گذشته سنجیده شده است و بر اساس ملاحظات زمینه آن، توصیف میشود.
2-1-3- روشهای نظارتشده و نظارتنشده[17]
دادهکاوی، فرایندی است که از انواع روشهای تجزیه و تحلیل داده برای کشف الگوهای نامعلوم، غیرمنتظره، جالب و وارد و روابط میان دادهها استفاده میکند که ممکن است برای معتبرسازی و پیشبینیهای دقیق استفاده شود. درکل، دو روش تجزیه و تحلیل داده وجود دارد: نظارتشده و نظارت نشده
تجزیه و تحلیل دادههای نظارتشده برای برآورد یک وابستگی مجهول بین دادههای ورودی-خروجی معلوم استفاده میشود. متغیرهای ورودی ممکن است شامل کمیتهایی از اقلام متفاوت خریداری شده توسط یک مشتری خاص باشند، اطلاعاتی که در خرید اعلام کردهاند، موقعیت مکانی و قیمتی که پرداخت کردهاند. متغیرهای خروجی ممکن است شامل نشانهای از این باشد که آیا مشتری به یک کمپین فروش (مثل کمپین حراج) واکنش نشان میدهد یا خیر. متغیرهای خروجی همچنین در دادهکاوی به عنوان نشانهها یا اهداف درنظر گرفته میشوند. در محیط نظارتشده، متغیرهای ورودی نمونه از طریق یک سیستم یادگیری پذیرفته میشوند و خروجی متعاقب از این سیستم یادگیری با خروجی از این نمونه مقایسه میشود. به عبارت دیگر، ما سعی میکنیم پیشبینی کنیم که چه کسی به یک کمپین فروش پاسخ خواهد داد. تفاوت میان خروجی سیستم یادگیری و خروجی نمونه را می توان مثلاً از یک سیگنال خطا[1] آموخت. سیگنالهای خطا برای تنظیم سیستم یادگیری استفاده میشوند. این فرایند بارها با دادههای این نمونه انجام میشود و سیستم یادگیری تا زمانی که خروجی به یک حد آستانه خطای کمینه برسد، تنظیم میشود. این همان فرایندی است که برای کوک دقیق یک پیانوی به تازگی خریداری شده انجام میشود. کوک دقیق باید توسط یک کارشناس یا با استفاده از برخی ابزارآلات الکترونیکی انجام داد. کارشناس، نتها را برای نمونه آموزشی آماده میکند و پیانوی تازه خریداریشده، سیستم یادگیری است. این کوک کردن زمانی کامل میشود که ارتعاش نتهای کلیدی پیانو با ارتعاش در گوش کارشناس، مطابقت داشته باشد.
تجزیه و تحلیل داده های نظارتنشده شامل هیچ کوک دقیقی نیست. الگوریتمهای دادهکاوی از میان دادهها جستجو میکنند تا الگوها را کشف کنند و هیچ متغیر هدف یا نشانهای وجود ندارد. تنها مقادیر ورودی به سیستم یادگیری ارائه میشوند بدون اینکه نیاز به اعتبارسنجی در مقابل هر خروجی وجود داشته باشد. هدف از تجزیه و تحلیل دادههای نظارتنشده، کشف ساختارهای «طبیعی» در دادههای ورودی است. در سیستمهای بیولوژیک، ادراک، کاری است که از طریق یک تکنیک نظارتنشده آموخته میشود.
2-1-4- تکنیکهای کشف دانش[2]
یک تحلیلگر بسته به مشخصات مسائل کسب و کار و دسترسپذیری دادههای «تمیز[3]» و مناسب برای تجزیه و تحلیل، باید درباره اینکه از کدام تکنیک کشف دانش برای کسب بهترین خروجی استفاده کند، تصمیم بگیرد. از جمله تکنیکهای موجود عبارتند از:
- روشهای آماری[4]: رگرسیون چندگانه[5]، رگرسیون لجستیک[6]، تجزیه و تحلیل واریانس[7] و مدلهای لگاریتم خطی[8] و استنباط بیزین[9].
- درختهای تصمیم[10] و قواعد تصمیمگیری[11]: الگوریتمهای دسته بندی و درخت رگرسیون[12] (CART) و الگوریتمهای هرس[13]
- تجزیه و تحلیل خوشهای[14]: الگوریتم بخشپذیر[15]، الگوریتمهای تودهشو[16]، خوشهبندی سلسلهمراتبی[17]، خوشهبندی تیغهای[18] و خوشهبندی صعود تدریجی[19]
- قواعد مربوطه[20]: تجزیه و تحلیل سبد بازار[21]، الگوریتم قیاسی[22] و الگوهای زنجیروار (توالی)[23] و تجزیه و تحلیل شبکه اجتماعی[24]
- شبکههای عصبی مصنوعی[25]: پرسپترونهای چندلایه با یادگیری انتشار به عقب[26]، شبکههای شعاعی[27]، نقشههای خودسازماندهنده (SOM)[28] و شبکههای کوهونن[29]
- الگوریتمهای ژنتیک[30]: که به عنوان یک روششناسی برای حل مسائل بهینهسازی سخت استفاده میشوند
- سیستمهای استنباط فازی[31]: براساس نظریه مجموعهها[32] و منطق فازی[33] است
- روشهای بصریسازی Nبعدی[34]: تکنیکهای هندسی[35]، مبتنی بر آیکون[36]، پیکسلگرا[37] و سلسلهمراتبی[38]
- استدلال مبتنی بر مورد (CBR)[39]: براساس مقایسه موارد جدید با موارد ذخیرهشده، از اندازهگیریهای تشابه استفاده میکند و میتواند هنگامی که تنها یک چند مورد معدود در اختیار هستند، استفاده شود
این فهرست دقیق و کامل نیست و ترتیب آن نشانه هیچگونه الویتبندی در کاربرد این تکنیکها نیست. این کتاب روی روشهایی تمرکز خواهد کرد که بطور گسترده که در طیف وسیعی از محصولات نرمافزاری دادهکاوی استفاده و اجرا میشوند و روشهایی که برای ارائه نتایج خوب به سوالات کسب و کار در یک زمان نسبتاً کوتاه، معروف هستند. ما بیشتر روی نیاز کسب و کار تمرکز خواهیم کرد تا جنبههای علمی. کتابشناسی شامل منابع ادبیاتی است که تمام این تکنیکها را پوشش میدهد.
2-2- فرایند دادهکاوی
نیاز برای دادهکاوی از این ادراک ناشی شد که روش اجرای یک کسب و کار را میتوان بهبود داد. اولین گام منطقی، درک نیازهای کسب و کار و شناسایی و الویتبندی زمینههایی است که نیاز به توجه دارند. اینها معمولاً عبارتند از: افت بسیار شدید مشتری[40]، فروش ناامیدکننده[41]، مناطق جغرافیایی با بازده ضعیف غیرمنتظره یا مشکلات مربوط به کیفیت یا از جهت مثبت، مسائلی مثل اینکه چطور مشتریان بالقوه را به مشتری تبدیل کرد یا زمینههای دارای فرصت را توسعه داد. با نگاه به دادههای مرتبط، میتوان از عهده بسیاری از این سوالات برآمد.
تمام واکاوشهای دادهکاوی باید یک فرایند تعریف شده را دنبال کنند که کیفیت نتایج را تضمین میکند. تعاریف متفاوتی برای فرایند دادهکاوی موجود هستند که در اصل شبیه هستند برای مثال، CRISP-DM و SEMMA.
در کل، فرایند دادهکاوی در شکل 2-3 نشان داده شده است.
صرفنظر از زمینه کاربرد یا تعریف مسئله عینی، فرایند نظری را میتوان با مراحل زیر ترسیم کرد:
- وظیفه کسب و کار: روشنسازی سوال کسب و کار ورای این مسئله
- داده: آمادهسازی و پردازش دادههای موردنیاز
- مدلسازی: تجزیه و تحلیل داده
- ارزیابی و اعتبارسنجی در خلال مرحله تجزیه و تحلیل
- کاربرد نتایج دادهکاوی و یادگیری از تجربه
این مراحل، مثالی از یک بهبود کسب و کار یا چرخه ممیزی هستند. اکنون هر مرحله با جزئیات بیشتر بحث خواهد شد.
2-3- وظیفه کسب و کار: روشنسازی سوال کسب و کار در ورای مسئله
همانند تمام تلاشهای علمی، بسیار مهم است که چیزی که سعی داریم انجام دهیم مشخص باشد. در اینجا، تعریف مسئله و مشخصسازی هدف اقدام، کاربرد طرحریزیشده و دوره زمانی کاربرد را درنظر میگیریم. سناریوی دادهکاوی را درنظر بگیرید که درباره یک پروژه با یک مشتری یا مراجع[1] بحث میکند.
یک بخش حیاتی از تعریف مسئله داشتن یک اطلاعات لازم مکتوب یا شفاهی توسط مراجع درباره اقدام بازاریابی طرحریزیشده است. این باید شامل موضوعاتی مانند موارد زیر باشد:
- گروه هدف بابرنامه
- بودجه یا تولید بابرنامه
- میزان و نوع ترویج یا ایمیلجمعی (تعداد صفحات، با نمایش خوب، کوپنها، تخفیفها و غیره.)
- صنایع و دپارتمانهای درگیر
- کالاهای دخیل در تبلیغات
- سناریوی ارائه، برای مثال، «گاردن پارتی»
- تصویر منتقلشده، برای مثال قیمتگذاری تهاجمی[2]، صلاحیت برند یا نوآوری
- ساختار قیمتگذاری
شاید وضعیت این طور باشد که فعالیت بازاریابی بابرنامه[3]، فعالسازی مجدد خریداران دائمی است که در خلال سال گذشته خریدی انجام ندادهاند. شما باید با دقت تعریف کنید که گروه هدف برنامهریزیشده از لحاظ اینکه دائم معنا میشود چه کسانی هستند، چه کسی خریدار است، آیا آنهایی که خرید انجام میدهند اما کالاها را برمیگردانند را نیز لحاظ میکنید، درباره افرادی که پرداختی انجام ندادهاند چه، چه کالاهایی گنجانده شدهاند، آیا یک سقف مقدار یا قیمت[4] وجود دارد، آیا کانال مورداستفاده مهم است یا موقعیت مکانی خرید و غیره. چگونه خریدارانی را که بطور مداوم 10 سال قبل خرید میکردند اما 3 سال پیش خرید را متوقف کردهاند و آنهایی که تنها سه بار خرید داشتهاند و درست اخیراً آن را متوقف کردهاند دستهبندی میکنیم؟ این سوالات برطرفنشدنی هستند، اما نیاز به توافق با مراجع (یا موکل) دارد و تعاریف باید ثبت و برای ارجاع بعدی ذخیره شوند. دلیل اصلی این است که این تعریفها بر هدف تأثیر میگذارند و احتمالاً مدل را تحت تأثیر قرار میدهند.
اطلاعات زیر موردنیاز است:
- مشخصسازی ابتدایی هدف، برای مثال، فعالسازی گردشکار[5]، غیرفعالسازی مشتریان غیرفعال یا فروش جانبی[6]
- روشنسازی کاربردهای احتمالی متفاوت، برای مثال برای تخمین یک گروه هدف بالقوه یا برای یک ایمیلجمعی انبوه
- تعهد به دوره زمانی اقدام و دوره کاربرد
- ملاحظه هرگونه تأثیرات فصلی که باید موردتوجه باشد
- ملاحظه هر اقدام مشابه در گذشته
ماهر شدن در استخراج این نوع اطلاعات، اهمیت بسیار بالایی دارد. این برای تمرین در یک وضعیت آزمایشی، ایدهی خوبی است تا ببینیم این کار را چگونه میتوان به بهترین نحو انجام داد.
اشکالات غیرمنتظره معمول زمانی رخ میدهند که مراجع تمام جزئیات را به موقع برای بحث اولیه تثبیت نکرده است یا هنگامی که چیزها مابین دریافت اطلاعات و اقدام بدون اطلاع دادهکاو، تغییر میکنند. بعضی اوقات، همکاران بازاریابی ترجیح میدهند خیلی وسواسی دیده نشوند چرا که ممکن است احساس کنند این باعث میشود انعطافپذیری آنها محدود شود. اما بدون دانستن تمام جزئیات، شانس کمی برای ساخت یک مدل خوب وجود دارد. برای مثال، ممکن است مراجع (یا مشتری) بگوید که این حرکت یک شیوه برندینگ با هدف آوردن مردم به نقاط همیشگی فروش است و به این ترتیب گروه هدف وسیع و کمتر قیمتگراست یعنی شامل افرادی است که بطور خاص به قیمت حساس نیستند؛ در آنصورت این کمپین به یکی از قیمتگذاریهای تهاجمی تغییر میکند و گروه هدف زیر سطح بهینه[7] است زیرا آنها بطور خاص به قیمت حساس نیستند. پس این اقدام (یا حرکت) عملکرد ضعیفی دارد.
دادهکاوهای مجرب میفهمند که این گام از تعریف مسئله در افزودن ارزش و تعیین اینکه آیا آنها موفق خواهند بود یا خیر، سرنوشتساز است. این کار ممکن است زمان زیادی طول بکشد اما تلاش بسیار ارزشمندی است. یک خرده روانشناسی در اینجا میتواند سودمند باشد؛ منابع کالکوت[8] را در قسمت کتابشناسی ببینید که نگاهی میندازد به اینکه چطور تحلیلگران داده میتوانند تعامل خود را با مالکان فرایند بهینه سازند تا مطمئن شوند که در حقیقت همدیگر را درک کردهاند.
علاوه بر این، پیش از انجام هر کار دادهکاوی باید وضعیت خطمبنا[9] ارزیابی شود به این ترتیب منافع را میتوان ارزیابی کرد. برای مثال، مطمئن شوید که شاخصهای عملکرد کلیدی از قبیل نرخ پاسخ، هزینه ایمیلهای جمعی و فراوانی خرید، معلوم هستند. اهداف قابل اندازهگیری باید تعریفشده و با مدیریت به توافق رسیده باشند. با اینحال، شایان ذکر است که دادهکاوی دادهها اساساً با آزمایش فرضیه فرق میکند چرا که این کار بطور ضروری توضیحی است طوری که تعریف اهداف دقیق میسر نیست اما ما میتوانیم زمینههایی را که در آن انتظار بهبود داریم تعریف کنیم.
2-4- دادهها: آمادهسازی و پردازش داده های موردنیاز
برای ارائه دادههای موردنیاز برای این تجزیه و تحلیل، باید دوره زمانی تجزیه و تحلیل، واحد مدنظر پایه و روشهای تخمین، متغیرها و تقسیمبندی دادهها برای تولید دادههای یادگیری و آزمایش و برای نمونههای تصادفی را درنظر بگیریم.
2-4-1- تثبیت دوره زمانی تجزیه و تحلیل
در استقرار، احتمالاً یک شکاف زمانی بین استفاده از مدلی که دادهکاو تولید کرده است و اجرای فعالیت وجود دارد. برای مثال، ممکن است ما از مدل دادهکاوی خودمان برای تعیین یک فهرست ایمیلزنی به مشتریانی که بیشترین احتمال خرید را دارند استفاده کنیم اما آن مشتریان این ایمیل جمعی را چند روز (یا حتی چند ساعت یا ماهها) بعد دریافت کنند.
این دوره تجزیه و تحلیل شامل دوره زمانی پایه (برای متغیرهای ورودی) و دوره زمانی هدف یا نشانه (برای متغیرهای هدف یا خروجی) است. دوره پایه همیشه قبل از دوره هدف قرار دارد و منعکسکننده شکاف زمانی میان اجرای یک مدل و استفاده از نتایج اجرای مدل است.
ما از فعالیتهای گذشته تصمیم میگیریم که شکاف زمانی استقرار چقدر بزرگ باشد و سپس یک عدم تطابق زمانی را در دادههای مدل میگنجانیم طوری که برای مثال، متغیرهای ورودی مانند سن، مکان، بخش و رفتار خرید از دورهای بیشتر از یک دوره زمانی نیستند، مثلاً بگوییم عدد دوره زمانی 10، و متغیرهای هدف مانند اقدام خرید یا فعالیتهای کلیدی[10] از یک دوره بعدتر، بگوییم عدد دوره 14 هستند و نه قبل از آن. توجه کنید که این دوره زمانی بسته به نوع کسب و کار فرق میکند و میتواند به منزله روزها، ماهها، فصلها یا برخی واحدهای زمانی دیگر از چرخه کسب و کار باشند.
این عدم تطابق زمانی متغیرها یک تفاوت عمده با سایر مدلسازیهای آماری دارد اما نشاندهنده چالشهای بزرگ روششناسی نیست؛ بلکه مسئله ملاحظه دقیق و آمادهسازی دادههای درست است.
برای درنظر گرفتن نوسانات فصلی، غالباً دورهای که تقریباً یکسال قبل از دوره کاربرد قرار دارد به عنوان دوره هدف انتخاب میشود. دوره پایه متناظر، معمولاً یک چند هفته قبل از دوره هدف است و همانطور که در متن پیش رو آمده است بواسطه ملاحظات عملی زمان درنظر گرفته شده برای فعالیت شامل پست کردن و چاپ تعیین میشود. برای مثال، در اطلاعات لازم، مراجع میگوید که امسال یک ارسال ایمیل برای کریسمس میخواهد پس مشتریان لازم است که مطالب چاپی تبلیغاتی را تا انتهای نوامبر دریافت کنند. بخاطر نوسانات فصلی معلوم، ما تصمیم میگیریم تا از یک دوره هدف از 1تا 31 دسامبر تا آخر سال استفاده کنیم. با توجه به اینکه معلوم است پردازش و تحویل چهار هفته طول میکشد، انتهای دوره پایه، 31 اکتبر سال گذشته است. پس در آمادهسازی این مدل، از متغیرهای ورودی تا 31 اکتبر و متغیرهای هدف برای 1 تا 31 دسامبر استفاده میکنیم. در این دوره کاربرد برای تعیین کسانی که قرار است مطالب تبلیغاتی امسال به آنها ارسال شود، مدل با متغیرهای ورودی از سال جاری تا 31 اکتبر استفاده میشود. ما در حال پیشبینی رفتار خرید مشتریان در 1 تا 31 دسامبر سال جاری هستیم. توجه کنید که ما کل ماه نوامبر را برای پردازش و تحویل ایمیلجمعی کنار گذاشتهایم.
در کنار جابجایی زمانی در دادهها، دسترسپذیری دادهها نیز باید مدنظر قرار گیرد. ترفندهای معمولی عبارتند از:
روال: تحدید حدود زمانی
تعیین دوره تجزیه و تحلیل شامل دوره پایه و دوره هدف
- در عمل هنوز یکی از مجموعهدادههای ضروری در دسترس نیست.
- دپارتمانها یا صنایع بین دوره تجزیه و تحلیل (شامل هدف و پایه) و دوره کاربرد تغییر کردهاند.
بازهم اشاره میکنیم که متغیرهای هدف معمولاً به یک زمان متفوت از متغیرهای توضیحی (ورودی) اشاره دارند. مسئله مقیاس زمانی در شکل 2-4 خلاصه شده است.
2-4-2 واحد موردعلاقه پایه[1]
باید راجع به اینکه چه چیزی یک مورد را میسازد یا واحد علاقه پایه چیست تصمیم گرفته شود، خواه یک شخص، یک شرکت یا یک مکان یا یک صورتحساب موجود باشد و یا غیره. برای بازاریابی، این واحد معمولاً یک شخص است زیرا شخص، کسی است که تصمیم به خرید میگیرد. اما در سایر صنایع، این مورد میتواند یک روز (یعنی یک مورد شامل ارزش دادهای یک روز) باشد، و دورههای پایه و هدف احتمالاً همزمان باشد. در یک فرایند تولید، یک واحد میتواند تمام موادی باشد که یک محصول ساخته شده را میسازند و هدف، کیفیت محصول است. تفسیر عدمتطابق زمانی[2] یعنی اینکه معمولاً باید قبل از اینکه تغییرات در ورودی مواد بر خروجی اثر بگذارند یک دوره اجرا وجود داشته باشد و این باید در مدلسازی لحاظ شود.
2-4-3 متغیرهای هدف[3]
متغیر هدف بنابر اطلاعات لازم، ثابت است. بعضی اوقات یک متغیر هدف محسوس را نمیتوان بطور مستقیم از دادههای موجود بدست آورد و با برخی روشهای دیگر بهتر استخراج میشوند. ممکن است ما از مقدار خرید یا میزان فروش[4] براساس یک سطح متفاوت استفاده کنیم، نه براساس اینکه چه تعداد اقلام ویژه فروخته شدند، بلکه درباره اینکه چه تعداد اقلام کلی فروخته شدند، برای مثال، نه اینکه چه میزان فنجان صورتی، بلکه چه تعداد فنجان، یا حتی صرفاً چه میزان تکه از ظروف سفالی فروخته شده است. این تصمیم بطور کلی براساس اطلاعات لازم گرفته میشود و هدف از اقدام اما همچنین روی دادههای موجود و مقدار دادههای موجود که با مدل برنامه ریزی شده تناسب دارد، برای مثال اگر یک تعداد بسیار کم از فنجانهای صورتی فروخته شده باشد، این مدل خیلی قابل اعتماد نیست.
بطور مشابه، خلاصهسازی باید روی دپارتمان، صنعت یا زمینه مصرف برای استعلام متغیر هدف باشد. توجه کنید که متغیر هدف باید قابل اندازهگیری، دقیق، استوار و نیز مربوط باشد.
در مدلسازی پیشگویانه، واریاسیون کمتر در متغیر هدف ارجح است. این با مدلسازی آماری معمول که در آنجا واریاسیون بیشتر ارجح است فرق دارد. دلیل آن این است که عوامل تأثیرگذار بسیاری هستند که نمیتوان آنها را کنترل کرد؛ حتی اگر سعی کنید به بهترین نحو دادهها را تطبیق دهید، همیشه تأثیرات زمانی وجود دارند و هیچ دادهی کنترلکنندهای وجود ندارد؛ رقبا و محیط کسب و کار همگی بر نتیجه اثر میگذارند. بنابراین، داشتن دقت بسیار زیاد بیربط و گمراهکننده است. در مدلسازی پیشگویانه، هدفهای صفر و یکی و مربوط به ردهبندی[5] میتوانند کاملاً قابل قبول باشند در حالیکه در سایر مدلسازیهای آماری، یک متغیر پیوسته معمولاً ارجحیت دارد. دلیل آماری برای اجتناب از اهداف صفر و یکی و ردهبندی این است که آنها به دادههای بیشتری نیاز دارند؛ با اینحال، از طریق دادهکاوی، معمولاً دادههای زیادی فراهم میشود پس این مسئله نگرانکنندهای نیست.
2-4-4 متغیرهای ورودی و متغیرهای توصیفی (توضیحی)[6]
تمام متغیرهای ورودی تنها برای دوره پایه تولید میشوند. یک نکته ظریف ولی مهم این است که آنها باید در فرایند دادهکاوی استفاده شوند چرا که آنها در انتهای دوره پایه بودند. این میتواند در خصوص متغیرهایی که ایستا نیستند اما در معرض تغییرند مشکلاتی را بوجود آورد، مانند وضعیت تأهل یا نشانی. مگر اینکه بتوان تعیین کرد که آیا تغییر کردهاند یا نه، از این متغیرها باید با احتیاط استفاده کرد حتی اگر معمولاً به عنوان ایستا یا کندتغییر[7] درنظر گرفته میشوند.
مدلهای بهبودیافته پایدارتر با دستهبندی متغیرهای پیوسته بدست میآیند. زمانی که متغیرهایی مانند مقدار فروش یا خرید دسته بندی میشوند، تأکید بیشتری بر تفاوتها در فرایند کسب و کار دارند. برای مثال، اگر کسی 0 یورو خرج کند در مقایسه با کسی که 1 یورو خرج کرده، پیامدهای کاملاً متفاوتی دارد. از لحاظ ریاضی این کمیتها بسیار شبیه هم هستند اما در کاربرد کسب و کار ما، هر خرید، حتی 1 یورو، نشاندهنده نوعی علاقه به کسب و کار ماست، درحالیکه صفر به درستی میتواند نشاندهنده عدم علاقه باشد. بدون دستهبندی، تفاوت بین عدم خرید و یک خرید کوچک ممکن است کم ارزش به نظر برسد. در انتهای دیگر این مقیاس، اهمیت اینکه بدانید یک خریدار متعلق به 10 درصد از جمعیتی است که بیشتر از 2516 یورو خرج میکنند به جای 5035 یورو، خیلی بیشتر است. به یک مفهوم، اهمیت خریداری که 5035 یورو صرف میکند عمدتاً این است که آنها در ردهبندی زیاد خرجکنندهها هستند.
این دستهبندی را میتوان به انواع روشهایی که بعداً توصیف میشود اجرا کرد.
2-5- مدلسازی: تجزیه و تحلیل دادهها
بوضوح روشهای دادهکاوی بسیار متعددی دردسترس هستند و در این اثنا روشهای بیشتری نیز در حال توسعه هستند. هستهی فرایند دادهکاوی، ایجاد یک مدل خوب است. خوب یعنی اینکه خوب پیشبینی میکند. با اینحال، به دلیل اینکه دادهکاوی معمولاً در یک محیط پویا و متغیر مستقر میشود، یک مدل سریع برای یک مسئله کسب و کار مناسب که به سرعت تولید شده و به دقت و بطور حساس مستقر شده است میتواند ارزش کسب و کاری بالاتری داشته باشد حتی اگر نسبت به مدلی که زمان بیشتری برای رسیدن به جواب طول میکشد، اندکی کمتر خوب پیشبینی کند. این روشهای تجزیه و تحلیل بطور مفصل در فصل 6 توصیف میشوند.
استفاده از ابزارهای دادهکاوی به نسبت آسان است. توجه کردن به کل فرایند دادهکاوی مهم است. این توجه شامل مراحل قبلاً مشخصشده میشود: تعریف مسئله، انتخاب دقیق دادهها، گزینش متغیرها و نیز بررسیهای ارتباط و دقت مدلها.
انواع و اقسام نرمافزارهای دادهکاوی در دسترس هستند که روشهای مشترکی (بیشتر همهکاره) را ارائه میدهند. بسته به خطمشی شرکت، الگوریتمها را نیز میتوان به صورت نرمافزار رایگان بدست آورد. شاید رویکرد فرایندگرای بصریتری که نیاز به مهارتهای برنامهنویسی بسیار کمی دارد، ترجیح بیشتری داشته باشد.
نرمافزار دادهکاوی خوب باید شامل برخی ابزارهای قوی برای آمادهسازی و تبدیل دادهها باشد. بدست آوردن مدلهای استقرار یا اسکریپتهایی که به راحتی در یک محیط متفاوت استفاده میشوند باید سرراست باشد.
2-6- ارزیابی و اعتبارسنجی در خلال مرحله تجزیه و تحلیل
ارزیابی کیفیت مدل محاسبهشده را میتوان به سه روش انجام داد: استفاده از یک نمونه آزمایشی که همان انشعاب[8] (بین هدف=0 و هدف=1) نمونه آموزشی را دارد، استفاده از یک نمونهی آزمون که یک لایهبندی متفاوت دارد و استفاده از یک نمونه آزمون که همان انشعاب مجموعهدادهی کل را دارد. ما میتوانیم تعدادی از مدلهای نامزد را با استفاده از رگرسیونها، درختهای تصمیم و غیره تولید کنیم. این مدلها ممکن است برحسب متغیرهایی که در این مدل دارند، با هم فرق کنند. در آنصورت مجبوریم این مدلها را مقایسه کنیم و این کار با اعمال هر مدل به نمونه های آزمون و مقایسه نتایج انجام میشود. برخی از نرمافزارهای دادهکاوی، بطور خودکار مقایسههایی را بین مدلها انجام میدهند یا ابزاری را ارائه میدهند که به مقایسه مدلها در هنگام اجرا روی همان نمونهها کمک میکند.
روشهای مقایسه شامل ساخت نمودارهای ارتقاء و بهبود[1] و آمادهسازی معیارهای درهمریختگی[2] است.
بعضی اوقات، توانایی مدل برای رتبهبندی مشتریان به روشی مناسب، مهمتر از کیفیت آماری مدلهاست. یک مدل سودمند مدلی است که یک ترتیب رتبهبندی معتبر از مشتریان برحسب متغیرهای مربوطه است.
روش دیگر برای تأیید اعتبار مدلهای عرضه شده توسط بیشتر نرمافزارهای دادهکاوی، اعتبارسنجی متقابل است. این یک روش ارزیابی این است که چقدر نتایج تجزیه و تحلیل به یک مجموعهداده مستقل تعمیم داده خواهد شد و شامل تعداد روشهای متفاوت است. ما توصیه میکنیم که اعتبارسنجی متقابل زمانی استفاده شود که مجموعهداده مشابه یا شامل دادههای بشدت قابل اعتماد و با کیفیت بالاست.
مهمترین جنبه اعتبارسنجی، بررسی این است که این مدل یا هر راهکار دادهکاوی دیگر، تا زمانی که به کسب و کار مربوط میشود، معنی می دهد و اینکه نتایج برای نفع کسب و کار معتبر و قابل استفاده هستند یا خیر.
[1] Lift and gain charts
[2] confusion matrices
[1] Basic Unit of Interest
[2] temporal mismatch
[3] Target Variables
[4] turnover
[5] categorical
[6] Explanatory Variables
[7] slow changing
[8] split
[1] Client: کارخواه
[2] aggressive pricing
[3] planned marketing activity
[4] price/value cut-off
[5] Turnover activation
[6] cross-selling
[7] Sub-optimal
[8] Caulcutt
[9] baseline situation
[10] churn activities
[1] error signal
[2] Knowledge-Discovery
[3] clean
[4] Statistical methods
[5] multiple regression
[6] logistic regression
[7] analysis of variance
[8] log-linear models
[9] Bayesian inference
[10] Decision trees
[11] decision rules
[12] Classification And Regression Tree algorithms
[13] pruning algorithms
[14] Cluster analysis
[15] divisible algorithm
[16] agglomerative algorithms
[17] Hierarchical clustering
[18] partitional clustering
[19] incremental clustering
[20] Association rule
[21] market basket analysis
[22] a priori algorithm
[23] Sequence patterns
[24] social network analysis
[25] Artificial neural networks
[26] multilayer perceptrons with back-propagation learning
[27] radial networks
[28] Self-Organising Maps (SOM)
[29] Kohonen
[30] Genetic algorithms
[31] Fuzzy inference systems
[32] fuzzy sets
[33] fuzzy logics
[34] N-dimensional visualisation methods
[35] geometric
[36] icon-based
[37] pixel-oriented
[38] hierarchical
[39] Case-Based Reasoning (CBR)
[40] too many dropout customers
[41] disappointing sales
[1] Population and Sample
[2] enormous
[3] Cookies: کوکی یک فایل است که توسط یک وب سایت برای حفظ اطلاعات بر روی رایانه شما قرار میگیرد. یک کوکی میتواند شامل اطلاعاتی باشد که شما در آن لیست وارد کرده اید مانند ایمیل، نشانی، شماره تلفن و سایر اطلاعات شخصی.
[4] Loyalty clubs
[5] Customer Relationship Management
[6] summary or aggregate level
[7] unbiased
[8] bootstrapping
[9] Data Preparation
[10] concrete
[11] tangible
[12] solid
[13] inevitable
[14] inherent variation
[15] Face value
[16] intelligence
[17] Supervised and Unsupervised Methods
امور ثبت و صدور گواهینامه BRS
تهران سعادت آباد خیابان سپیدار پلاک ۱۰
تلفن : ۰۲۱۲۶۷۶۱۲۸۱
www.BRSMENA.com
www.BRS.ir
#ایزو #استاندارد #مدیریت #ممیزی #مشاوره #سیستم_کیفیت #ایزو۹۰۰۱ #ایزو۲۲۰۰۰ #ایزو۴۵۰۰۱ #ایزو۱۴۰۰۱#استاندارد #SHS #کرونا #کووید19
منبع : https://brs.ir/node/68