隨著中國電信的改革重組,中國通信業(yè)取得了跨越式的發(fā)展,成為國民經(jīng)濟(jì)中發(fā)展速度最快的行業(yè)之一,中國通信業(yè)總規(guī)?,F(xiàn)已在世界排名第一。與此同時(shí),中國通信市場(chǎng)競爭也日趨激烈。通信運(yùn)營商的經(jīng)營觀念逐漸從'技術(shù)質(zhì)量第一'向'服務(wù)客戶第一'轉(zhuǎn)化。以前的營銷模式已經(jīng)無法滿足客戶的多樣化、層次化、個(gè)性化的需求。長期以來,通信單位大量詳盡的業(yè)務(wù)數(shù)據(jù)也只是被簡單地應(yīng)用在各種業(yè)務(wù)系統(tǒng)中,沒有被更有效地開發(fā)利用。如何利用這些數(shù)據(jù)進(jìn)一步拓寬通信業(yè)務(wù),促進(jìn)通信業(yè)務(wù)發(fā)展,從而為通信業(yè)提供決策支持服務(wù),已經(jīng)成為各個(gè)通信單位的當(dāng)務(wù)之急。
近幾年迅速崛起的數(shù)據(jù)挖掘技術(shù)成為實(shí)現(xiàn)這些目標(biāo)的有效手段。它可以深入分析客戶信息、客戶價(jià)值和行為,從而使?fàn)I銷具有洞察力、精確化,并通過從數(shù)據(jù)中挖掘價(jià)值來減少營銷成本、提高營銷效益。
構(gòu)建客戶分類模型需要用到第2章所介紹的一些技術(shù)。其中聚類技術(shù)就是其中之一。在前面的章節(jié)中我們?cè)私獾骄垲惡头诸愑兄艽蟮膮^(qū)別:分類時(shí),我們事先選擇一些屬性作為分類標(biāo)準(zhǔn),通信企業(yè)總是會(huì)將重要的、有影響力的屬性作為分類的依據(jù);而在實(shí)際應(yīng)用當(dāng)中,通信企業(yè)事先根本不知道哪些屬性會(huì)起到作用。而找到那些起關(guān)鍵作用的屬性是聚類技術(shù)的任務(wù)之一。在通信客戶分析中,聚類分析能夠幫助我們發(fā)現(xiàn)特征迥異的不同客戶群和對(duì)客戶分類起關(guān)鍵作用的指標(biāo)變量,并輔助運(yùn)營商對(duì)各客戶類別的特征進(jìn)行深刻觀察。通信客戶從營銷屬性方面分為三類:普通客戶、價(jià)值客戶和黃金客戶,其中普通客戶消費(fèi)行為有較大的隨機(jī)性,分布較廣,規(guī)律難尋,比較適于聚類分析。
本數(shù)據(jù)挖掘?qū)嵗捎猛ㄔ捫袨椤?shù)據(jù)業(yè)務(wù)使用情況等作為客戶分類變量,把通信行為相似的人群聚為一組。數(shù)據(jù)挖掘方法論選用CRISP- DM(Cross-Industry Process for Data Mining)過程模型。即交叉行業(yè)數(shù)據(jù)挖掘過程標(biāo)準(zhǔn)。它從數(shù)據(jù)挖掘技術(shù)應(yīng)用的角度來劃分挖掘任務(wù),將數(shù)據(jù)挖掘技術(shù)和實(shí)際應(yīng)用緊密結(jié)合。CRISP-DM 過程模型的主要步驟有商業(yè)理解、數(shù)據(jù)理解、數(shù)據(jù)準(zhǔn)備、建立模型、數(shù)據(jù)挖掘、評(píng)價(jià)和實(shí)施以及結(jié)果發(fā)布,如圖3-9所示。該過程的各個(gè)環(huán)節(jié)按順序進(jìn)行,但需要不斷地循環(huán)往復(fù)進(jìn)行數(shù)據(jù)探索和模型的調(diào)優(yōu)。這里為了簡化說明問題,先不考慮循環(huán)往復(fù)的探索和調(diào)優(yōu)過程,直接順序考察各個(gè)環(huán)節(jié)。
在各種硬件條件和軟件條件都具備的情況下,就可以開始進(jìn)行挖掘的工作了。
數(shù)據(jù)準(zhǔn)備過程如下:
(1)確定項(xiàng)目目標(biāo),制定挖掘計(jì)劃。
(2)分析變量的獲取。
(3)數(shù)據(jù)收集和獲取。(4)數(shù)據(jù)集成。
依據(jù)CRISP-DM流程,第一要確定項(xiàng)目目標(biāo),之后制定挖掘計(jì)劃。首先必須明確項(xiàng)目的商業(yè)目標(biāo),這個(gè)目標(biāo)應(yīng)該是適于用選取的聚類分析方法來達(dá)到的。所定義的客戶細(xì)分的商業(yè)目標(biāo)是'對(duì)某地方數(shù)十萬普通客戶,從客戶行為的角度進(jìn)行客戶分類,以了解不同客戶群的消費(fèi)行為特征,為發(fā)展新業(yè)務(wù)、原有客戶挽留、對(duì)其他通信公司用戶爭奪的針對(duì)性策略的制訂提供依據(jù),并實(shí)現(xiàn)企業(yè)穩(wěn)定現(xiàn)有客戶量、提高客戶增長量的戰(zhàn)略目標(biāo)'。
之后就應(yīng)該對(duì)分析變量進(jìn)行全面獲取,在保證數(shù)據(jù)的一致性、完整性、有效性和層次性的基礎(chǔ)上,數(shù)據(jù)指標(biāo)具有較高的完備性,應(yīng)該覆蓋全部經(jīng)營分析與數(shù)據(jù)挖掘的需求。我們選擇的數(shù)據(jù)來源主要有客戶檔案記錄、客戶營銷記錄、銷售單主表、銷售退貨主表、銷售付款表、客戶聯(lián)系記錄、客戶投訴記錄和客戶關(guān)懷記錄等。變量準(zhǔn)備的結(jié)構(gòu)如圖3-10所示。
(點(diǎn)擊查看大圖)圖3-10 變量準(zhǔn)備的結(jié)構(gòu) |
客戶的消費(fèi)行為和需求通過調(diào)查問卷以及訪談的方式來實(shí)現(xiàn)。
客戶的通信行為以及需求特征類別見表3-1。
表3-1 客戶行為特征信息表
客戶的通信行為 | 客戶的需求特征類別 |
短消息使用次數(shù) 移動(dòng)夢(mèng)網(wǎng)使用次數(shù) WAP 上網(wǎng)時(shí)間 GPRS 數(shù)據(jù)流量 | 方便性及信息實(shí)時(shí)性的需求 |
IP 長途使用次數(shù) 優(yōu)惠時(shí)段通話次數(shù) 套餐定制和使用次數(shù) 撥打 10086 次數(shù) | 對(duì)資費(fèi)的敏感程度 |
本地、長途、漫游呼叫時(shí)長 本地、長途、漫游呼叫次數(shù) 呼叫時(shí)間、次數(shù)(繁忙 / 非繁忙時(shí)段、 工作 / 休息時(shí)段、優(yōu)惠 / 非優(yōu)惠時(shí)段) 呼叫類型(主叫、被叫、呼叫轉(zhuǎn)移) | 對(duì)通話的多層次需求 |
服務(wù)種類 | 對(duì)個(gè)性化服務(wù)的需求程度 |
數(shù)據(jù)是數(shù)據(jù)挖掘的根基,在確定了分析目標(biāo)和執(zhí)行方案后,需要對(duì)各個(gè)數(shù)據(jù)源的數(shù)據(jù)進(jìn)行清洗、整理并集成,以確定這次分析需要哪些方面的數(shù)據(jù),然后將它們匯總起來,形成這次分析任務(wù)的數(shù)據(jù)庫(數(shù)據(jù)倉庫)。在此實(shí)例中,數(shù)據(jù)來源于移動(dòng)公司自己的CRM系統(tǒng)、客戶計(jì)費(fèi)系統(tǒng),客戶服務(wù)系統(tǒng)、營銷系統(tǒng)以及業(yè)務(wù)結(jié)算系統(tǒng)等。
基于客戶需求和上述行為特征信息表,定義了幾組細(xì)分變量,d_代表時(shí)常,t_代表頻率,見表3-2。在這里只列出通話形式和通話比例表。
表3-2 細(xì)分變量表(簡表)
通話形式 | 市話 | d_local |
t_local | ||
省內(nèi)長途 | d_toll_InProvince | |
t_toll_InProvince | ||
跨省長途 | d_toll_BetweenProvince | |
t_toll_BetweenProvince | ||
國際長途 | d_toll_htm | |
t_toll_htm | ||
通話比例 | 網(wǎng)內(nèi)通話 | d_mob_Ttl t_ mob_Ttl |
聯(lián)通通話 | d_uni_Ttl t_uni_Ttl | |
小靈通通話 | d_phs_Ttl t_phs_Ttl | |
固定電話通話 | d_fix_Ttl t_fix_Ttl |
數(shù)據(jù)準(zhǔn)備包括所有從原始的未加工的數(shù)據(jù)構(gòu)造最終分析數(shù)據(jù)集的活動(dòng),是數(shù)據(jù)挖掘過程中最耗時(shí)的環(huán)節(jié),甚至要占據(jù)整個(gè)數(shù)據(jù)挖掘項(xiàng)目一半以上的工作量。數(shù)據(jù)準(zhǔn)備工作的流程如圖3-11所示。
(點(diǎn)擊查看大圖)圖3-11 數(shù)據(jù)準(zhǔn)備工作的流程 |
數(shù)據(jù)準(zhǔn)備的過程和數(shù)據(jù)挖掘的過程請(qǐng)參考第1章相關(guān)內(nèi)容,這里不再贅述。
在生成最終的數(shù)據(jù)集后,就可以在此基礎(chǔ)上建立模型來進(jìn)行聚類分析了。建立模型階段主要是選擇和應(yīng)用各種建模技術(shù),同時(shí)對(duì)它們的參數(shù)進(jìn)行校準(zhǔn)以達(dá)到最優(yōu)值。在明確建模技術(shù)和算法后需要確定模型參數(shù)和輸入變量。模型參數(shù)包括類的個(gè)數(shù)和最大迭代步數(shù)等。
在建模過程中,我們采用多種技術(shù)手段,并將建模效果進(jìn)行對(duì)比。需要挑選合適的變量參與建模。參與建模的變量太多會(huì)削弱主要業(yè)務(wù)屬性的影響,并給理解分群結(jié)果帶來困難;變量太少則不能全面覆蓋需要考察的各方面屬性,可能會(huì)遺漏一些重要的屬性關(guān)系。輸入變量的選擇對(duì)建立滿意的模型至關(guān)重要。應(yīng)結(jié)合此次分析任務(wù)的目標(biāo),選擇有重要業(yè)務(wù)意義并與數(shù)據(jù)挖掘目標(biāo)密切相關(guān)的變量;被選擇的變量應(yīng)具備較好的數(shù)據(jù)質(zhì)量,并且被選變量之間相關(guān)性不宜太強(qiáng)。
不同的技術(shù)方案產(chǎn)生的模型結(jié)果有很大不同,而且模型結(jié)果的可理解性也存在較大差異。另外,對(duì)結(jié)果的分析和描述也很關(guān)鍵,不恰當(dāng)?shù)拿枋鰰?huì)造成誤導(dǎo)。需要指出的是,不同的商業(yè)問題和不同的數(shù)據(jù)分布屬性會(huì)影響模型建立與調(diào)整的策略,而且在建模過程中還會(huì)使用多種近似算法來簡化模型的優(yōu)化過程。因此還需要業(yè)務(wù)專家參與調(diào)整策略的制定,以避免不適當(dāng)?shù)膬?yōu)化造成業(yè)務(wù)信息丟失。
建立模型是一個(gè)螺旋上升,不斷優(yōu)化的過程,在每一次聚類結(jié)束后,需要判斷聚類結(jié)果在業(yè)務(wù)上是否有意義,其各群特征是否明顯。如果結(jié)果不理想,則需要調(diào)整聚類模型,對(duì)模型進(jìn)行優(yōu)化,稱之為聚類優(yōu)化。聚類優(yōu)化可通過調(diào)整聚類個(gè)數(shù)及調(diào)整聚類變量輸入來實(shí)現(xiàn),也可以通過多次運(yùn)行,選擇滿意的結(jié)果。通??梢砸罁?jù)以下原則判斷聚類結(jié)果是否理想:類間特征差異是否明顯;群內(nèi)特征是否相似;聚類結(jié)果是否易于管理及是否具有業(yè)務(wù)指導(dǎo)意義。
通過上面的處理,就會(huì)得到一系列的分析結(jié)果和模式,它們是對(duì)目標(biāo)問題多側(cè)面的描述,這時(shí)需要對(duì)它們進(jìn)行驗(yàn)證和評(píng)價(jià),以得到合理的,完備的決策信息。對(duì)產(chǎn)生的模型結(jié)果需要進(jìn)行對(duì)比驗(yàn)證、準(zhǔn)確度驗(yàn)證、支持度驗(yàn)證等檢驗(yàn)以確定模型的價(jià)值。在這個(gè)階段需要引入更多層面和背景的用戶進(jìn)行測(cè)試和驗(yàn)證,通過對(duì)幾種模型的綜合比較,產(chǎn)生最后的優(yōu)化模型。
模型評(píng)估階段需要對(duì)數(shù)據(jù)挖掘過程進(jìn)行一次全面的回顧,從而決定是否存在重要的因素或任務(wù)由于某些原因而被忽視,此階段關(guān)鍵目的是決定是否還存在一些重要的商業(yè)問題仍未得到充分的考慮。驗(yàn)證模型是處理過程中的關(guān)鍵步驟,可以確定是否成功地進(jìn)行了前面的步驟。模型的驗(yàn)證需要利用未參與建模的數(shù)據(jù)進(jìn)行,這樣才能得到比較準(zhǔn)確的結(jié)果??梢圆捎玫姆椒ㄓ兄苯邮褂迷瓉斫⒛P偷臉颖緮?shù)據(jù)進(jìn)行檢驗(yàn),或另找一批數(shù)據(jù)對(duì)其進(jìn)行檢驗(yàn),也可以在實(shí)際運(yùn)行中取出新的數(shù)據(jù)進(jìn)行檢驗(yàn)。檢驗(yàn)的方法是對(duì)已知客戶狀態(tài)的數(shù)據(jù)利用模型進(jìn)行挖掘,并將挖掘結(jié)果與實(shí)際情況進(jìn)行比較。在此步驟中若發(fā)現(xiàn)模型不夠優(yōu)化,還需要回到前面的步驟進(jìn)行調(diào)整。
原文鏈接:http://book.51cto.com/art/200907/135009.htm
聯(lián)系客服