一、認(rèn)識(shí)數(shù)據(jù)挖掘
隨著數(shù)據(jù)采集技術(shù)和存儲(chǔ)技術(shù) 的快速發(fā)展,企業(yè)建立了龐大的數(shù)據(jù)庫和數(shù)據(jù)倉庫,積累了大量的數(shù)據(jù),利用這些數(shù)據(jù)輔助企業(yè)正確決策,已經(jīng)成為商界的共識(shí)。然而數(shù)據(jù)的“爆炸式”增長(zhǎng),讓一般的數(shù)據(jù)分析技術(shù)望而卻步,數(shù)據(jù)挖掘便在此背景下迅速發(fā)展起來。
從技術(shù)的角度看,數(shù)據(jù)挖掘(data mining)是從大量的、不完全的、有噪聲的、模糊的實(shí)際應(yīng)用數(shù)據(jù)中,提取潛在有用的信息和知識(shí)的過程。從商業(yè)的角度看,數(shù)據(jù)挖掘是一種新的商業(yè)信息處理技術(shù),其主要特點(diǎn)是對(duì)商業(yè)數(shù)據(jù)庫的大量業(yè)務(wù)數(shù)據(jù)進(jìn)行抽取、轉(zhuǎn)換、分析和其他模型處理,從中提取出輔助商業(yè)決策的關(guān)鍵性知識(shí),即發(fā)現(xiàn)數(shù)據(jù)中的相關(guān)商業(yè)模式。 數(shù)據(jù)挖掘融合了人工智能(artificial intelligence)、統(tǒng)計(jì)學(xué)(statistics)、機(jī)器學(xué)習(xí)(machine learning)、模式識(shí)別(pattern recognition)和數(shù)據(jù)庫等多種學(xué)科的理論,方法和技術(shù),如下圖
一。目前在金融服務(wù)機(jī)構(gòu)、零售商、金融服務(wù)機(jī)構(gòu)、制造業(yè)、電信公司、保險(xiǎn)公司、醫(yī)療業(yè)、航空業(yè)、政府等各個(gè)領(lǐng)域中取得了廣泛的應(yīng)用。
二、數(shù)據(jù)挖掘的基本操作流程
為了規(guī)范數(shù)據(jù)挖掘的操作,行業(yè)專家根據(jù)基本操作,提出了兩個(gè)流程SEMMA和CRISP-DM。CRISP-DM是跨行業(yè)數(shù)據(jù)挖掘標(biāo)準(zhǔn)流程Cross Industry Standard Process for Data Mining的簡(jiǎn)稱,CRISP-DM強(qiáng)調(diào)數(shù)據(jù)挖掘不只是數(shù)據(jù)的組織、呈現(xiàn)、分析和建模,而是一個(gè)從理解企業(yè)需求、尋求解決方案到實(shí)踐檢驗(yàn)的完整過程。CRISP-DM過程可圖示如下:
它采用分層方法將一個(gè)數(shù)據(jù)挖掘項(xiàng)目的周期定義為6個(gè)階段,每一階段的要點(diǎn)簡(jiǎn)述如下:
1.商業(yè)理解Business Understanding
這一初始階段集中在從商業(yè)角度理解項(xiàng)目的目標(biāo)和要求,然后理解轉(zhuǎn)化為數(shù)據(jù)挖掘問題的定義和一個(gè)旨在實(shí)現(xiàn)目標(biāo)的初步計(jì)劃。
2.數(shù)據(jù)理解Data Understanding
數(shù)據(jù)理解階段開始于原始數(shù)據(jù)的收集,然后是熟悉數(shù)據(jù),標(biāo)明數(shù)據(jù)質(zhì)量,探索對(duì)數(shù)據(jù)的初步理解,發(fā)覺有趣的子集以形成對(duì)隱藏信息的假設(shè)。
3.數(shù)據(jù)準(zhǔn)備Data Preparation
數(shù)據(jù)準(zhǔn)備階段包括所有從原始的未加工的數(shù)據(jù)構(gòu)造最終數(shù)據(jù)集的活動(dòng)(此數(shù)據(jù)集指將要嵌入建模工具中的數(shù)據(jù))。數(shù)據(jù)準(zhǔn)備任務(wù)可能被實(shí)施多次,而且沒有任何規(guī)定的順序。這些任務(wù)包括表格、記錄和屬性的選擇以及按照建模工具要求,對(duì)數(shù)據(jù)的轉(zhuǎn)換和清洗。
4.建模Modeling
在此階段,主要是選擇和應(yīng)用各種建模技術(shù),同時(shí)對(duì)它們的參數(shù)進(jìn)行校準(zhǔn)以達(dá)到最優(yōu)值。通常對(duì)于同一個(gè)數(shù)據(jù)挖掘問題模型,會(huì)有多種模型技術(shù)。一些技術(shù)對(duì)數(shù)據(jù)格式有特殊的要求。因此,常常需要返回到數(shù)據(jù)準(zhǔn)備階段。
5.評(píng)估Evaluation
進(jìn)入項(xiàng)目中的這個(gè)階段時(shí),你已經(jīng)建立一個(gè)模型(或者多個(gè)),從數(shù)據(jù)分析的角度來看,該模型似乎有很高的質(zhì)量,在模型發(fā)布前,很重要的一點(diǎn)--更徹底地評(píng)估模型和檢查建立模型的各個(gè)步驟,從而使它達(dá)到真正的高質(zhì)量。此階段關(guān)鍵目的是決定是否存在一些重要的商業(yè)問題仍未得到充分地考慮。關(guān)于數(shù)據(jù)挖掘結(jié)果的使用決定應(yīng)該在此階段結(jié)束時(shí)確定下來。
6.發(fā)布Deployment
模型的創(chuàng)建通常不是項(xiàng)目的結(jié)尾。即使建模目的是增加對(duì)數(shù)據(jù)的了解,所獲得的了解也需要進(jìn)行組織并以一種客戶能夠使用的方式呈現(xiàn)出來。這常常包括在一個(gè)組織的決策過程中應(yīng)用“現(xiàn)場(chǎng)”模型。不過根據(jù)需要發(fā)布過程可以簡(jiǎn)單到產(chǎn)生一個(gè)報(bào)告,也可以復(fù)雜到在整個(gè)企業(yè)中執(zhí)行一個(gè)可重復(fù)的數(shù)據(jù)挖掘過程。大部分情況下,是由客戶來實(shí)施發(fā)布的,而非數(shù)據(jù)分析師。盡管如此,即使分析師并不執(zhí)行發(fā)布,這對(duì)客戶也是十分重要的--提前了解需要采取什么行動(dòng)來實(shí)際利用產(chǎn)生的模型。
三、數(shù)據(jù)挖掘的主要技術(shù)及軟件:
數(shù)據(jù)挖掘技術(shù)有多種分類方式,比如可以分為描述性數(shù)據(jù)挖掘、預(yù)測(cè)性數(shù)據(jù)挖掘;按照應(yīng)用領(lǐng)域進(jìn)行分類,又可以分成電信行業(yè)數(shù)據(jù)挖掘、保險(xiǎn)行業(yè)數(shù)據(jù)挖掘、商業(yè)數(shù)據(jù)挖掘、制造業(yè)數(shù)據(jù)挖掘等,
下面主要介紹最常用的有五大技術(shù)。
關(guān)聯(lián)規(guī)則:關(guān)聯(lián)規(guī)則是數(shù)據(jù)挖掘中最先研究的領(lǐng)域,簡(jiǎn)單的理解就是分析數(shù)據(jù)項(xiàng)之間的關(guān)聯(lián)關(guān)系。最經(jīng)典的應(yīng)用案例是“啤酒和尿布的故事”
分類:分類是一種典型的有監(jiān)督的學(xué)習(xí)方法,其目的是從一組已知類別的數(shù)據(jù)中發(fā)現(xiàn)分類模型,以預(yù)測(cè)新數(shù)據(jù)的類別。數(shù)據(jù)分類技術(shù)在信用卡審批、保險(xiǎn)欺詐分析、客戶流失分析等,都有廣泛的應(yīng)用。以保險(xiǎn)欺詐分析為例,就是根據(jù)現(xiàn)有正??蛻艉推墼p客戶的資料,分析欺詐客戶的潛在特征,可以對(duì)新購買保險(xiǎn)的客戶進(jìn)行分析,從而有利于企業(yè)控制風(fēng)險(xiǎn)。
聚類:聚類是一種典型的無監(jiān)督學(xué)習(xí)方法,它根據(jù)對(duì)象自身的相似性,把一組對(duì)象劃分成一系列有意義的子集,從而能更好的描述原數(shù)據(jù),即我們常說的“物以類聚”。數(shù)據(jù)分析被廣泛應(yīng)用于相似搜索、信息檢索、顧客劃分等。以顧客劃分為例,聚類技術(shù)就是找出那些具有相似消費(fèi)行為的客戶,從而對(duì)他們采取相應(yīng)的促銷措施,增加企業(yè)的利潤(rùn)。
預(yù)測(cè)和估計(jì):這兩種方法都是利用已知值去預(yù)測(cè)未知值,不同的是估計(jì)是橫向的,預(yù)測(cè)是縱向的。比如,估計(jì)是根據(jù)顧客的教育程度、性別、工資收入來預(yù)測(cè)其消費(fèi)額,預(yù)測(cè)則是根據(jù)過去的消費(fèi)數(shù)據(jù)預(yù)測(cè)未來的消費(fèi)額。
數(shù)據(jù)挖掘的軟件,應(yīng)用比較多的有以下幾種:
Enterprise Miner(SAS),在數(shù)據(jù)挖掘市場(chǎng)非常杰出的工具,它運(yùn)用了SAS統(tǒng)計(jì)模型的力量和影響力,依照SEMMA的挖掘流程,抽樣、探測(cè)、修改、建模、評(píng)價(jià),提供了包括聚類、分類、關(guān)聯(lián)規(guī)則、神經(jīng)網(wǎng)絡(luò)和統(tǒng)計(jì)回歸等多種算法。
Clementine(SPSS),此分析工具結(jié)合了多種圖形用戶接口的分析技術(shù),包含神經(jīng)網(wǎng)絡(luò)、決策樹、聚類分析等多種算法技術(shù),按照CRISP_DM的流程組織數(shù)據(jù)挖掘,來執(zhí)行分析功能,非常適合快速掌握數(shù)據(jù)挖掘技術(shù)。
Intelligent Miner(IBM),包含了大量的數(shù)據(jù)挖掘算法,如預(yù)測(cè)、分類、關(guān)聯(lián)規(guī)則、聚類等,能夠處理相當(dāng)大的數(shù)據(jù)量,具有強(qiáng)大的計(jì)算能力,并且能夠方便的整合使用者的算法。
WEKA,WEKA的全名是懷卡托智能分析環(huán)境(Waikato Environment for Knowledge Analysis),是一個(gè)開源免費(fèi)軟件。WEKA作為一個(gè)公開的數(shù)據(jù)挖掘工作平臺(tái),集合了大量能承擔(dān)數(shù)據(jù)挖掘任務(wù)的機(jī)器學(xué)習(xí)算法,包括對(duì)數(shù)據(jù)進(jìn)行預(yù)處理、分類、回歸、聚類、關(guān)聯(lián)規(guī)則以及在新的交互式界面上的可視化。
馬可威軟件,目前唯一的國產(chǎn)數(shù)據(jù)挖掘軟件,功能比較強(qiáng)大,可視化的圖像操作界面,整合了大量的數(shù)據(jù)挖掘算法,如神經(jīng)網(wǎng)絡(luò)算法、決策樹算法、模糊聚類、關(guān)聯(lián)規(guī)則、支持向量機(jī)、粗糙集、貝葉斯算法等。
還有很多如Angoss Software開發(fā)的KS軟件、Oracle的 Darwin 、S-PlUS等。
四、數(shù)據(jù)挖掘在電信業(yè)的應(yīng)用
隨著國內(nèi)電信業(yè)三分天下局面的形成,電信業(yè)之間的競(jìng)爭(zhēng)越來越激烈,電信公司已經(jīng)從傳統(tǒng)的“技術(shù)驅(qū)動(dòng)”,靠技術(shù)取勝,逐步轉(zhuǎn)向了“市場(chǎng)驅(qū)動(dòng)”、“顧客驅(qū)動(dòng)”。這就要求電信公司必須制定以顧客關(guān)系為導(dǎo)向的管理策略,為顧客提供精細(xì)化、個(gè)性化、多樣化的服務(wù),要做到這一點(diǎn),必須充分利用其掌握的顧客信息,輔助商業(yè)決策,從而提高公司利潤(rùn),提高客戶的滿意度和忠誠度。
按照客戶的生命周期分為三個(gè)階段:客戶獲取階段,客戶培育及成熟階段,客戶衰退階段
1、客戶的獲取階段:
客戶的獲取包括發(fā)現(xiàn)那些對(duì)公司產(chǎn)品不了解的客戶,他們可能是產(chǎn)品的潛在消費(fèi)客戶,也可能是接受競(jìng)爭(zhēng)對(duì)手產(chǎn)品的客戶, 或者可能是公司已經(jīng)流失的客戶。數(shù)據(jù)挖掘可以幫助企業(yè)快速完成對(duì)潛在客戶的篩選工作。電信公司擁有本公司客戶信息,可以得出本公司客戶的基本特征比如性別、學(xué)歷、年齡、工資收入、婚否、是否有房、是否有車等信息,利用聚類分析技術(shù),找出本公司已有客戶的基本特征。還必須向市場(chǎng)調(diào)研公司或者相關(guān)統(tǒng)計(jì)部門獲取一份潛在顧客的名單,包括他們的上述相關(guān)信息。通過比較已有客戶和潛在名單客戶的基本特征,可以挑選出能夠接受本公司服務(wù)的“準(zhǔn)客戶”。這樣不但能減少獲取客戶的費(fèi)用,也能大大提高獲取效率,能夠有的放矢。當(dāng)電信公司擴(kuò)展某項(xiàng)業(yè)務(wù)時(shí),也可以利用此信息,對(duì)可能性大的顧客進(jìn)行定向推廣,這樣效率會(huì)大有提高。
2、顧客的培育及成熟階段:
交叉銷售,是指向現(xiàn)有的客戶提供新的產(chǎn)品和服務(wù)的營(yíng)銷過程,那些購買了某種產(chǎn)品和服務(wù)的客戶很有可能同時(shí)購買你提供的某些感興趣的其他產(chǎn)品,或者對(duì)于現(xiàn)有服務(wù)的升級(jí)服務(wù)比較感興趣。這是一個(gè)雙贏的局面,一方面客戶能夠得到更個(gè)性化,多樣化的服務(wù),另一方面,公司能夠增加利潤(rùn)。如何才能給特定的人推薦特定的服務(wù)呢?這首先要分析客戶的消費(fèi)行為,建立關(guān)聯(lián)規(guī)則模型,比如說長(zhǎng)途通話行為和漫游行為,如果用戶對(duì)這二者的使用較高的話,可以推薦其使用相應(yīng)的套餐等。
客戶利潤(rùn)分析,利潤(rùn)是公司追求的目標(biāo),可以根據(jù)客戶的消費(fèi)行為,將客戶能夠?yàn)楣編砝麧?rùn)程度的不同分為低、中、高三類客戶。著名的“商界定律”:80%的利潤(rùn)來自20%的客戶,如果企業(yè)能牢牢把握住這20%的客戶,并且能不斷的增大這個(gè)比重,將普通客戶提升為高價(jià)值客戶,對(duì)公司的利潤(rùn)將是一個(gè)巨大的提升。要進(jìn)行利潤(rùn)分析,必須首先確定客戶給公司帶來利潤(rùn)的計(jì)算方式,并建立相應(yīng)的數(shù)據(jù)挖掘模型,對(duì)所有客戶進(jìn)行判別,當(dāng)然在具體判別時(shí)還要考慮多種因素,比如說入網(wǎng)時(shí)間,所屬套餐等,只有這樣才能夠正確評(píng)價(jià)客戶的價(jià)值。
細(xì)分客戶,不同的客戶有著不同的消費(fèi)需求,比如學(xué)生可能對(duì)短信的需求量大,而商務(wù)人士可能對(duì)長(zhǎng)途,漫游等通話要求高,根據(jù)這些不同的消費(fèi)層次,可以對(duì)顧客進(jìn)行細(xì)分??蛻艏?xì)分將一個(gè)大的消費(fèi)群體分成若干個(gè)小的消費(fèi)群體,同屬于一個(gè)小的分群的消費(fèi)行為相似,而隸屬于不同分群的被視為不同的群體,這樣電信公司就可以針對(duì)不同群體客戶提出的要求來改善自己的服務(wù),提高客戶的滿意度。通過這種細(xì)分還可以找到某種服務(wù)的潛在消費(fèi)客戶,可以針對(duì)性的營(yíng)銷,降低營(yíng)銷成本。
客戶的欺詐檢測(cè),據(jù)統(tǒng)計(jì),每年全球因電信欺詐造成的損失占電信業(yè)務(wù)總收入的5%以上,這給電信運(yùn)營(yíng)商造成了很大的損失。面對(duì)電信欺詐行為的不斷擴(kuò)張,原先采用行政催繳的弊端日益顯露,比如成本巨大,效果不是很理想,且這些行為都是事后性的,對(duì)即將發(fā)生的電信欺詐沒有預(yù)見性。數(shù)據(jù)挖掘技術(shù)通過利用欺詐的消費(fèi)信息,比如通話時(shí)間、通話次數(shù)、長(zhǎng)途漫游等,建立客戶的欺詐模型,比如貝葉斯模型、決策樹模型等,能夠提前預(yù)知顧客欺詐的可能性,立即采取措施,降低公司的損失。還可以利用孤立點(diǎn)分析對(duì)特征明顯的欺詐客戶進(jìn)行準(zhǔn)確識(shí)別。
3、顧客的保留階段:
客戶的滿意度分析,滿意度是客戶對(duì)公司提供產(chǎn)品和服務(wù)的整體感受,滿意度是忠誠度的基礎(chǔ),只有對(duì)公司產(chǎn)品和服務(wù)滿意度高的客戶才會(huì)忠誠于公司。電信公司應(yīng)當(dāng)定期的對(duì)客戶進(jìn)行抽樣調(diào)查并且結(jié)合投訴服務(wù)中心的資料,通過數(shù)據(jù)挖掘建立決策樹模型、結(jié)合分析模型、因子主成分分析模型,尋找影響滿意度最大的因素,這樣可以使公司快速改善服務(wù),提高客戶的滿意度。
客戶的保留分析,客戶的保留分析或者流失率分析與客戶的滿意度分析,有著密切的聯(lián)系。那些對(duì)服務(wù)長(zhǎng)期不滿的人極有可能會(huì)放棄公司的服務(wù)。獲取一個(gè)新客戶的成本是留住一個(gè)老客戶成本的10倍以上,因此公司為增加自己的利潤(rùn),必須最大限
度的降低客戶的流失率,利用已經(jīng)擁有的客戶信息,比如客戶屬性,服務(wù)屬性和客戶消費(fèi)數(shù)據(jù)等與客戶流失相關(guān)聯(lián)的數(shù)據(jù),建立客戶流失預(yù)測(cè)模型,可以采用分類、關(guān)聯(lián)、聚類等方法建模,把握住流失客戶的基本特征,提早預(yù)測(cè)出要流失的客戶,從而采取特定的營(yíng)銷措施挽留住這些客戶。
五、電信挖掘中應(yīng)當(dāng)注意的問題
數(shù)據(jù)挖掘時(shí)一個(gè)整體的流程,涵蓋業(yè)務(wù)的理解、數(shù)據(jù)的理解、數(shù)據(jù)的預(yù)處理、模型的建構(gòu)、模型的檢驗(yàn)及發(fā)布等,任何一個(gè)環(huán)節(jié)都要確保正確,數(shù)據(jù)挖掘需要依靠技術(shù)人員、業(yè)務(wù)人員和專家的通力合作,數(shù)據(jù)挖掘是一個(gè)團(tuán)隊(duì)的工作。
由于電信業(yè)數(shù)據(jù)量極大,在對(duì)特定目的進(jìn)行分析時(shí),一般要給予某一套餐類型,或者某個(gè)增值業(yè)務(wù),并且要注意地區(qū)因素等,這樣得到的結(jié)果才具有可靠性,且客戶的基本信息可能缺失比較嚴(yán)重,在數(shù)據(jù)處理時(shí)要格外注意,與專家共同商議處理缺失值的方法。
上面介紹的模型,并不是孤立沒有聯(lián)系的,由于客戶的入網(wǎng)時(shí)間不同,很多模型都是同時(shí)進(jìn)行的,要注意模型之間的結(jié)合,對(duì)于已經(jīng)建立的模型要不斷的利用新數(shù)據(jù)進(jìn)行更新,使之準(zhǔn)確性不隨時(shí)間而下降。
六、結(jié)語
隨著社會(huì)的進(jìn)步,各行各業(yè)的競(jìng)爭(zhēng)也越來越激烈,特別是當(dāng)今經(jīng)濟(jì)危機(jī)爆發(fā),如何利用企業(yè)積累的大量數(shù)據(jù),輔助企業(yè)的決策,使企業(yè)在嚴(yán)酷的環(huán)境中能生存下來,數(shù)據(jù)挖掘在電信業(yè)中的應(yīng)用,或許能給我們有益的啟示。