互聯(lián)網(wǎng)、大數(shù)據(jù)的快速發(fā)展讓各類信息資源豐富多彩,生活的各個領(lǐng)域在對已有的大量數(shù)據(jù)分析的基礎(chǔ)上進(jìn)行科學(xué)研究、商業(yè)決策等,而數(shù)據(jù)的不斷增加與數(shù)據(jù)分析方法的滯后之間的矛盾尤為突出,數(shù)據(jù)挖掘也彌補了傳統(tǒng)的分析技術(shù)的不足之處,并針對大量的數(shù)據(jù)處理與分析提供有力支撐,在大數(shù)據(jù)時代背景下,數(shù)據(jù)挖掘技術(shù)可以幫助企業(yè)對現(xiàn)有數(shù)據(jù)快速治理;通過數(shù)據(jù)挖掘更好的對未來進(jìn)行預(yù)測,為企業(yè)運營分析提供全面支持。數(shù)據(jù)挖掘會引領(lǐng)全新的生活方式,驅(qū)動生活走向美好,這正是技術(shù)的價值所在。隨著數(shù)據(jù)挖掘的進(jìn)一步發(fā)展,它必然會對人類的生活產(chǎn)生重要影響。
在過去幾年,隨著信息化技術(shù)的高速發(fā)展,數(shù)據(jù)逐漸變?yōu)槠髽I(yè)最有價值的戰(zhàn)略資產(chǎn),人們迫切希望能夠從數(shù)據(jù)中發(fā)掘價值和探索規(guī)律,以便為企業(yè)在研發(fā)、生產(chǎn)、營銷、管理、運維等各個環(huán)節(jié)遇到的問題提供新的解決思路,用數(shù)字化戰(zhàn)略為企業(yè)賦能。
為什么需要一個數(shù)據(jù)挖掘方法論?
要實現(xiàn)對數(shù)據(jù)價值的深度發(fā)掘,數(shù)據(jù)挖掘技術(shù)無疑是最有效的手段之一。對于企業(yè)來說,要開展數(shù)據(jù)挖掘項目,就必須要了解數(shù)據(jù)挖掘項目是區(qū)別于傳統(tǒng)的軟件開發(fā)類項目,其呈現(xiàn)出復(fù)雜性高、周期長、不確定高等特點,特別是不確定性高,是其最典型的特點,主要體現(xiàn)在數(shù)據(jù)的不確定性、結(jié)果的不確定性和方案的不確性等方面,這樣就導(dǎo)致整個數(shù)據(jù)挖掘項目管控難度高,因此一個行之有效的數(shù)據(jù)挖掘方法論(明確的流程模型)是非常有必要的。
行業(yè)數(shù)據(jù)挖掘方法論都有哪些?
長期以來,隨著數(shù)據(jù)挖掘市場的發(fā)展和成熟,由不同的組織機構(gòu)提出過很多的方法論,如CRISP-DM、SEMMA、5A等,其中CRISP-DM、SEMMA是應(yīng)用最為廣泛。CRISP-DM (cross-industry standard process for data mining),即為“跨行業(yè)數(shù)據(jù)挖掘過程標(biāo)準(zhǔn)'。此KDD過程模型于1999年歐盟機構(gòu)聯(lián)合起草. 通過近幾年的發(fā)展,CRISP-DM 模型在各種KDD過程模型中占據(jù)領(lǐng)先位置,采用量達(dá)到近60%。排在其后的是由SAS公司提出的SEMMA。SEMMA更偏重于數(shù)據(jù)挖掘的建模過程,與SAS的EM工具進(jìn)行整合,其模型管理部署部分則體現(xiàn)在另外的工具套件中。CRISP-DM是從一個數(shù)據(jù)挖掘項目執(zhí)行的角度談方法論,CRISP- DM的考慮的范圍比SEMMA 要大。CRISP-DM強調(diào),數(shù)據(jù)挖掘不單是數(shù)據(jù)的組織或者呈現(xiàn),也不僅是數(shù)據(jù)分析和統(tǒng)計建模,而是一個從理解業(yè)務(wù)需求、尋求解決方案到接受實踐檢驗的完整過程。因此,從一個項目的管理實施完整流程來說,CRISP-DM更適用一些,本文后續(xù)主要以CRISP-DM為主進(jìn)行詳細(xì)介紹。
CRISP- DM方法論
CRISP-DM方法論將一個數(shù)據(jù)挖掘項目的生命周期分為六個階段,其中包括業(yè)務(wù)理解(business understanding),數(shù)據(jù)理解 (data understanding),數(shù)據(jù)準(zhǔn)備(data preparation),建立模型(modeling),評估模型(evaluation)和結(jié)果部署(deployment)。這六個階段的順序是不固定的,我們經(jīng)常需要前后調(diào)整這些階段。這依賴每個階段或是階段中特定任務(wù)的產(chǎn)出物是否是下一個階段必須的輸入。圖中箭頭指出了最重要的和依賴度高的階段關(guān)系。
階段一:業(yè)務(wù)理解(business understanding)
業(yè)務(wù)理解,指從業(yè)務(wù)角度來理解項目目標(biāo)和要求,接著把這些理解知識轉(zhuǎn)換成數(shù)據(jù)挖掘問題的定義和實現(xiàn)目標(biāo)的最初規(guī)劃。
在這個階段,主要通過業(yè)務(wù)需求調(diào)研,明確要解決的業(yè)務(wù)問題,如果業(yè)務(wù)問題一開始不明確,就需要從整個企業(yè)的內(nèi)部不同業(yè)務(wù)板塊(如營銷、生產(chǎn)、管理等)或從企業(yè)與上下游產(chǎn)業(yè)鏈之間的關(guān)系來切入與業(yè)務(wù)專家進(jìn)行研討,形成分析主題庫,同時需要對每個業(yè)務(wù)問題的產(chǎn)生背景、業(yè)務(wù)流程、業(yè)務(wù)價值、傳統(tǒng)解決方法及效果、相關(guān)數(shù)據(jù)資源、涉及哪些部門及領(lǐng)導(dǎo)等內(nèi)容,調(diào)研一定要充分,基于這些調(diào)研內(nèi)容可以對于主題庫中的分析主題從可行性、價值性、難易度等多方面進(jìn)行衡量,為分析主題開展的優(yōu)先級提供指導(dǎo)。業(yè)務(wù)目標(biāo)確定后,一方面需要從業(yè)務(wù)角度確定成功的標(biāo)準(zhǔn),這個有利于最后判定結(jié)果的有效性和價值性,另一方面也需要確定數(shù)據(jù)挖掘目標(biāo)、初步方案和成功標(biāo)準(zhǔn),在成功標(biāo)準(zhǔn)度量指標(biāo)這里需要結(jié)合當(dāng)前傳統(tǒng)方式的效果和歷史建模經(jīng)驗綜合來確定,同時也必須要保障該標(biāo)準(zhǔn)具備可驗證性,這也是最后保障項目驗收成功的重要依據(jù),很多項目最終失敗,都是忽略了這個環(huán)節(jié),一定要慎重。
階段二:數(shù)據(jù)理解 (data understanding)
數(shù)據(jù)理解,指從數(shù)據(jù)收集開始,然后接著是一系列活動,這些活動的目的是:熟悉數(shù)據(jù),甄別數(shù)據(jù)質(zhì)量問題、發(fā)現(xiàn)對數(shù)據(jù)的真知灼見、或者探索出令人感興趣的數(shù)據(jù)子集并形成對隱藏信息的假設(shè)。
在這個階段,主要的工作就是基于業(yè)務(wù)理解階段梳理的數(shù)據(jù)需求,收集原始數(shù)據(jù),同時對于數(shù)據(jù)的數(shù)據(jù)量(維度和樣本大?。?shù)據(jù)的質(zhì)量(缺失值、異常值、不一致性等),數(shù)據(jù)的分布規(guī)律(各種統(tǒng)計指標(biāo))等進(jìn)行初步探索,初步判斷該數(shù)據(jù)是否具備初步分析的可行性,形成一份數(shù)據(jù)質(zhì)量分析報告。同時對于預(yù)測性問題,如分類、回歸等問題,需要明確目標(biāo)變量,很多目標(biāo)變量可以不是通過單一變量直接獲取,需要通過多個變量結(jié)合業(yè)務(wù)進(jìn)行確定,如確定一個用戶是否是欠費用戶,則需要從欠費次數(shù)和欠費金額兩個維度確定欠費用戶的判定規(guī)則,規(guī)則定義的嚴(yán)苛程度,需要與建模的正負(fù)樣本分布、業(yè)務(wù)的認(rèn)可度、數(shù)據(jù)的分布等多個方面綜合制定。
階段三:數(shù)據(jù)準(zhǔn)備(data preparation)
數(shù)據(jù)準(zhǔn)備,指從最初原始數(shù)據(jù)構(gòu)建最終建模數(shù)據(jù)的全部活動。數(shù)據(jù)準(zhǔn)備很可能被執(zhí)行多次并且不以任何既定的秩序進(jìn)行。包括為建模工作準(zhǔn)備數(shù)據(jù)的選擇、轉(zhuǎn)換、清洗、構(gòu)造、整合及格式化等多種數(shù)據(jù)預(yù)處理工作。
在這個階段,最終目標(biāo)是要基于業(yè)務(wù)理解階段的建模方案構(gòu)建建模所需的寬表,即將多個表信息進(jìn)行整合,包括表之間的聯(lián)接,明細(xì)數(shù)據(jù)的匯總加工等,同時在過程中需要對于數(shù)據(jù)的質(zhì)量問題(包括缺失值、異常值等)進(jìn)行處理;對數(shù)據(jù)的字段進(jìn)行變換,如規(guī)范化和標(biāo)準(zhǔn)化,或都將數(shù)據(jù)進(jìn)行映射變換,如Log變化,數(shù)值型按區(qū)間轉(zhuǎn)換成名詞型字段等多種加工策略;在特征工程這里,一方面需要從業(yè)務(wù)角度加工新的計算指標(biāo),另一方面需要進(jìn)行自動特征構(gòu)建、特征選擇、特征降維等方面的工作,來提升模型的性能。數(shù)據(jù)準(zhǔn)備階段的工作,經(jīng)常會隨著模型性能的評估結(jié)果進(jìn)行反復(fù)調(diào)整和優(yōu)化,以便為建模提供更高質(zhì)量的數(shù)據(jù)。
階段四:建立模型(modeling)
建立模型,指選擇和使用各種建模技術(shù),并對其參數(shù)進(jìn)行調(diào)優(yōu)。一般地,相同數(shù)據(jù)挖掘問題類型會有幾種技術(shù)手段。某些技術(shù)對于數(shù)據(jù)形式有特殊規(guī)定,這通常需要重新返回到數(shù)據(jù)準(zhǔn)備階段。
在這個階段,主要基于業(yè)務(wù)理解階段確定的建模方案,選擇相應(yīng)的建模算法,開始建模和評估模型。這個階段在建模算法的選擇方面,需要注意兩個問題,一是算法和參數(shù)的選擇上,可以按照經(jīng)常選擇常用的方法和參數(shù)來調(diào)試,也可以使用自動學(xué)習(xí)類的方法,如自動擇參/分類/回歸/聚類/時序等方面,來自動選擇算法和參數(shù),降低在這個階段的嘗試成本,提升效率。二是需要結(jié)合建模的精度,對于建模方案進(jìn)行優(yōu)化,最為典型的就是開始定位為某一類數(shù)據(jù)挖掘問題,可以轉(zhuǎn)換成另一類數(shù)據(jù)挖掘問題的方式來解決,如回歸問題,可以轉(zhuǎn)換成分類問題來解決,當(dāng)然前提是對于數(shù)值預(yù)測的單值準(zhǔn)確性要求不高。時序問題,可以轉(zhuǎn)換成回歸問題來解決等方面,這個更依賴于個人的建模經(jīng)驗。
階段五:評估模型(evaluation)
評估模型,指在此階段,需要從技術(shù)層面判斷模型效果以及從業(yè)務(wù)層面判斷模型在實際商業(yè)環(huán)境當(dāng)中的實用性。
在這個階段,已經(jīng)從建立模型階段獲取了從理論上性能表現(xiàn)更好的模型,需要結(jié)合業(yè)務(wù)階段確定的數(shù)據(jù)挖掘模型的成功標(biāo)準(zhǔn),回歸到實際業(yè)務(wù)中進(jìn)行模型性能的實測,可以采用A/B測試的方案進(jìn)行評測。這個階段的工作,是需要有相關(guān)的業(yè)務(wù)部讓或營銷部來來配合的,所以需要提前在項目計劃中確定需要協(xié)調(diào)的資源和評測的方案,評測的對比方案一定要得到客戶方認(rèn)可才行,以便降低反復(fù)評測的風(fēng)險。
階段六:結(jié)果部署(deployment)
結(jié)果部署,指將其發(fā)現(xiàn)的結(jié)果以及過程組織成為可讀文本形式或?qū)⒛P瓦M(jìn)行工程化封裝滿足業(yè)務(wù)系統(tǒng)使用需求。
在這個階段,已經(jīng)得到的理論和實際驗證后的模型,需要將模型的成果書面化,從六個階段進(jìn)行總結(jié),形成數(shù)據(jù)分析報告,在這個過程中,也是對整個分析流程的再度審查,保障模型成果的真實性和準(zhǔn)確性。如果涉及到工程化應(yīng)用,還需要將模型發(fā)布成不同方式(調(diào)度、同步/異步服務(wù)API、實時服務(wù)等),供其它業(yè)務(wù)系統(tǒng)進(jìn)行整合,形成最終的決策應(yīng)用系統(tǒng),指導(dǎo)實際業(yè)務(wù)的開展。最后,對于模型上線后的性能需要定期進(jìn)行監(jiān)測,以便后期對于模型性能進(jìn)行持續(xù)性的優(yōu)化工作。
以上,是我結(jié)合個人實際項目經(jīng)驗對于數(shù)據(jù)挖掘項目實施方法論的理解與總結(jié),希望能給企業(yè)決策者、數(shù)據(jù)分析師和項目管理人員有一定的啟發(fā)和收獲,最后,我想強調(diào)的一點是,數(shù)據(jù)挖掘項目的特點決定了它是有失敗的風(fēng)險的,方法論可以降低的項目失敗的風(fēng)險,但我們必須要正確看待失敗,因為項目的探索過程中沉淀的知識和成果是對于企業(yè)來說是也非常寶貴的,因此從企業(yè)的管理層來說,必須要有足夠的耐心和信心對于這類項目以足夠支持。
聯(lián)系客服