文本自動(dòng)分類算法匯總
2.4.1 主要分類方法介紹解決分類問題的方法很多[40-42] ,單一的分類方法主要包括:決策樹、貝葉斯、人工神經(jīng)網(wǎng)絡(luò)、K-近鄰、支持向量機(jī)和基于關(guān)聯(lián)規(guī)則的分類等;另外還有用于組合單一分類方法的集成學(xué)習(xí)算法,如Bagging和Boosting等。
(1)決策樹
決策樹是用于分類和預(yù)測(cè)的主要技術(shù)之一,決策樹學(xué)習(xí)是以實(shí)例為基礎(chǔ)的歸納學(xué)習(xí)算法,它著眼于從一組無次序、無規(guī)則的實(shí)例中推理出以決策樹表示的分類規(guī)則。構(gòu)造決策樹的目的是找出屬性和類別間的關(guān)系,用它來預(yù)測(cè)將來未知類別的記錄的類別。它采用自頂向下的遞歸方式,在決策樹的內(nèi)部節(jié)點(diǎn)進(jìn)行屬性的比較,并根據(jù)不同屬性值判斷從該節(jié)點(diǎn)向下的分支,在決策樹的葉節(jié)點(diǎn)得到結(jié)論。
主要的決策樹算法有ID3、C4.5(C5.0)、CART、PUBLIC、SLIQ和SPRINT算法等。它們?cè)谶x擇測(cè)試屬性采用的技術(shù)、生成的決策樹的結(jié)構(gòu)、剪枝的方法以及時(shí)刻,能否處理大數(shù)據(jù)集等方面都有各自的不同之處。
(2)貝葉斯
貝葉斯(Bayes)分類算法是一類利用概率統(tǒng)計(jì)知識(shí)進(jìn)行分類的算法,如樸素貝葉斯(NaiveBayes)算法。這些算法主要利用Bayes定理來預(yù)測(cè)一個(gè)未知類別的樣本屬于各個(gè)類別的可能性,選擇其中可能性最大的一個(gè)類別作為該樣本的最終類別。由于貝葉斯定理的成立本身需要一個(gè)很強(qiáng)的條件獨(dú)立性假設(shè)前提,而此假設(shè)在實(shí)際情況中經(jīng)常是不成立的,因而其分類準(zhǔn)確性就會(huì)下降。為此就出現(xiàn)了許多降低獨(dú)立性假設(shè)的貝葉斯分類算法,如TAN(Tree Augmented Naïve Bayes)算法,它是在貝葉斯網(wǎng)絡(luò)結(jié)構(gòu)的基礎(chǔ)上增加屬性對(duì)之間的關(guān)聯(lián)來實(shí)現(xiàn)的。
(3)人工神經(jīng)網(wǎng)絡(luò)
人工神經(jīng)網(wǎng)絡(luò)(Artificial Neural Networks,ANN)是一種應(yīng)用類似于大腦神經(jīng)突觸聯(lián)接的結(jié)構(gòu)進(jìn)行信息處理的數(shù)學(xué)模型。在這種模型中,大量的節(jié)點(diǎn)(或稱”神經(jīng)元”,或”單元”)之間相互聯(lián)接構(gòu)成網(wǎng)絡(luò),即”神經(jīng)網(wǎng)絡(luò)”,以達(dá)到處理信息的目的。神經(jīng)網(wǎng)絡(luò)通常需要進(jìn)行訓(xùn)練,訓(xùn)練的過程就是網(wǎng)絡(luò)進(jìn)行學(xué)習(xí)的過程。訓(xùn)練改變了網(wǎng)絡(luò)節(jié)點(diǎn)的連接權(quán)的值使其具有分類的功能,經(jīng)過訓(xùn)練的網(wǎng)絡(luò)就可用于對(duì)象的識(shí)別。
目前,神經(jīng)網(wǎng)絡(luò)已有上百種不同的模型,常見的有BP網(wǎng)絡(luò)、徑向基RBF網(wǎng)絡(luò)、Hopfield網(wǎng)絡(luò)、隨機(jī)神經(jīng)網(wǎng)絡(luò)(Boltzmann機(jī))、競(jìng)爭(zhēng)神經(jīng)網(wǎng)絡(luò)(Hamming網(wǎng)絡(luò),自組織映射網(wǎng)絡(luò))等。但是當(dāng)前的神經(jīng)網(wǎng)絡(luò)仍普遍存在收斂速度慢、計(jì)算量大、訓(xùn)練時(shí)間長(zhǎng)和不可解釋等缺點(diǎn)。
(4)k-近鄰
k-近鄰(kNN,k-Nearest Neighbors)算法是一種基于實(shí)例的分類方法。該方法就是找出與未知樣本x距離最近的k個(gè)訓(xùn)練樣本,看這k個(gè)樣本中多數(shù)屬于哪一類,就把x歸為那一類。k-近鄰方法是一種懶惰學(xué)習(xí)方法,它存放樣本,直到需要分類時(shí)才進(jìn)行分類,如果樣本集比較復(fù)雜,可能會(huì)導(dǎo)致很大的計(jì)算開銷,因此無法應(yīng)用到實(shí)時(shí)性很強(qiáng)的場(chǎng)合。
(5)支持向量機(jī)
支持向量機(jī)(SVM,Support Vector Machine)是Vapnik根據(jù)統(tǒng)計(jì)學(xué)習(xí)理論提出的一種新的學(xué)習(xí)方法[43] ,它的最大特點(diǎn)是根據(jù)結(jié)構(gòu)風(fēng)險(xiǎn)最小化準(zhǔn)則,以最大化分類間隔構(gòu)造最優(yōu)分類超平面來提高學(xué)習(xí)機(jī)的泛化能力,較好地解決了非線性、高維數(shù)、局部極小點(diǎn)等問題。對(duì)于分類問題,支持向量機(jī)算法根據(jù)區(qū)域中的樣本計(jì)算該區(qū)域的決策曲面,由此確定該區(qū)域中未知樣本的類別。
(6)基于關(guān)聯(lián)規(guī)則的分類
關(guān)聯(lián)規(guī)則挖掘是數(shù)據(jù)挖掘中一個(gè)重要的研究領(lǐng)域。近年來,對(duì)于如何將關(guān)聯(lián)規(guī)則挖掘用于分類問題,學(xué)者們進(jìn)行了廣泛的研究。關(guān)聯(lián)分類方法挖掘形如condset→C的規(guī)則,其中condset是項(xiàng)(或?qū)傩?span lang="EN-US">-值對(duì))的集合,而C是類標(biāo)號(hào),這種形式的規(guī)則稱為類關(guān)聯(lián)規(guī)則(class association rules,CARS)。關(guān)聯(lián)分類方法一般由兩步組成:第一步用關(guān)聯(lián)規(guī)則挖掘算法從訓(xùn)練數(shù)據(jù)集中挖掘出所有滿足指定支持度和置信度的類關(guān)聯(lián)規(guī)則;第二步使用啟發(fā)式方法從挖掘出的類關(guān)聯(lián)規(guī)則中挑選出一組高質(zhì)量的規(guī)則用于分類。屬于關(guān)聯(lián)分類的算法主要包括CBA[44],ADT[45] ,CMAR[46] 等。
(7)集成學(xué)習(xí)(Ensemble Learning)
實(shí)際應(yīng)用的復(fù)雜性和數(shù)據(jù)的多樣性往往使得單一的分類方法不夠有效。因此,學(xué)者們對(duì)多種分類方法的融合即集成學(xué)習(xí)進(jìn)行了廣泛的研究。集成學(xué)習(xí)已成為國(guó)際機(jī)器學(xué)習(xí)界的研究熱點(diǎn),并被稱為當(dāng)前機(jī)器學(xué)習(xí)四個(gè)主要研究方向之一。
集成學(xué)習(xí)是一種機(jī)器學(xué)習(xí)范式,它試圖通過連續(xù)調(diào)用單個(gè)的學(xué)習(xí)算法,獲得不同的基學(xué)習(xí)器,然后根據(jù)規(guī)則組合這些學(xué)習(xí)器來解決同一個(gè)問題,可以顯著的提高學(xué)習(xí)系統(tǒng)的泛化能力。組合多個(gè)基學(xué)習(xí)器主要采用(加權(quán))投票的方法,常見的算法有裝袋[47] (Bagging),提升/推進(jìn)[48, 49] (Boosting)等。
有關(guān)分類器的集成學(xué)習(xí)見圖2-5。集成學(xué)習(xí)由于采用了投票平均的方法組合多個(gè)分類器,所以有可能減少單個(gè)分類器的誤差,獲得對(duì)問題空間模型更加準(zhǔn)確的表示,從而提高分類器的分類準(zhǔn)確度。
圖2-5:分類器的集成學(xué)習(xí)
以上簡(jiǎn)單介紹了各種主要的分類方法,應(yīng)該說其都有各自不同的特點(diǎn)及優(yōu)缺點(diǎn)。對(duì)于數(shù)據(jù)庫負(fù)載的自動(dòng)識(shí)別,應(yīng)該選擇哪種方法呢?用來比較和評(píng)估分類方法的標(biāo)準(zhǔn)[50] 主要有:(1)預(yù)測(cè)的準(zhǔn)確率。模型正確地預(yù)測(cè)新樣本的類標(biāo)號(hào)的能力;(2)計(jì)算速度。包括構(gòu)造模型以及使用模型進(jìn)行分類的時(shí)間;(3)強(qiáng)壯性。模型對(duì)噪聲數(shù)據(jù)或空缺值數(shù)據(jù)正確預(yù)測(cè)的能力;(4)可伸縮性。對(duì)于數(shù)據(jù)量很大的數(shù)據(jù)集,有效構(gòu)造模型的能力;(5)模型描述的簡(jiǎn)潔性和可解釋性。模型描述愈簡(jiǎn)潔、愈容易理解,則愈受歡迎。
聯(lián)系客服