一、文本挖掘概念 在現(xiàn)實(shí)世界中,可獲取的大部信息是以文本形式存儲(chǔ)在文本數(shù)據(jù)庫(kù)中的,由來(lái)自各種數(shù)據(jù)源的大量文檔組成,如新聞文檔、研究論文、書(shū)籍、數(shù)字圖書(shū)館、電子郵件和Web頁(yè)面。由于電子形式的文本信息飛速增漲,文本挖掘已經(jīng)成為信息領(lǐng)域的研究熱點(diǎn)。 文本數(shù)據(jù)庫(kù)中存儲(chǔ)的數(shù)據(jù)可能是高度非結(jié)構(gòu)化的,如WWW上的網(wǎng)頁(yè);也可能是半結(jié)構(gòu)化的,如e-mail消息和一些XML網(wǎng)頁(yè):而其它的則可能是良結(jié)構(gòu)化的。良結(jié)構(gòu)化文本數(shù)據(jù)的典型代表是圖書(shū)館數(shù)據(jù)庫(kù)中的文檔,這些文檔可能包含結(jié)構(gòu)字段,如標(biāo)題、作者、出版日期、長(zhǎng)度、分類等等,也可能包含大量非結(jié)構(gòu)化文本成分,如摘要和內(nèi)容。通常,具有較好結(jié)構(gòu)的文本數(shù)據(jù)庫(kù)可以使用關(guān)系數(shù)據(jù)庫(kù)系統(tǒng)實(shí)現(xiàn),而對(duì)非結(jié)構(gòu)化的文本成分需要采用特殊的處理方法對(duì)其進(jìn)行轉(zhuǎn)化。 文本挖掘(Text Mining)是一個(gè)從非結(jié)構(gòu)化文本信息中獲取用戶感興趣或者有用的模式的過(guò)程。其中被普遍認(rèn)可的文本挖掘定義如下: 文本挖掘是指從大量文本數(shù)據(jù)中抽取事先未知的、可理解的、最終可用的知識(shí)的過(guò)程,同時(shí)運(yùn)用這些知識(shí)更好地組織信息以便將來(lái)參考。 文本挖掘的主要用途是從原本未經(jīng)處理的文本中提取出未知的知識(shí),但是文本挖掘也是一項(xiàng)非常困難的工作,因?yàn)樗仨毺幚砟切┍緛?lái)就模糊而且非結(jié)構(gòu)化的文本數(shù)據(jù),所以它是一個(gè)多學(xué)科混雜的領(lǐng)域,涵蓋了信息技術(shù)、文本分析、模式識(shí)別、統(tǒng)計(jì)學(xué)、數(shù)據(jù)可視化、數(shù)據(jù)庫(kù)技術(shù)、機(jī)器學(xué)習(xí)以及數(shù)據(jù)挖掘等技術(shù) 。文本挖掘是從數(shù)據(jù)挖掘發(fā)展而來(lái),因此其定義與我們熟知的數(shù)據(jù)挖掘定義相類似。但與傳統(tǒng)的數(shù)據(jù)挖掘相比,文本挖掘有其獨(dú)特之處,主要表現(xiàn)在:文檔本身是半結(jié)構(gòu)化或非結(jié)構(gòu)化的,無(wú)確定形式并且缺乏機(jī)器可理解的語(yǔ)義;而數(shù)據(jù)挖掘的對(duì)象以數(shù)據(jù)庫(kù)中的結(jié)構(gòu)化數(shù)據(jù)為主,并利用關(guān)系表等存儲(chǔ)結(jié)構(gòu)來(lái)發(fā)現(xiàn)知識(shí)。因此,有些數(shù)據(jù)挖掘技術(shù)并不適用于文本挖掘,即使可用,也需要建立在對(duì)文本集預(yù)處理的基礎(chǔ)之上。 文本挖掘是應(yīng)用驅(qū)動(dòng)的。它在商業(yè)智能、信息檢索、生物信息處理等方面都有廣泛的應(yīng)用;例如,客戶關(guān)系管理,自動(dòng)郵件回復(fù),垃圾郵件過(guò)濾,自動(dòng)簡(jiǎn)歷評(píng)審,搜索引擎等等。 二、文本挖掘過(guò)程 有些人把文本挖掘視為另一常用術(shù)語(yǔ)文本知識(shí)發(fā)現(xiàn)(KDD)的同義詞,而另一些人只是把文本挖掘視為文本知識(shí)發(fā)現(xiàn)過(guò)程的一個(gè)基本步驟。文本知識(shí)發(fā)現(xiàn)主要由以下步驟組成: 1)文本預(yù)處理:選取任務(wù)相關(guān)的文本并將其轉(zhuǎn)化成文本挖掘工具可以處理的中間形式。 2)文本挖掘:在完成文本預(yù)處理后,可以利用機(jī)器學(xué)習(xí)、數(shù)據(jù)挖掘以及模式識(shí)別等方法提取面向特定應(yīng)用目標(biāo)的知識(shí)或模式。 3)模式評(píng)估與表示為最后一個(gè)環(huán)節(jié),是利用已經(jīng)定義好的評(píng)估指標(biāo)對(duì)獲取的知識(shí)或模式進(jìn)行評(píng)價(jià)。如果評(píng)價(jià)結(jié)果符合要求,就存儲(chǔ)該模式以備用戶使用;否則返回到前面的某個(gè)環(huán)節(jié)重新調(diào)整和改進(jìn),然后再進(jìn)行新一輪的發(fā)現(xiàn)。 如果把文本挖掘視為一個(gè)獨(dú)立的過(guò)程,則上面三個(gè)步驟可以細(xì)化為下圖表示:
三、文本挖掘關(guān)鍵技術(shù)及文本分類 文本轉(zhuǎn)換為向量形式并經(jīng)特征選擇以后,便可以進(jìn)行挖掘分析了。常用的文本挖掘分析技術(shù)有:文本結(jié)構(gòu)分析、文本摘要、文本分類、文本聚類、文本關(guān)聯(lián)分析、分布分析和趨勢(shì)預(yù)測(cè)等。文本分類是其中一種很關(guān)鍵的挖掘任務(wù)也是在文本信息處理領(lǐng)域用得最多的一種技術(shù)。下面做個(gè)簡(jiǎn)要介紹。 文本分類系統(tǒng)的任務(wù)是:在給定的分類體系下,根據(jù)文本的內(nèi)容自動(dòng)地確定文本關(guān)聯(lián)的類別。從數(shù)學(xué)角度來(lái)看,文本分類是一個(gè)映射的過(guò)程,它將未標(biāo)明類別的文本映射到已有的類別中,該映射可以是一一映射,也可以是一對(duì)多的映射,因?yàn)橥ǔR黄谋究梢酝鄠€(gè)類別相關(guān)聯(lián)。用數(shù)學(xué)公式表示如下: f : A->B A為待分類文本集,B為分類體系中的類別集合 文本分類的映射規(guī)則是系統(tǒng)根據(jù)已經(jīng)掌握的每類若干樣本的數(shù)據(jù)信息,總結(jié)出分類的規(guī)律性而建立的判別公式和判別規(guī)則。然后在遇到新文本時(shí),根據(jù)總結(jié)出的判別規(guī)則,確定文本相關(guān)的類別。 一般來(lái)講,文本分類需要四個(gè)步驟: 1)獲取訓(xùn)練文本集:訓(xùn)練文本集由一組經(jīng)過(guò)預(yù)處理的文本特征向量組成,每個(gè)訓(xùn)練文本(或稱訓(xùn)練樣本)有一個(gè)類別標(biāo)號(hào); 2)選擇分類方法并訓(xùn)練分類模型:文本分類方法有統(tǒng)計(jì)方法、機(jī)器學(xué)習(xí)方 法、神經(jīng)網(wǎng)絡(luò)方法等等。在對(duì)待分類樣本進(jìn)行分類前,要根據(jù)所選擇的分類方法,利用訓(xùn)練集進(jìn)行訓(xùn)練并得出分類模型; 3)用訓(xùn)練好的分類模型對(duì)其它待分類文本進(jìn)行分類; 4)根據(jù)分類結(jié)果評(píng)估分類模型。 下圖是一個(gè)完整的文本分類過(guò)程: 四、文本挖掘應(yīng)用 主要的應(yīng)用方向和系統(tǒng)有,詳細(xì)應(yīng)用及發(fā)展趨勢(shì)見(jiàn)本blog另外一篇文章《文本挖掘研究進(jìn)展及趨勢(shì)》: 1)基于內(nèi)容的搜索引擎,代表性的系統(tǒng)有北京大學(xué)天網(wǎng)、計(jì)算所的“天羅”、百度、慧聰?shù)裙镜乃阉饕妫? 2)信息自動(dòng)分類、自動(dòng)摘要、信息過(guò)濾等文本級(jí)應(yīng)用,如上海交通大學(xué)納訊公司的自動(dòng)摘要、復(fù)旦大學(xué)的文本分類,計(jì)算所基于聚類粒度原理VSM的智多星中文文本分類器 3)信息自動(dòng)抽取,即將Internet上大量的非結(jié)構(gòu)化的信息,抽取出格式化的數(shù)據(jù),以備進(jìn)一步的搜索應(yīng)用。目前是研究熱點(diǎn),至今還沒(méi)有實(shí)用的系統(tǒng); 4)自動(dòng)問(wèn)答、機(jī)器翻譯等需要更多自然語(yǔ)言處理和理解的應(yīng)用。 五、文本分類平臺(tái)及演示(略) |