大胸美女视频,杨幂唱歌的视频,美女视频网站入口

一個(gè)文本挖掘過(guò)程及案例--Focus　on　BI

2011.05.22

一個(gè)文本挖掘過(guò)程及案例　
[Nirvana 發(fā)表于 2007-4-23 23:34:00]

一、文本挖掘概念
    在現(xiàn)實(shí)世界中，可獲取的大部信息是以文本形式存儲(chǔ)在文本數(shù)據(jù)庫(kù)中的，由來(lái)自各種數(shù)據(jù)源的大量文檔組成，如新聞文檔、研究論文、書(shū)籍、數(shù)字圖書(shū)館、電子郵件和Web頁(yè)面。由于電子形式的文本信息飛速增漲，文本挖掘已經(jīng)成為信息領(lǐng)域的研究熱點(diǎn)。
    文本數(shù)據(jù)庫(kù)中存儲(chǔ)的數(shù)據(jù)可能是高度非結(jié)構(gòu)化的，如WWW上的網(wǎng)頁(yè);也可能是半結(jié)構(gòu)化的，如e-mail消息和一些XML網(wǎng)頁(yè):而其它的則可能是良結(jié)構(gòu)化的。良結(jié)構(gòu)化文本數(shù)據(jù)的典型代表是圖書(shū)館數(shù)據(jù)庫(kù)中的文檔，這些文檔可能包含結(jié)構(gòu)字段，如標(biāo)題、作者、出版日期、長(zhǎng)度、分類等等，也可能包含大量非結(jié)構(gòu)化文本成分，如摘要和內(nèi)容。通常，具有較好結(jié)構(gòu)的文本數(shù)據(jù)庫(kù)可以使用關(guān)系數(shù)據(jù)庫(kù)系統(tǒng)實(shí)現(xiàn)，而對(duì)非結(jié)構(gòu)化的文本成分需要采用特殊的處理方法對(duì)其進(jìn)行轉(zhuǎn)化。
    文本挖掘(Text Mining)是一個(gè)從非結(jié)構(gòu)化文本信息中獲取用戶感興趣或者有用的模式的過(guò)程。其中被普遍認(rèn)可的文本挖掘定義如下:
    文本挖掘是指從大量文本數(shù)據(jù)中抽取事先未知的、可理解的、最終可用的知識(shí)的過(guò)程，同時(shí)運(yùn)用這些知識(shí)更好地組織信息以便將來(lái)參考。
    文本挖掘的主要用途是從原本未經(jīng)處理的文本中提取出未知的知識(shí)，但是文本挖掘也是一項(xiàng)非常困難的工作,因?yàn)樗仨毺幚砟切┍緛?lái)就模糊而且非結(jié)構(gòu)化的文本數(shù)據(jù),所以它是一個(gè)多學(xué)科混雜的領(lǐng)域,涵蓋了信息技術(shù)、文本分析、模式識(shí)別、統(tǒng)計(jì)學(xué)、數(shù)據(jù)可視化、數(shù)據(jù)庫(kù)技術(shù)、機(jī)器學(xué)習(xí)以及數(shù)據(jù)挖掘等技術(shù) 。文本挖掘是從數(shù)據(jù)挖掘發(fā)展而來(lái)，因此其定義與我們熟知的數(shù)據(jù)挖掘定義相類似。但與傳統(tǒng)的數(shù)據(jù)挖掘相比，文本挖掘有其獨(dú)特之處，主要表現(xiàn)在:文檔本身是半結(jié)構(gòu)化或非結(jié)構(gòu)化的，無(wú)確定形式并且缺乏機(jī)器可理解的語(yǔ)義;而數(shù)據(jù)挖掘的對(duì)象以數(shù)據(jù)庫(kù)中的結(jié)構(gòu)化數(shù)據(jù)為主，并利用關(guān)系表等存儲(chǔ)結(jié)構(gòu)來(lái)發(fā)現(xiàn)知識(shí)。因此，有些數(shù)據(jù)挖掘技術(shù)并不適用于文本挖掘，即使可用，也需要建立在對(duì)文本集預(yù)處理的基礎(chǔ)之上。
    文本挖掘是應(yīng)用驅(qū)動(dòng)的。它在商業(yè)智能、信息檢索、生物信息處理等方面都有廣泛的應(yīng)用；例如，客戶關(guān)系管理，自動(dòng)郵件回復(fù)，垃圾郵件過(guò)濾，自動(dòng)簡(jiǎn)歷評(píng)審，搜索引擎等等。

二、文本挖掘過(guò)程
有些人把文本挖掘視為另一常用術(shù)語(yǔ)文本知識(shí)發(fā)現(xiàn)(KDD)的同義詞，而另一些人只是把文本挖掘視為文本知識(shí)發(fā)現(xiàn)過(guò)程的一個(gè)基本步驟。文本知識(shí)發(fā)現(xiàn)主要由以下步驟組成：

1)文本預(yù)處理:選取任務(wù)相關(guān)的文本并將其轉(zhuǎn)化成文本挖掘工具可以處理的中間形式。
2)文本挖掘:在完成文本預(yù)處理后，可以利用機(jī)器學(xué)習(xí)、數(shù)據(jù)挖掘以及模式識(shí)別等方法提取面向特定應(yīng)用目標(biāo)的知識(shí)或模式。
3)模式評(píng)估與表示為最后一個(gè)環(huán)節(jié)，是利用已經(jīng)定義好的評(píng)估指標(biāo)對(duì)獲取的知識(shí)或模式進(jìn)行評(píng)價(jià)。如果評(píng)價(jià)結(jié)果符合要求，就存儲(chǔ)該模式以備用戶使用;否則返回到前面的某個(gè)環(huán)節(jié)重新調(diào)整和改進(jìn)，然后再進(jìn)行新一輪的發(fā)現(xiàn)。
如果把文本挖掘視為一個(gè)獨(dú)立的過(guò)程，則上面三個(gè)步驟可以細(xì)化為下圖表示：

三、文本挖掘關(guān)鍵技術(shù)及文本分類
    文本轉(zhuǎn)換為向量形式并經(jīng)特征選擇以后,便可以進(jìn)行挖掘分析了。常用的文本挖掘分析技術(shù)有:文本結(jié)構(gòu)分析、文本摘要、文本分類、文本聚類、文本關(guān)聯(lián)分析、分布分析和趨勢(shì)預(yù)測(cè)等。文本分類是其中一種很關(guān)鍵的挖掘任務(wù)也是在文本信息處理領(lǐng)域用得最多的一種技術(shù)。下面做個(gè)簡(jiǎn)要介紹。
    文本分類系統(tǒng)的任務(wù)是：在給定的分類體系下，根據(jù)文本的內(nèi)容自動(dòng)地確定文本關(guān)聯(lián)的類別。從數(shù)學(xué)角度來(lái)看，文本分類是一個(gè)映射的過(guò)程，它將未標(biāo)明類別的文本映射到已有的類別中，該映射可以是一一映射，也可以是一對(duì)多的映射，因?yàn)橥ǔＲ黄谋究梢酝鄠€(gè)類別相關(guān)聯(lián)。用數(shù)學(xué)公式表示如下：
f : A->B A為待分類文本集，B為分類體系中的類別集合
    文本分類的映射規(guī)則是系統(tǒng)根據(jù)已經(jīng)掌握的每類若干樣本的數(shù)據(jù)信息，總結(jié)出分類的規(guī)律性而建立的判別公式和判別規(guī)則。然后在遇到新文本時(shí)，根據(jù)總結(jié)出的判別規(guī)則，確定文本相關(guān)的類別。
    一般來(lái)講，文本分類需要四個(gè)步驟:
1)獲取訓(xùn)練文本集:訓(xùn)練文本集由一組經(jīng)過(guò)預(yù)處理的文本特征向量組成，每個(gè)訓(xùn)練文本(或稱訓(xùn)練樣本)有一個(gè)類別標(biāo)號(hào);
2)選擇分類方法并訓(xùn)練分類模型:文本分類方法有統(tǒng)計(jì)方法、機(jī)器學(xué)習(xí)方法、神經(jīng)網(wǎng)絡(luò)方法等等。在對(duì)待分類樣本進(jìn)行分類前，要根據(jù)所選擇的分類方法，利用訓(xùn)練集進(jìn)行訓(xùn)練并得出分類模型;
3)用訓(xùn)練好的分類模型對(duì)其它待分類文本進(jìn)行分類;
4)根據(jù)分類結(jié)果評(píng)估分類模型。
下圖是一個(gè)完整的文本分類過(guò)程：

四、文本挖掘應(yīng)用
主要的應(yīng)用方向和系統(tǒng)有，詳細(xì)應(yīng)用及發(fā)展趨勢(shì)見(jiàn)本blog另外一篇文章《文本挖掘研究進(jìn)展及趨勢(shì)》：
1）基于內(nèi)容的搜索引擎，代表性的系統(tǒng)有北京大學(xué)天網(wǎng)、計(jì)算所的“天羅”、百度、慧聰?shù)裙镜乃阉饕妫?
2）信息自動(dòng)分類、自動(dòng)摘要、信息過(guò)濾等文本級(jí)應(yīng)用，如上海交通大學(xué)納訊公司的自動(dòng)摘要、復(fù)旦大學(xué)的文本分類，計(jì)算所基于聚類粒度原理VSM的智多星中文文本分類器
3）信息自動(dòng)抽取，即將Internet上大量的非結(jié)構(gòu)化的信息，抽取出格式化的數(shù)據(jù)，以備進(jìn)一步的搜索應(yīng)用。目前是研究熱點(diǎn)，至今還沒(méi)有實(shí)用的系統(tǒng)；
4）自動(dòng)問(wèn)答、機(jī)器翻譯等需要更多自然語(yǔ)言處理和理解的應(yīng)用。

五、文本分類平臺(tái)及演示（略）

本站僅提供存儲(chǔ)服務(wù)，所有內(nèi)容均由用戶發(fā)布，如發(fā)現(xiàn)有害或侵權(quán)內(nèi)容，請(qǐng)點(diǎn)擊舉報(bào)。

打開(kāi)APP，閱讀全文并永久保存查看更多類似文章

關(guān)于大數(shù)據(jù)四大方面的十五大關(guān)鍵技術(shù)詳解

小白聊智慧制造之十七：工業(yè)大數(shù)據(jù)是如何實(shí)現(xiàn)其價(jià)值的？

集體智慧理解集體智慧 (三)

大數(shù)據(jù)技術(shù)平臺(tái)的分類與選擇

大數(shù)據(jù)的概念、技術(shù)應(yīng)用與分析及數(shù)據(jù)的處理

文檔分塊的合理性在向量檢索中的重要性

更多類似文章 >>

中文字幕理论片,69视频免费在线观看,亚洲成人app,国产1级毛片,刘涛最大尺度戏视频,欧美亚洲美女视频,2021韩国美女仙女屋vip视频