中文字幕理论片,69视频免费在线观看,亚洲成人app,国产1级毛片,刘涛最大尺度戏视频,欧美亚洲美女视频,2021韩国美女仙女屋vip视频

打開(kāi)APP
userphoto
未登錄

開(kāi)通VIP,暢享免費(fèi)電子書(shū)等14項(xiàng)超值服

開(kāi)通VIP
一個(gè)文本挖掘過(guò)程及案例--Focus on BI
一個(gè)文本挖掘過(guò)程及案例 
[Nirvana 發(fā)表于 2007-4-23 23:34:00]

一、文本挖掘概念
    在現(xiàn)實(shí)世界中,可獲取的大部信息是以文本形式存儲(chǔ)在文本數(shù)據(jù)庫(kù)中的,由來(lái)自各種數(shù)據(jù)源的大量文檔組成,如新聞文檔、研究論文、書(shū)籍、數(shù)字圖書(shū)館、電子郵件和Web頁(yè)面。由于電子形式的文本信息飛速增漲,文本挖掘已經(jīng)成為信息領(lǐng)域的研究熱點(diǎn)。
    文本數(shù)據(jù)庫(kù)中存儲(chǔ)的數(shù)據(jù)可能是高度非結(jié)構(gòu)化的,如WWW上的網(wǎng)頁(yè);也可能是半結(jié)構(gòu)化的,如e-mail消息和一些XML網(wǎng)頁(yè):而其它的則可能是良結(jié)構(gòu)化的。良結(jié)構(gòu)化文本數(shù)據(jù)的典型代表是圖書(shū)館數(shù)據(jù)庫(kù)中的文檔,這些文檔可能包含結(jié)構(gòu)字段,如標(biāo)題、作者、出版日期、長(zhǎng)度、分類等等,也可能包含大量非結(jié)構(gòu)化文本成分,如摘要和內(nèi)容。通常,具有較好結(jié)構(gòu)的文本數(shù)據(jù)庫(kù)可以使用關(guān)系數(shù)據(jù)庫(kù)系統(tǒng)實(shí)現(xiàn),而對(duì)非結(jié)構(gòu)化的文本成分需要采用特殊的處理方法對(duì)其進(jìn)行轉(zhuǎn)化。
    文本挖掘(Text Mining)是一個(gè)從非結(jié)構(gòu)化文本信息中獲取用戶感興趣或者有用的模式的過(guò)程。其中被普遍認(rèn)可的文本挖掘定義如下:
    文本挖掘是指從大量文本數(shù)據(jù)中抽取事先未知的、可理解的、最終可用的知識(shí)的過(guò)程,同時(shí)運(yùn)用這些知識(shí)更好地組織信息以便將來(lái)參考。
    文本挖掘的主要用途是從原本未經(jīng)處理的文本中提取出未知的知識(shí),但是文本挖掘也是一項(xiàng)非常困難的工作,因?yàn)樗仨毺幚砟切┍緛?lái)就模糊而且非結(jié)構(gòu)化的文本數(shù)據(jù),所以它是一個(gè)多學(xué)科混雜的領(lǐng)域,涵蓋了信息技術(shù)、文本分析、模式識(shí)別、統(tǒng)計(jì)學(xué)、數(shù)據(jù)可視化、數(shù)據(jù)庫(kù)技術(shù)、機(jī)器學(xué)習(xí)以及數(shù)據(jù)挖掘等技術(shù) 。文本挖掘是從數(shù)據(jù)挖掘發(fā)展而來(lái),因此其定義與我們熟知的數(shù)據(jù)挖掘定義相類似。但與傳統(tǒng)的數(shù)據(jù)挖掘相比,文本挖掘有其獨(dú)特之處,主要表現(xiàn)在:文檔本身是半結(jié)構(gòu)化或非結(jié)構(gòu)化的,無(wú)確定形式并且缺乏機(jī)器可理解的語(yǔ)義;而數(shù)據(jù)挖掘的對(duì)象以數(shù)據(jù)庫(kù)中的結(jié)構(gòu)化數(shù)據(jù)為主,并利用關(guān)系表等存儲(chǔ)結(jié)構(gòu)來(lái)發(fā)現(xiàn)知識(shí)。因此,有些數(shù)據(jù)挖掘技術(shù)并不適用于文本挖掘,即使可用,也需要建立在對(duì)文本集預(yù)處理的基礎(chǔ)之上。
    文本挖掘是應(yīng)用驅(qū)動(dòng)的。它在商業(yè)智能、信息檢索、生物信息處理等方面都有廣泛的應(yīng)用;例如,客戶關(guān)系管理,自動(dòng)郵件回復(fù),垃圾郵件過(guò)濾,自動(dòng)簡(jiǎn)歷評(píng)審,搜索引擎等等。

二、文本挖掘過(guò)程
    有些人把文本挖掘視為另一常用術(shù)語(yǔ)文本知識(shí)發(fā)現(xiàn)(KDD)的同義詞,而另一些人只是把文本挖掘視為文本知識(shí)發(fā)現(xiàn)過(guò)程的一個(gè)基本步驟。文本知識(shí)發(fā)現(xiàn)主要由以下步驟組成:


 


1)文本預(yù)處理:選取任務(wù)相關(guān)的文本并將其轉(zhuǎn)化成文本挖掘工具可以處理的中間形式。
2)文本挖掘:在完成文本預(yù)處理后,可以利用機(jī)器學(xué)習(xí)、數(shù)據(jù)挖掘以及模式識(shí)別等方法提取面向特定應(yīng)用目標(biāo)的知識(shí)或模式。
3)模式評(píng)估與表示為最后一個(gè)環(huán)節(jié),是利用已經(jīng)定義好的評(píng)估指標(biāo)對(duì)獲取的知識(shí)或模式進(jìn)行評(píng)價(jià)。如果評(píng)價(jià)結(jié)果符合要求,就存儲(chǔ)該模式以備用戶使用;否則返回到前面的某個(gè)環(huán)節(jié)重新調(diào)整和改進(jìn),然后再進(jìn)行新一輪的發(fā)現(xiàn)。
    如果把文本挖掘視為一個(gè)獨(dú)立的過(guò)程,則上面三個(gè)步驟可以細(xì)化為下圖表示:
 


三、文本挖掘關(guān)鍵技術(shù)及文本分類
    文本轉(zhuǎn)換為向量形式并經(jīng)特征選擇以后,便可以進(jìn)行挖掘分析了。常用的文本挖掘分析技術(shù)有:文本結(jié)構(gòu)分析、文本摘要、文本分類、文本聚類、文本關(guān)聯(lián)分析、分布分析和趨勢(shì)預(yù)測(cè)等。文本分類是其中一種很關(guān)鍵的挖掘任務(wù)也是在文本信息處理領(lǐng)域用得最多的一種技術(shù)。下面做個(gè)簡(jiǎn)要介紹。
    文本分類系統(tǒng)的任務(wù)是:在給定的分類體系下,根據(jù)文本的內(nèi)容自動(dòng)地確定文本關(guān)聯(lián)的類別。從數(shù)學(xué)角度來(lái)看,文本分類是一個(gè)映射的過(guò)程,它將未標(biāo)明類別的文本映射到已有的類別中,該映射可以是一一映射,也可以是一對(duì)多的映射,因?yàn)橥ǔR黄谋究梢酝鄠€(gè)類別相關(guān)聯(lián)。用數(shù)學(xué)公式表示如下:
f : A->B A為待分類文本集,B為分類體系中的類別集合
    文本分類的映射規(guī)則是系統(tǒng)根據(jù)已經(jīng)掌握的每類若干樣本的數(shù)據(jù)信息,總結(jié)出分類的規(guī)律性而建立的判別公式和判別規(guī)則。然后在遇到新文本時(shí),根據(jù)總結(jié)出的判別規(guī)則,確定文本相關(guān)的類別。
    一般來(lái)講,文本分類需要四個(gè)步驟:
1)獲取訓(xùn)練文本集:訓(xùn)練文本集由一組經(jīng)過(guò)預(yù)處理的文本特征向量組成,每個(gè)訓(xùn)練文本(或稱訓(xùn)練樣本)有一個(gè)類別標(biāo)號(hào);
2)選擇分類方法并訓(xùn)練分類模型:文本分類方法有統(tǒng)計(jì)方法、機(jī)器學(xué)習(xí)方 法、神經(jīng)網(wǎng)絡(luò)方法等等。在對(duì)待分類樣本進(jìn)行分類前,要根據(jù)所選擇的分類方法,利用訓(xùn)練集進(jìn)行訓(xùn)練并得出分類模型;
3)用訓(xùn)練好的分類模型對(duì)其它待分類文本進(jìn)行分類;
4)根據(jù)分類結(jié)果評(píng)估分類模型。
下圖是一個(gè)完整的文本分類過(guò)程:
 

四、文本挖掘應(yīng)用
    主要的應(yīng)用方向和系統(tǒng)有,詳細(xì)應(yīng)用及發(fā)展趨勢(shì)見(jiàn)本blog另外一篇文章《文本挖掘研究進(jìn)展及趨勢(shì)》:
1)基于內(nèi)容的搜索引擎,代表性的系統(tǒng)有北京大學(xué)天網(wǎng)、計(jì)算所的“天羅”、百度、慧聰?shù)裙镜乃阉饕妫?
2)信息自動(dòng)分類、自動(dòng)摘要、信息過(guò)濾等文本級(jí)應(yīng)用,如上海交通大學(xué)納訊公司的自動(dòng)摘要、復(fù)旦大學(xué)的文本分類,計(jì)算所基于聚類粒度原理VSM的智多星中文文本分類器
3)信息自動(dòng)抽取,即將Internet上大量的非結(jié)構(gòu)化的信息,抽取出格式化的數(shù)據(jù),以備進(jìn)一步的搜索應(yīng)用。目前是研究熱點(diǎn),至今還沒(méi)有實(shí)用的系統(tǒng);
4)自動(dòng)問(wèn)答、機(jī)器翻譯等需要更多自然語(yǔ)言處理和理解的應(yīng)用。

五、文本分類平臺(tái)及演示(略)

本站僅提供存儲(chǔ)服務(wù),所有內(nèi)容均由用戶發(fā)布,如發(fā)現(xiàn)有害或侵權(quán)內(nèi)容,請(qǐng)點(diǎn)擊舉報(bào)。
打開(kāi)APP,閱讀全文并永久保存 查看更多類似文章
猜你喜歡
類似文章
關(guān)于大數(shù)據(jù)四大方面的十五大關(guān)鍵技術(shù)詳解
小白聊智慧制造之十七:工業(yè)大數(shù)據(jù)是如何實(shí)現(xiàn)其價(jià)值的?
集體智慧 理解集體智慧 (三)
大數(shù)據(jù)技術(shù)平臺(tái)的分類與選擇
大數(shù)據(jù)的概念、技術(shù)應(yīng)用與分析及數(shù)據(jù)的處理
文檔分塊的合理性在向量檢索中的重要性
更多類似文章 >>
生活服務(wù)
熱點(diǎn)新聞
分享 收藏 導(dǎo)長(zhǎng)圖 關(guān)注 下載文章
綁定賬號(hào)成功
后續(xù)可登錄賬號(hào)暢享VIP特權(quán)!
如果VIP功能使用有故障,
可點(diǎn)擊這里聯(lián)系客服!

聯(lián)系客服