最近開(kāi)始學(xué)習(xí)Python+NLTK自然語(yǔ)言處理,在此分享自己的學(xué)習(xí)經(jīng)驗(yàn),因?yàn)槭浅鯇W(xué),肯定有很多很多不懂的地方,發(fā)布此文章絕非為了顯示自己的水平,而是因?yàn)榫W(wǎng)絡(luò)上對(duì)NLTK的資料實(shí)在太少了,我就想分享一下自己的心得,也希望能夠得到更多高手的指點(diǎn),希望高手們發(fā)現(xiàn)不對(duì)的地方耐心指點(diǎn),切勿針?shù)h相對(duì),這樣會(huì)打擊小弟的學(xué)習(xí)動(dòng)力的,呵呵~
好了,開(kāi)始吧。
一、到NLTK的官網(wǎng)下載Python2.66(雖然Python已經(jīng)到3.0了,但是2.x的比較穩(wěn)定,兼容2.x的軟件也比較多一些)、PyYAML和NLTK。
下載地址:http://www.nltk.org/download
二、講這些都安裝好,然后運(yùn)行Python的IDE環(huán)境:
三、敲入下面的代碼,進(jìn)入NLTK數(shù)據(jù)源下載界面:
import nltknltk.download()
選擇all,設(shè)置好下載路徑(Download Directory),然后點(diǎn)擊Download,系統(tǒng)就開(kāi)始下載NLTK的數(shù)據(jù)包了,下載的時(shí)間比較漫長(zhǎng),大家要耐心等待。如果有個(gè)別數(shù)據(jù)包無(wú)法下載,你可以切換到All Packages標(biāo)簽頁(yè),雙擊指定的包來(lái)進(jìn)行下載:
如果都不行的話,你還可以直接到 http://nltk.googlecode.com/svn/trunk/nltk_data/index.xml 去下載數(shù)據(jù)包,只要將數(shù)據(jù)包復(fù)制到你的Download Directory目錄下即可。
四、安裝NLTK
form nltk.book import *
鍵入以上代碼可以得到圖中的顯示,就說(shuō)明NLTK數(shù)據(jù)包都安裝好了~
五、實(shí)踐。使用NLTK進(jìn)行字符串查詢
text1.concordance('monstrous')
說(shuō)明:
text1為NLTK數(shù)據(jù)包中的一段數(shù)據(jù)源,是一大串字符串。(原文在數(shù)據(jù)包下載目錄下的gutenberg.zip中的melville-moby_dick.txt)
text1.concordance('monstrous')這句話實(shí)現(xiàn)的是從這一大串字符串中找尋出包含monstrous這個(gè)單詞的語(yǔ)句。
好了,這就是NLTK的一個(gè)簡(jiǎn)單的應(yīng)用,自然語(yǔ)言的處理中查詢是一個(gè)很重要的操作,希望大家能好好了解一下本篇文章,還是那句話,我也是初學(xué),肯定有說(shuō)得不好的地方,希望大家多多指點(diǎn),但千萬(wàn)不要惡語(yǔ)相對(duì),謝謝。如果喜歡本文,請(qǐng)?jiān)诤竺媪魝€(gè)言哈~
聯(lián)系客服