在實(shí)際使用機(jī)器學(xué)習(xí)文本分類算法(比如lda, bayes, k-means)的過程中,會發(fā)現(xiàn)文檔的預(yù)處理非常重要,如果包含太多雜詞,則算法效果往往會大打折扣。預(yù)處理中,停用詞過濾是非常關(guān)鍵的一步,但就目前而言,并沒有完全自動(dòng)一步到位的實(shí)現(xiàn),而且針對不同領(lǐng)域停用詞可能還有變化。但是大體有些規(guī)律可以遵循,加上人工干預(yù),應(yīng)該能達(dá)到不錯(cuò)的效果。
下面是一些可行的停用詞過濾方法,供參考:
將訓(xùn)練集中的高頻和低頻詞匯找出,然后經(jīng)過人工干預(yù),提出認(rèn)為可用的詞,剩下即為停用詞。
如果一個(gè)詞在文檔集中出現(xiàn)的頻率太高,那么可以認(rèn)為這種詞不會具有太大的表征意義,可以過濾。而對于過于低頻的,也可以酌情丟掉。
可以歸類為run這個(gè)詞
4. 過濾包含數(shù)字,以及特殊字符的詞,比如:
hello'computer2
http://www.webconfs.com/stop-words.PHP
http://www.webconfs.com/stop-words.php
http://snowball.tartarus.org/algorithms/english/stop.txt
聯(lián)系客服