注：Steven Bird，愛(ài)丁堡大學(xué)博士，墨爾本大學(xué)副教授。
http://www.stevenbird.net/about.html

Ewan Klein，蘇格蘭人，哥倫比亞大學(xué)博士（1978年），愛(ài)丁堡大學(xué)教授。

Edward Loper，賓夕法尼亞大學(xué)博士。

https://mp.weixin.qq.com/s/0HmsMytif3INqAX1Si5ukA

推薦5本經(jīng)典自然語(yǔ)言處理書(shū)籍

網(wǎng)站

http://www.52nlp.cn/

一個(gè)自然語(yǔ)言處理愛(ài)好者的群體博客。包括52nlp、rickjin、liwei等國(guó)內(nèi)外華人大牛。

http://www.shareditor.com/bloglistbytag/?tagname=%E8%87%AA%E5%B7%B1%E5%8A%A8%E6%89%8B%E5%81%9A%E8%81%8A%E5%A4%A9%E6%9C%BA%E5%99%A8%E4%BA%BA

實(shí)戰(zhàn)課程：自己動(dòng)手做聊天機(jī)器人

http://www.icst.pku.edu.cn/lcwm/

北京大學(xué)計(jì)算機(jī)科學(xué)技術(shù)研究所語(yǔ)言計(jì)算與互聯(lián)網(wǎng)挖掘研究室

https://github.com/rockingdingo/deepnlp

NLP深度學(xué)習(xí)方面的代碼庫(kù)

https://liweinlp.com/

NLP專(zhuān)家李維的blog

http://www.shuang0420.com/

一個(gè)NLP方面的blog

http://www.cnblogs.com/Determined22/

一個(gè)DL+ML+NLP的blog

http://www.cnblogs.com/robert-dlut/

一個(gè)NLP方面的blog

https://blog.csdn.net/wangxinginnlp

一個(gè)NLP方面的blog

工具

Natural Language Toolkit(NLTK)

官網(wǎng)：

http://www.nltk.org/

可使用nltk.download()下載相關(guān)nltk官方提供的各種資源。

參考：

http://www.cnblogs.com/baiboy/p/nltk3.html

THUCTC

THUCTC(THU Chinese Text Classification)是由清華大學(xué)自然語(yǔ)言處理實(shí)驗(yàn)室推出的中文文本分類(lèi)工具包。

http://thuctc.thunlp.org/

gensim

gensim是Python語(yǔ)言的計(jì)算文本相似度的程序包。

http://radimrehurek.com/gensim/index.html

pip install --upgrade gensim

GitHub：

https://github.com/RaRe-Technologies/gensim

參考：

http://www.open-open.com/lib/view/open1444351655682.html

情感分析的新方法——基于Word2Vec/Doc2Vec/Python

http://blog.csdn.net/Star_Bob/article/details/47808499

Gensim Word2vec使用教程

GloVe

GloVe:Global Vectors for Word Representation

https://nlp.stanford.edu/projects/glove/

textsum

textsum是一個(gè)基于深度學(xué)習(xí)的文本自動(dòng)摘要工具。

代碼：

https://github.com/tensorflow/models/tree/master/textsum

參考：

http://www.jiqizhixin.com/article/1449

谷歌開(kāi)源新的TensorFlow文本自動(dòng)摘要代碼

http://blog.csdn.net/tensorflowshizhan/article/details/69230070

TensorFlow文本摘要生成 - 基于注意力的序列到序列模型

jieba

https://github.com/fxsjy/jieba

NLPIR

NLPIR漢語(yǔ)分詞系統(tǒng)(又名ICTCLAS2013)，是中科院張華平博士的作品。官網(wǎng)：

http://ictclas.nlpir.org/

參考：

http://ictclas.nlpir.org/nlpir/

這個(gè)網(wǎng)頁(yè)對(duì)于NLP的大多數(shù)功能進(jìn)行了可視化的展示。NLP入門(mén)必看。

snownlp

https://github.com/isnowfy/snownlp

HanLP

HanLP是一個(gè)目前留學(xué)日本的中國(guó)學(xué)生的作品。

官網(wǎng)：

http://hanlp.linrunsoft.com/

作者blog：

http://www.hankcs.com/

Github：

https://github.com/hankcs/HanLP/

從作者的名氣來(lái)說(shuō)，HanLP無(wú)疑是最低的，性能也不見(jiàn)得有多好。然而對(duì)于初學(xué)者來(lái)說(shuō)，這卻是最適合的工具。這主要體現(xiàn)在以下幾個(gè)方面：

1.中文處理能力。NLTK和OpenNLP對(duì)中文支持非常差，這里不光是中文分詞的問(wèn)題，有些NLP算法需要一定的語(yǔ)言模型數(shù)據(jù)，但瀏覽NLTK官方的模型庫(kù)，基本找不到中文模型數(shù)據(jù)。

2.jieba、IK之類(lèi)的功能太單一，多數(shù)局限在中文分詞方面領(lǐng)域。gensim、THUCTC專(zhuān)注于NLP的某一方面，也不是通用工具。

3.NLPIR和Stanford CoreNLP算是功能最強(qiáng)的工具包了。前者的問(wèn)題在于收費(fèi)不開(kāi)源，后者的問(wèn)題在于缺少中文文檔。FudanNLP的相關(guān)文檔較少，文檔友好度不如HanLP。

4.HanLP在主頁(yè)上提供了相關(guān)算法的blog，便于初學(xué)者快速掌握相關(guān)概念。其詞典是明文發(fā)布，便于用戶(hù)修改。HanLP執(zhí)行時(shí)，會(huì)將明文詞典以特定結(jié)構(gòu)緩存，以提高執(zhí)行效率。

注：不要以為中文有分詞問(wèn)題，就比別的語(yǔ)言復(fù)雜，英文還有詞根問(wèn)題呢。。。每種語(yǔ)言都不簡(jiǎn)單。

AllenNLP

AllenNLP是Allen AI實(shí)驗(yàn)室的作品，采用深度學(xué)習(xí)技術(shù)，基于PyTorch開(kāi)發(fā)。

官網(wǎng)：

http://allennlp.org/

Allen AI實(shí)驗(yàn)室由微軟聯(lián)合創(chuàng)始人Paul G. Allen投資創(chuàng)立。

官網(wǎng)：

http://allenai.org/

其他

https://github.com/mozillazg/python-pinyin

python版的漢字轉(zhuǎn)拼音軟件

https://github.com/ysc/word

Java分布式中文分詞組件-word分詞

http://jena.apache.org/

jena是一個(gè)語(yǔ)義網(wǎng)絡(luò)、知識(shí)圖譜相關(guān)的軟件。

NLPchina

NLPchina(中國(guó)自然語(yǔ)言處理開(kāi)源組織)旗下有許多好用的工具。

官網(wǎng)：

http://www.nlpcn.org/

Github：

https://github.com/NLPchina

Ansj

Ansj是一個(gè)NLPchina旗下的開(kāi)源的Java中文分詞工具，基于中科院的ictclas中文分詞算法，比其他常用的開(kāi)源分詞工具（如mmseg4j）的分詞準(zhǔn)確率更高。

https://github.com/NLPchina/ansj_seg

Word2VEC_java

word2vec java版本的一個(gè)實(shí)現(xiàn)。

https://github.com/NLPchina/Word2VEC_java

doc2vec java版本的一個(gè)實(shí)現(xiàn)，基于Word2VEC_java。

https://github.com/yao8839836/doc2vec_java

ansj_fast_lda

LDA算法的Java包。

https://github.com/NLPchina/ansj_fast_lda

nlp-lang

這個(gè)項(xiàng)目是一個(gè)基本包.封裝了大多數(shù)nlp項(xiàng)目中常用工具

https://github.com/NLPchina/nlp-lang

詞性標(biāo)注

http://jacoxu.com/ictpos3-0%E6%B1%89%E8%AF%AD%E8%AF%8D%E6%80%A7%E6%A0%87%E8%AE%B0%E9%9B%86/

ICTPOS3.0漢語(yǔ)詞性標(biāo)記集

Word Hashing

Word Hashing是非常重要的一個(gè)trick，以英文單詞來(lái)說(shuō)，比如good，他可以寫(xiě)成#good#，然后按tri-grams來(lái)進(jìn)行分解為#go goo ood od#，再將這個(gè)tri-grams灌入到bag-of-word中，這種方式可以非常有效的解決vocabulary太大的問(wèn)題(因?yàn)樵谡鎸?shí)的web search中vocabulary就是異常的大)，另外也不會(huì)出現(xiàn)oov問(wèn)題，因此英文單詞才26個(gè)，3個(gè)字母的組合都是有限的，很容易枚舉光。

那么問(wèn)題就來(lái)了，這樣兩個(gè)不同的單詞會(huì)不會(huì)產(chǎn)出相同的tri-grams，paper里面做了統(tǒng)計(jì)，說(shuō)了這個(gè)沖突的概率非常的低，500K個(gè)word可以降到30k維，沖突的概率為0.0044%。

但是在中文場(chǎng)景下，這個(gè)Word Hashing估計(jì)沒(méi)有這么有效了。