項目作者:Tae-Hwan Jung
機器之心編譯
自然語言處理路線圖詳解,從數(shù)學基礎(chǔ)、語言基礎(chǔ)到模型和算法,這是你該了解的知識領(lǐng)域。
自然語言處理很多時候都是一門綜合性的學問,它遠遠不止機器學習算法。相比圖像或語音,文本的變化更加復雜,例如從預處理來看,NLP 就要求我們根據(jù)對數(shù)據(jù)的理解定制一種流程。而且相比圖像等更偏向感知的智能,自然語言包含更高一級的智能能力,不論是承載思想、情感還是推理。
那么我們該怎樣學習自然語言處理,有什么比較好的路線嗎?通常而言,在數(shù)學和機器學習的基礎(chǔ)上,我們還需要了解自然語言的規(guī)則與現(xiàn)象,這樣才能進一步探討該怎樣處理自然語言。
本文介紹剛剛發(fā)布的一個開源項目,韓國慶熙大學本科生 Tae-Hwan Jung 總結(jié)了一套 NLP 的技術(shù)路線圖。值得注意的是,Tae-Hwan Jung 此前已經(jīng)開源了很多優(yōu)秀的項目,包括 4.3k+ star 量的 NLP 教程。
項目地址:https://github.com/graykode/nlp-roadmap
Tae-Hwan Jung 表示,本項目面向?qū)?NLP 感興趣的學生,該路線圖提供了學習 NLP 的思維導圖及關(guān)鍵詞信息,它覆蓋了從概率 / 統(tǒng)計到 SOTA NLP 模型的素材。
如上所示為 NLP 的技術(shù)基石,最基礎(chǔ)的當然還是數(shù)學和算法方面的知識,此外語言學和機器學習知識也必不可少。再往上主要是文本挖掘與 NLP,在作者看來,前者更偏向于常規(guī)的算法與淺層機器學習模型,后者更偏向于深度學習模型。
四大技術(shù)線路圖
如下從概率和統(tǒng)計到深度學習方法展示了四大技術(shù)路線圖,它們從基石到高層展示了完整的知識領(lǐng)域。
概率與統(tǒng)計
機器學習
文本挖掘
自然語言處理
注意:
關(guān)鍵詞之間的關(guān)系可能解釋得比較模糊,因為是以語義思維導圖的方式表示的。
讀者們只需要看方框內(nèi)的關(guān)鍵詞就行,把它們當作必學部分;
在一張圖中容納如此多的關(guān)鍵詞和知識點,非常的難,因此,請切記該路線圖只是一種思路或者建議;
聯(lián)系客服