磐創(chuàng)AI分享
作者 | Abhijit Gupta
編譯 | VK
來源 | Towards Data Science
自然語言處理(NLP)是一個令人生畏的領(lǐng)域名稱。從非結(jié)構(gòu)化文本中生成有用的結(jié)論是很困難的,而且有無數(shù)的技術(shù)和算法,每一種都有自己的用例和復(fù)雜性。作為一個接觸NLP最少的開發(fā)人員,很難知道要使用哪些方法以及如何實現(xiàn)它們。
如果我以最小的努力提供盡量完美的結(jié)果。使用80/20原則,我將向你展示如何在不顯著犧牲結(jié)果(80%)的情況下快速(20%)交付解決方案。
?“80/20原則認為,少數(shù)的原因、投入或努力通常導致大多數(shù)結(jié)果、產(chǎn)出或回報”
-理查德·科赫,80/20原則的作者
?
我們將如何實現(xiàn)這一目標?有一些很棒的Python庫!我們可能站在巨人的肩膀上,迅速創(chuàng)新,而不是重新發(fā)明輪子。通過預(yù)先測試的實現(xiàn)和預(yù)訓練的模型,我們將專注于應(yīng)用這些方法并創(chuàng)造價值。
本文的目標讀者是希望將自然語言處理快速集成到他們的項目中的開發(fā)人員。在強調(diào)易用性和快速效果的同時,性能也會下降。根據(jù)我的經(jīng)驗,80%的技術(shù)對于項目來說是足夠的,但是也可以從其他地方尋找相關(guān)方法
不用多說了,我們開始吧!
自然語言處理是語言學、計算機科學和人工智能的一個分支領(lǐng)域,允許通過軟件自動處理文本。NLP使機器能夠閱讀、理解和響應(yīng)雜亂無章的非結(jié)構(gòu)化文本。
人們通常將NLP視為機器學習的一個子集,但實際情況更為微妙。
有些NLP工具依賴于機器學習,有些甚至使用深度學習。然而,這些方法往往依賴于大數(shù)據(jù)集,并且難以實現(xiàn)。相反,我們將專注于更簡單、基于規(guī)則的方法來加快開發(fā)周期。
從最小的數(shù)據(jù)單位開始,字符是單個字母、數(shù)字或標點符號。一個單詞是一個字符列表,一個句子是一個單詞列表。文檔是句子的列表,而語料庫是文檔的列表。
預(yù)處理可能是NLP項目中最重要的一步,它涉及到清理輸入,這樣模型就可以忽略噪聲,并將注意力集中在最重要的內(nèi)容上。一個強大的預(yù)處理管道將提高所有模型的性能,所以必須強調(diào)它的價值。
以下是一些常見的預(yù)處理步驟:
有關(guān)這些概念的更全面的介紹,請查看以下指南:
https://towardsdatascience.com/a-practitioners-guide-to-natural-language-processing-part-i-processing-understanding-text-9f4abfd13e72
這些步驟是成功的預(yù)處理的基礎(chǔ)。根據(jù)數(shù)據(jù)集和任務(wù)的不同,你可以跳過某些步驟或添加新步驟。通過預(yù)處理手動觀察數(shù)據(jù),并在出現(xiàn)問題時進行更正。
讓我們來看看NLP的兩個主要Python庫。這些工具將在預(yù)處理期間,占據(jù)非常大的作用
自然語言工具包是Python中使用最廣泛的NLP庫。NLTK是UPenn為學術(shù)目的而開發(fā)的,它有大量的特征和語料庫。NLTK非常適合處理數(shù)據(jù)和運行預(yù)處理:https://www.nltk.org/
NLTK是構(gòu)建Python程序以處理人類語言數(shù)據(jù)的領(lǐng)先平臺。它提供了易于使用的API
>>> import nltk
>>> sentence = 'At eight o'clock on Thursday morning Arthur didn't feel very good.'
>>> tokens = nltk.word_tokenize(sentence)
>>> tokens
['At', 'eight', 'o'clock', 'on', 'Thursday', 'morning', 'Arthur', 'did', 'n't', 'feel', 'very', 'good', '.']
>>> tagged = nltk.pos_tag(tokens)
>>> tagged[0:6]
[('At', 'IN'), ('eight', 'CD'), ('o'clock', 'JJ'), ('or', 'IN'), ('Thursday', 'NNP'), ('morning', 'NN')]
這是NLTK網(wǎng)站上的一個例子,它展示了標記句子和標記詞性是多么簡單。
SpaCy是一個現(xiàn)代的的庫。雖然NLTK對每個特性都有多個實現(xiàn),但是SpaCy保留性能最好的實現(xiàn)。Spacy支持多種功能,有關(guān)詳細信息,請閱讀文檔:https://spacy.io/
只需幾行代碼,我們就可以使用SpaCy執(zhí)行命名實體識別。使用SpaCy api可以快速完成許多其他任務(wù)。
import spacy
nlp = spacy.load('en_core_web_sm')
text = ('When Sebastian Thrun started working on self-driving cars at '
'Google in 2007, few people outside of the company took him seriously')
doc = nlp(text)
for entity in doc.ents:
print(entity.text, entity.label_)
# 輸出
# Sebastian Thrun
# 谷歌組織
# 2007日期
與NLTK和SpaCy不同,GenSim專門解決信息檢索(IR)問題。GenSim的開發(fā)重點是內(nèi)存管理,它包含許多文檔相似性模型,包括Latent Semantic Indexing、Word2Vec和FastText:https://github.com/RaRe-Technologies/gensim
Gensim是一個Python庫,用于主題模型、文檔索引和大型語料庫的相似性檢索:https://github.com/RaRe-Technologies/gensim
下面是一個預(yù)先訓練的GenSim Word2Vec模型的例子,它可以發(fā)現(xiàn)單詞的相似性。不用擔心那些雜亂無章的細節(jié),我們可以很快得到結(jié)果。
import gensim.downloader as api
wv = api.load('word2vec-google-news-300')
pairs = [
('car', 'minivan'), # 小型貨車是一種汽車
('car', 'bicycle'), # 也是有輪子的交通工具
('car', 'airplane'), # 沒有輪子,但仍然是交通工具
('car', 'cereal'), # ... 等等
('car', 'communism'),
]
for w1, w2 in pairs:
print('%r\t%r\t%.2f % (w1, w2, wv.similarity(w1, w2)))
# 輸出
# 'car' 'minivan' 0.69
# 'car' 'bicycle' 0.54
# 'car' 'airplane' 0.42
# 'car' 'cereal' 0.14
# 'car' 'communism' 0.06
這個列表并不全面,但涵蓋了一些用例。我建議檢查這個存儲庫以獲取更多的工具和參考:https://github.com/keon/awesome-nlp
既然我們已經(jīng)討論了預(yù)處理方法和Python庫,讓我們用幾個例子把它們放在一起。對于每種算法,我將介紹幾個NLP算法,根據(jù)我們的快速開發(fā)目標選擇一個,并使用其中一個庫創(chuàng)建一個簡單的實現(xiàn)。
預(yù)處理是任何NLP解決方案的關(guān)鍵部分,所以讓我們看看如何使用Python庫來加快處理速度。根據(jù)我的經(jīng)驗,NLTK擁有我們所需的所有工具,并針對獨特的用例進行定制。讓我們加載一個樣本語料庫:
import nltk
# 加載brown語料庫
corpus = nltk.corpus.brown
# 訪問語料庫的文件
print(corpus.fileids())
# 輸出
['ca01', 'ca02', 'ca03', 'ca04', 'ca05', 'ca06', 'ca07', 'ca08', 'ca09', 'ca10', 'ca11', 'ca12', 'ca13', 'ca14', 'ca15', 'ca16',
'ca17', 'ca18', 'ca19', 'ca20', 'ca21', 'ca22', 'ca23', 'ca24', 'ca25', 'ca26', 'ca27', 'ca28', 'ca29', 'ca30', 'ca31', 'ca32',
'ca33', 'ca34', 'ca35', 'ca36', 'ca37', 'ca38', 'ca39', 'ca40', 'ca41', 'ca42', 'ca43', 'ca44', 'cb01', 'cb02', 'cb03', 'c...
按照上面定義的管道,我們可以使用NLTK來實現(xiàn)分段、刪除標點和停用詞、執(zhí)行詞干化等等。看看刪除停用詞是多么容易:
from nltk.corpus import stopwords
sw = stopwords.words('english')
sw += '' # 空字符串
def remove_sw(doc):
sentences = []
for sentence in doc:
sentence = [word for word in sentence if word not in sw]
sentences.append(sentence)
return sentences
print('With Stopwords')
print(doc1[1])
print()
doc1 = remove_sw(doc1)
print('Without Stopwords')
print(doc1[1])
# 輸出
# 有停用詞
# ['the', 'jury', 'further', 'said', 'in', 'presentments', 'that', 'the', 'city', 'executive', 'committee', 'which', 'had',
# 'charge', 'of', 'the', 'election', 'deserves', 'the', 'praise', 'and', 'thanks', 'of', 'the', 'city', 'of', 'atlanta', 'for',
# 'the', 'manner', 'in', 'which', 'the', 'election', 'was', 'conducted']
# 沒有停用詞
# ['jury', 'said', 'presentments', 'city', 'executive', 'committee', 'charge', 'election', 'deserves', 'praise', 'thanks', 'city',
# 'atlanta', 'manner', 'election', 'conducted']
整個預(yù)處理管道占用了我不到40行Python。請參閱此處的完整代碼。記住,這是一個通用的示例,你應(yīng)該根據(jù)你的特定用例的需要修改流程。
文檔聚類是自然語言處理中的一個常見任務(wù),所以讓我們來討論一些方法。這里的基本思想是為每個文檔分配一個表示所討論主題的向量:
如果向量是二維的,我們可以像上面一樣可視化文檔。在這個例子中,我們看到文檔A和B是緊密相關(guān)的,而D和F是松散相關(guān)的。即使這些向量是3維、100維或1000維,使用距離度量的話,我們也可以計算相似性。
下一個問題是如何使用非結(jié)構(gòu)化文本輸入為每個文檔構(gòu)造這些向量。這里有幾個選項,從最簡單到最復(fù)雜的:
詞袋:為每個唯一的單詞分配一個索引。給定文檔的向量是每個單詞出現(xiàn)的頻率。
TF-IDF:根據(jù)單詞在其他文檔中的常見程度來加強表示。如果兩個文檔共享一個稀有單詞,則它們比共享一個公共單詞更相似。
潛在語義索引(LSI):詞袋和TF-IDF可以創(chuàng)建高維向量,這使得距離測量的準確性降低。LSI將這些向量壓縮到更易于管理的大小,同時最大限度地減少信息損失。
Word2Vec:使用神經(jīng)網(wǎng)絡(luò),從大型文本語料庫中學習單詞的關(guān)聯(lián)關(guān)系。然后將每個單詞的向量相加得到一個文檔向量。
Doc2Vec:在Word2Vec的基礎(chǔ)上構(gòu)建,但是使用更好的方法從單詞向量列表中近似文檔向量。
Word2Vec和Doc2Vec非常復(fù)雜,需要大量的數(shù)據(jù)集來學習單詞嵌入。我們可以使用預(yù)訓練過的模型,但它們可能無法很好地適應(yīng)領(lǐng)域內(nèi)的任務(wù)。相反,我們將使用詞袋、TF-IDF和LSI。
現(xiàn)在選擇我們的庫。GenSim是專門為這個任務(wù)而構(gòu)建的,它包含所有三種算法的簡單實現(xiàn),所以讓我們使用GenSim。
對于這個例子,讓我們再次使用Brown語料庫。它有15個文本類別的文檔,如“冒險”、“編輯”、“新聞”等。在運行我們的NLTK預(yù)處理例程之后,我們可以開始應(yīng)用GenSim模型。
首先,我們創(chuàng)建一個將標識映射到唯一索引的字典。
from gensim import corpora, models, similarities
dictionary = corpora.Dictionary(corpus)
dictionary.filter_n_most_frequent(1) # removes ''
num_words = len(dictionary)
print(dictionary)
print()
print('Most Frequent Words')
top10 = sorted(dictionary.cfs.items(), key=lambda x: x[1], reverse=True)[:10]
for i, (id, freq) in enumerate(top10):
print(i, freq, dictionary[id])
# 輸出
# Dictionary(33663 unique tokens: ['1', '10', '125', '15th', '16']...)
# 頻率最高的詞
# 0 3473 one
# 1 2843 would
# 2 2778 say
# 3 2327 make
# 4 1916 time
# 5 1816 go
# 6 1777 could
# 7 1665 new
# 8 1659 year
# 9 1575 take
接下來,我們迭代地應(yīng)用詞袋、TF-IDF和潛在語義索引:
corpus_bow = [dictionary.doc2bow(doc) for doc in corpus]
print(len(corpus_bow[0]))
print(corpus_bow[0][:20])
# 輸出
# 6106
# [(0, 1), (1, 3), (2, 1), (3, 1), (4, 1), (5, 1), (6, 1), (7, 1), (8, 1), (9, 2), (10, 1), (11, 1), (12, 2), (13, 2), (14, 2), (15,
# 1), (16, 2), (17, 2), (18, 3), (19, 1)]
tfidf_model = models.TfidfModel(corpus_bow)
corpus_tfidf = tfidf_model[corpus_bow]
print(len(corpus_tfidf[0]))
print(corpus_tfidf[0][:20])
# 輸出
# 5575
# [(0, 0.001040495879718581), (1, 0.0011016669638018743), (2, 0.002351365659027428), (3, 0.002351365659027428), (4,
# 0.0013108697793088472), (5, 0.005170600993729588), (6, 0.003391861538746009), (7, 0.004130105114011007), (8,
# 0.003391861538746009), (9, 0.008260210228022013), (10, 0.004130105114011007), (11, 0.001955787484706956), (12,
# 0.0015918258736505996), (13, 0.0015918258736505996), (14, 0.008260210228022013), (15, 0.0013108697793088472), (16,
# 0.0011452524080876978), (17, 0.002080991759437162), (18, 0.004839366251287288), (19, 0.0013108697793088472)]
lsi_model = models.LsiModel(corpus_tfidf, id2word=dictionary, num_topics=20)
corpus_lsi = lsi_model[corpus_tfidf]
print(len(corpus_lsi[0]))
print(corpus_lsi[0])
# 輸出
# 15
# [(0, 0.18682238167974372), (1, -0.4437583954806601), (2, 0.22275580411969662), (3, 0.06534575527078117), (4,
# -0.10021080420155845), (5, 0.06653745783577146), (6, 0.05025291839076259), (7, 0.7117552624193217), (8, -0.3768886513901333), (9,
# 0.1650380936828472), (10, 0.13664364557932132), (11, -0.03947144082104315), (12, -0.03177275640769521), (13,
# -0.00890543444745628), (14, -0.009715808633565214)]
在大約10行Python代碼中,我們處理了三個獨立的模型,并為文檔提取了向量表示。利用余弦相似度進行向量比較,可以找到最相似的文檔。
categories = ['adventure', 'belles_lettres', 'editorial', 'fiction', 'government',
'hobbies', 'humor', 'learned', 'lore', 'mystery', 'news', 'religion',
'reviews', 'romance', 'science_fiction']
num_categories = len(categories)
for i in range(3):
print(categories[i])
sims = index[lsi_model[corpus_bow[i]]]
top3 = sorted(enumerate(sims), key=lambda x: x[1], reverse=True,)[1:4]
for j, score in top3:
print(score, categories[j])
print()
# 輸出
# adventure
# 0.22929086 fiction
# 0.20346783 romance
# 0.19324714 mystery
# belles_lettres
# 0.3659389 editorial
# 0.3413822 lore
# 0.33065677 news
# editorial
# 0.45590898 news
# 0.38146105 government
# 0.2897901 belles_lettres
就這樣,我們有結(jié)果了!冒險小說和浪漫小說最為相似,而社論則類似于新聞和政府。在這里查看完整的代碼:https://github.com/avgupta456/medium_nlp/blob/master/Similarity.ipynb。
情感分析是將非結(jié)構(gòu)化文本解釋為正面、負面或中性。情感分析是分析評論、衡量品牌、構(gòu)建人工智能聊天機器人等的有用工具。
與文檔聚類不同,在情感分析中,我們不使用預(yù)處理。段落的標點符號、流程和上下文可以揭示很多關(guān)于情緒的信息,所以我們不想刪除它們。
為了簡單有效,我建議使用基于模式的情感分析。通過搜索特定的關(guān)鍵詞、句子結(jié)構(gòu)和標點符號,這些模型測量文本的積極消極性。以下是兩個帶有內(nèi)置情感分析器的庫:
「VADER」 是 Valence Aware Dictionary and sEntiment Recognizer的縮寫,是NLTK用于情感分析的擴展。它使用模式來計算情緒,尤其適用于表情符號和短信俚語。它也非常容易實現(xiàn)。
from vaderSentiment.vaderSentiment import SentimentIntensityAnalyzer
analyzer = SentimentIntensityAnalyzer()
print(analyzer.polarity_scores('This class is my favorite!!!'))
print(analyzer.polarity_scores('I hate this class :('))
# 輸出
# {'neg': 0.0, 'neu': 0.508, 'pos': 0.492, 'compound': 0.5962}
# {'neg': 0.688, 'neu': 0.312, 'pos': 0.0, 'compound': -0.765}
一個類似的工具是用于情感分析的TextBlob。TextBlob實際上是一個多功能的庫,類似于NLTK和SpaCy。在情感分析工具上,它與VADER在報告情感極性和主觀性方面都有所不同。從我個人的經(jīng)驗來看,我更喜歡VADER,但每個人都有自己的長處和短處。TextBlob也非常容易實現(xiàn):
from textblob import TextBlob
testimonial = TextBlob('This class is my favorite!!!')
print(testimonial.sentiment)
testimonial = TextBlob('I hate this class :(')
print(testimonial.sentiment)
# 輸出
# Sentiment(polarity=0.9765625, subjectivity=1.0)
# Sentiment(polarity=-0.775, subjectivity=0.95)
注意:基于模式的模型在上面的例子中不能很好地處理這樣的小文本。我建議對平均四句話的文本進行情感分析。要快速演示這一點,請參閱Jupyter Notebook:https://github.com/avgupta456/medium_nlp/blob/master/Sentiment.ipynb
聯(lián)系客服