美女视频在线网站禁区,皮裤美女视频

【Python】文本分析

2017.06.06

依賴庫(kù)

pip install jieba
pip install matplotlib
pip install wordcloud
pip install snownlp

詞頻統(tǒng)計(jì)

# -*- coding: utf-8 -*-import jiebafrom wordcloud import WordCloudimport matplotlib.pyplot as plt# 加載自定義分詞字典jieba.load_userdict('news.txt')# 語(yǔ)料corpos = '美媒稱，鑒于全球石油市場(chǎng)過(guò)度供給的情況，中國(guó)原油需求下滑是其首要擔(dān)憂之一。過(guò)量生產(chǎn)拉低了石油價(jià)格，但是中國(guó)過(guò)去一年左右的疲弱需求引發(fā)了緩慢的回彈。'seg_list = jieba.cut(corpos)seg_list2 = jieba.cut(corpos)text = ' '.join(seg_list)# 詞頻統(tǒng)計(jì)segStat = {}for seg in seg_list2: if seg in segStat: segStat[seg] = 1 else: segStat[seg] = 1print segStat# 創(chuàng)建詞云wordcloud = WordCloud(font_path='D:\\PDM\\2.1\\simhei.ttf', background_color='black').generate(text)plt.imshow(wordcloud)plt.axis('off')plt.show()

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30

關(guān)鍵字提取

# -*- coding: utf-8 -*-import jieba.analyse# 語(yǔ)料corpos = '美媒稱，鑒于全球石油市場(chǎng)過(guò)度供給的情況，中國(guó)原油需求下滑是其首要擔(dān)憂之一。過(guò)量生產(chǎn)拉低了石油價(jià)格，但是中國(guó)過(guò)去一年左右的疲弱需求引發(fā)了緩慢的回彈。'# 設(shè)置停用詞jieba.analyse.set_stop_words('stop_words.txt')# 提取關(guān)鍵詞#tags = jieba.analyse.extract_tags(corpos, topK=5)tags = jieba.analyse.textrank(corpos, topK=5, withWeight=False, allowPOS=('ns', 'n', 'vn', 'v'))print(','.join(tags))

1
2
3
4
5
6
7
8
9
10
11
12
13
14

計(jì)算文章相似度

# -*- coding: utf-8 -*-import jieba.analysefrom snownlp import SnowNLPcorpos = u'美媒稱，鑒于全球石油市場(chǎng)過(guò)度供給的情況，中國(guó)原油需求下滑是其首要擔(dān)憂之一。過(guò)量生產(chǎn)拉低了石油價(jià)格，但是中國(guó)過(guò)去一年左右的疲弱需求引發(fā)了緩慢的回彈。'# 抽取文章關(guān)鍵詞tags = jieba.analyse.extract_tags(corpos, topK=5)text1 = []for tag in tags: text1.append(tag)print text1# 文章列表[[doc1],[doc2],[doc3]...]text = [text1,[u'文章',u'doc2'],[u'這是doc3']]text2 = text1s = SnowNLP(text)# 值越大越相似print s.sim(text2)# [1.8325582915371863, 0, 0]

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22

摘要提取

# -*- coding: utf-8 -*-from snownlp import SnowNLPtext1 = u'美媒稱，鑒于全球石油市場(chǎng)過(guò)度供給的情況，中國(guó)原油需求下滑是其首要擔(dān)憂之一。過(guò)量生產(chǎn)拉低了石油價(jià)格，但是中國(guó)過(guò)去一年左右的疲弱需求引發(fā)了緩慢的回彈。's = SnowNLP(text1)print s.summary(3)

1
2
3
4
5
6
7
8
9

本站僅提供存儲(chǔ)服務(wù)，所有內(nèi)容均由用戶發(fā)布，如發(fā)現(xiàn)有害或侵權(quán)內(nèi)容，請(qǐng)點(diǎn)擊舉報(bào)。

打開(kāi)APP，閱讀全文并永久保存查看更多類似文章

python安娜卡列妮娜詞云圖制作

手把手教你Python分詞工機(jī)具：安裝、使用和測(cè)試

用Python搞出自己的云詞圖

部分常用分詞工具使用整理

有哪些好的python用的中文自然語(yǔ)言包推薦？

WordCloud 中英文詞云圖繪制，看這一篇就夠了

更多類似文章 >>

中文字幕理论片,69视频免费在线观看,亚洲成人app,国产1级毛片,刘涛最大尺度戏视频,欧美亚洲美女视频,2021韩国美女仙女屋vip视频

依賴庫(kù)

詞頻統(tǒng)計(jì)

關(guān)鍵字提取

計(jì)算文章相似度

摘要提取