我們羅列了一些常見的大廠NLP項目深度考察問題:
BERT模型太大了,而且效果發(fā)現(xiàn)不那么好比如next sentence prediction, 怎么辦?
文本生成評估指標,BLUE的缺點
loss設(shè)計 triplet loss和交叉熵loss各自的優(yōu)缺點,怎么選擇
attention機制
ernie模型
為什么使用lightGBM,比起xgboost的優(yōu)點是什么
樣本不均衡問題的解決辦法有哪些?具體項目中怎么做的?
長文本的處理
引入詞向量的相似性對于結(jié)果有什么不好的影響
如何引入知識圖譜
詞向量中很稀疏和出現(xiàn)未登錄詞,如何處理
kmeans的k怎么選擇
新詞發(fā)現(xiàn)怎么做
模型選取、數(shù)據(jù)增強
從數(shù)據(jù)標注的制定標準,到選取模型,再到改進模型、錯誤分析
NER數(shù)據(jù)中沒有實體標注的句子過多解決方式
同一句話兩個一樣字符串如何消岐
模型好壞的評估,如何衡量模型的性能
方面級情感分析的模型結(jié)構(gòu)
模型學(xué)習中,正負樣本的訓(xùn)練方式不同有什么影響
減輕特征工程的手段
你如果是一位面試候選人,上述問題你會“倒”在哪一關(guān)?
“實踐出真知”,只有動手實踐具體的項目,以解決問題為導(dǎo)向,在項目中理解技術(shù)本身,才能得到更深層次的理解。
你也許會在網(wǎng)絡(luò)中找到很多資源和論文、但我們面臨的問題并不是缺資源,而是找準資源并高效學(xué)習。很多時候你會發(fā)現(xiàn),花費大量的時間在零零散散的內(nèi)容上,但最后發(fā)現(xiàn)效率極低,浪費了很多寶貴的時間。
為了給初學(xué)者創(chuàng)造項目實踐的需求,我們向你推薦業(yè)界口碑俱佳的“NLP工程師培養(yǎng)計劃”的《自然語言處理項目集訓(xùn)營》第22期。
實踐項目介紹
本課程以實?為原則,通過10個產(chǎn)業(yè)級應(yīng)用項目,知識覆蓋了預(yù)訓(xùn)練、詞法分析、信息抽取等基礎(chǔ)知識,情感分析、知識圖譜與智能問答、機器翻譯、對話、文本自動生成等NLP應(yīng)?技術(shù)和系統(tǒng),掌握產(chǎn)業(yè)實踐中的模型部署等。
本課程將帶你全面掌握自然語言處理技術(shù),以期更好地幫助各位同學(xué)學(xué)以致用。通過完成一系列項目課題任務(wù),也有可能成為一個創(chuàng)業(yè)項目或者幫助你完成一次重要的技術(shù)轉(zhuǎn)型。
項目學(xué)習目標:
項目學(xué)習重點:
l 數(shù)據(jù)清洗、分詞、數(shù)據(jù)降噪
l 機器學(xué)習:TF-IDF/CounterVector
l 深度學(xué)習:Word2vec、Word Embedding、ELMo
l 機器學(xué)習:樸素貝葉斯/SVM
l 深度學(xué)習:TextCNN/TextRNN
項目學(xué)習目標:
項目學(xué)習重點:
l Jieba中文分詞處理
l 詞頻統(tǒng)計Wordcloud構(gòu)建詞云
l TF-IDF/TextRank關(guān)鍵詞提取
l LDA主題模型建模
l 中文分類機器學(xué)習模型
BOW/N-gram/TF-IDF/Word2vec文本表示
Word Embedding/ELMo文本表示
NB/LR/SVM等機器學(xué)習分類模型
l Spark:使用pyspark解決分類問題
l TextRNN、TextCNN、FastText
l TextBiRNN、TextRCNN、TextAttBiLSTM
l 深度學(xué)習文本分類HAN實戰(zhàn)
l Tensorflow深度學(xué)習文本分類模型部署
可求職崗位:
《自然語言處理項目集訓(xùn)營》第22期
? 智能客服 ? 知識圖譜 ? 文本生成
? 文本分類 ? 情感分析 ? 金融法律
10大項目,助你成長為優(yōu)秀的NLP工程師
項目學(xué)習目標:
學(xué)習NLP在用戶情感分析應(yīng)用中的解決方案,具體掌握:文本讀取與清洗、關(guān)鍵詞抽取(TF-IDF、TextRank)、中文分詞、文本表示(Word2vec、Word Embedding、ELMo)、機器學(xué)習建模(LR、SVM、樸素貝葉斯、Fast Text)、深度學(xué)習建模(TextCNN、TextRNN、Aattention Model)
情感分析常應(yīng)用于電商數(shù)據(jù)分析、市場分析、選舉預(yù)測、消費分析以及可視化分析等領(lǐng)域
項目學(xué)習重點:
l 自定義ELMo網(wǎng)絡(luò)結(jié)構(gòu)完成分類
l Bert模型訓(xùn)練
l Tensorflow serveringinxing部署
l TextCNN、Tide&textCNN以及Textdensenet模型融合
l Fast Text、TextCNN、TextRCNN、TextRNN模型融合
l 采用機器學(xué)習stacking方式:
構(gòu)造TF-IDF Stacking及統(tǒng)計特征
訓(xùn)練Doc2Vec模型
構(gòu)造Doc2Vec-DBOW stacking特征、Doc2Vec-DM stacking特征
訓(xùn)練Word2vec模型、構(gòu)造Word2vec特征
使用XGBoost結(jié)合特征進行交叉驗證
可求職崗位:
項目學(xué)習目標:
以不同場景的文本生成(詩詞小說文本生成、對聯(lián)生成、摘要生成等)為例,學(xué)習文本讀取與清洗、語言模型、seq2seq模型、注意力機制、自注意力機制與Transformer在文本生成中的作用。
項目學(xué)習重點:
Part1:詩歌生成
l 使用Tensorflow框架,自定義LSTM網(wǎng)絡(luò)結(jié)構(gòu)
l 谷歌開源、自定義seq2seq模型
l 雙向RNN, Attention注意力機制的解碼器
可求職崗位:
項目學(xué)習目標:
項目學(xué)習重點:
l 查看并清洗掉無關(guān)數(shù)據(jù)
l 理解數(shù)據(jù)與任務(wù)之間的聯(lián)系
l 選擇合適的機器學(xué)習算法進行建模
l 定義baseline模型、深度學(xué)習模型訓(xùn)練
l 添加人工特征進行最終優(yōu)化
l 復(fù)盤整個項目
可求職崗位:
項目學(xué)習目標:
項目學(xué)習重點:
Part1:智能問答系統(tǒng)構(gòu)建
l Jieba分詞
l Mysql數(shù)據(jù)庫存儲
l TF-IDF檢索模型
l 使用Doc2Vec模型進行問題匹配
l 深度語義匹配模型:DSSM、CDSSM、MV-DSSM
l 單語義文檔表達的深度學(xué)習模型ARC-I
l 多語義文檔表達的深度學(xué)習模型MV-LSTM
l 交互的文本相似度模型k-nrm
可求職崗位:
《自然語言處理項目集訓(xùn)營》第22期
? 智能客服 ? 知識圖譜 ? 文本生成
? 文本分類 ? 情感分析 ? 金融法律
10大項目,助你成長為優(yōu)秀的NLP工程師
項目學(xué)習目標:
深度學(xué)習領(lǐng)域中端到端方式構(gòu)建并改進的一系列NLP新模型應(yīng)用,如Transformer、Bert、ELECTRA等模型結(jié)合各大比賽案例進行講解如何應(yīng)用這些模型解決典型的分類任務(wù)、句對建模任務(wù)、知識抽取任務(wù)等。具體落地應(yīng)用場景一般有海量文本去重、推薦系統(tǒng)等。
項目學(xué)習重點:
Part1:經(jīng)典深度學(xué)習NLP建模
l 句子相似度判定Siamese Network
l 從神經(jīng)語言模型到預(yù)訓(xùn)練語言模型發(fā)展史
l 基于Transformer的文本分類
l Bert及其變種在情感分析中的應(yīng)用
l 新型模型ELECTRA及知識抽取案例講解
可求職崗位:
深度學(xué)習算法工程師、NLP算法工程師
項目學(xué)習目標:
以NLP中最重要的語義匹配建模為學(xué)習任務(wù),結(jié)合通用場景、金融領(lǐng)域場景、醫(yī)療領(lǐng)域場景,講解深度學(xué)習的各種模型在文本語義匹配建模任務(wù)中的解決方案。并結(jié)合場景數(shù)據(jù)講解在金融與醫(yī)療的垂直NLP應(yīng)用領(lǐng)域(如智能客服)中對應(yīng)的模型應(yīng)用方法。
項目學(xué)習重點:
l 文本匹配問題
l 問答、對話與信息檢索NLP核心技術(shù)
l 文本語義匹配場景:金融問答、閑聊、客服、問診等
l fancy-nlp、bert4keras工具庫
l 語義相似度建模場景數(shù)據(jù)格式介紹
l 孿生網(wǎng)絡(luò)結(jié)構(gòu)分析與網(wǎng)絡(luò)搭建
l 孿生網(wǎng)絡(luò)相似度建模解決方案
預(yù)處理、數(shù)據(jù)預(yù)處理與分析、數(shù)據(jù)增強
Word2vec、Word-embedding構(gòu)建
語義抽取子網(wǎng)絡(luò)搭建
孿生雙塔結(jié)構(gòu)搭建、不同損失函數(shù)構(gòu)建
模型訓(xùn)練與優(yōu)化、語義相似度度量與預(yù)估
l BERT句對建模網(wǎng)絡(luò)搭建與解決方案
l 平安醫(yī)療、支付寶/微信的金融語義匹配建模
預(yù)處理、數(shù)據(jù)預(yù)處理與分析、數(shù)據(jù)增強
NLP特征與業(yè)務(wù)文本特征
SiameseCNN、SiameseRNN模型搭建
Albert、SiameseBert句對建模方案與應(yīng)用
可求職崗位:
項目學(xué)習目標:
項目學(xué)習重點:
l 基于規(guī)則、特征模板、神經(jīng)網(wǎng)絡(luò)的NER方法
l 基于字的BiLSTM-CRF模型
l TextCNN
l PCNN抽取
結(jié)合Multi-Instance Learning
結(jié)合Sentence-Level Attention
l TextCNN+Position Enbedding
l 深度學(xué)習端到端的NER及關(guān)系抽取
l BiLSTM+CRF,Tree-LSTM
l 基于N-gram的匹配
l Mysql進行標注,neo4j進行全量查詢,
l Odps做持久化數(shù)據(jù)版本管理
面向崗位:
項目學(xué)習目標:
本項目學(xué)習知識圖譜構(gòu)建與應(yīng)用全過程,包括數(shù)據(jù)采集、知識存儲、知識抽取、知識計算、知識應(yīng)用,還基于知識圖譜構(gòu)建了交互問答系統(tǒng)。整個過程使用到了多種NLP技術(shù),從文本數(shù)據(jù)抽取與清洗、命名實體識別到用戶意圖識別,到實體關(guān)系抽取的系列模型,到問答與匹配技術(shù),以及neo4j工具的使用和圖挖掘的一些算法。
項目學(xué)習重點:
l 項目背景與項目內(nèi)容
l 數(shù)據(jù)采集與信息抽取
l 實體提取、實體關(guān)系抽取
l neo4j工具與圖數(shù)據(jù)庫進行圖計算
l 基于RDF三元組數(shù)據(jù)庫Apache Jena進行知識存儲
l Cypher語法與查詢語句知識
l 數(shù)值、類別、時序特征構(gòu)建與特征選擇
l 圖挖掘與圖譜知識挖掘
l Pyhanlp進行分詞與實體識別
l Feedforward-network意圖識別
l TextCNN/TextRNN/TextRCNN意圖識別
l 使用字典形式進行槽填充(slot filling)
l 網(wǎng)絡(luò)分析與路徑查詢
l 圖計算與社區(qū)發(fā)現(xiàn)
l 知識圖譜交互與可視化
l 實體與關(guān)系查詢功能頁面實現(xiàn)
l 基于圖譜的問答系統(tǒng)實現(xiàn)
面向崗位:
《自然語言處理項目集訓(xùn)營》第22期
? 智能客服 ? 知識圖譜 ? 文本生成
? 文本分類 ? 情感分析 ? 金融法律
10大項目,助你成長為優(yōu)秀的NLP工程師
業(yè)界獨創(chuàng)的服務(wù)模式
全天答疑,保證有問必答,作業(yè)1對1批改,考試1對1批改
免費提供GPU&CPU云平臺(GPU有額度免費時長)
作業(yè)和練習
課程每個重要的知識點后都配置了對應(yīng)的作業(yè)和練習,作業(yè)會得到助教的1V1批改反饋
學(xué)員收獲的offer
自本課程開設(shè)以來,已經(jīng)有一大批畢業(yè)學(xué)員入職NLP領(lǐng)域的互聯(lián)網(wǎng)公司、金融行業(yè)、科研院所、創(chuàng)業(yè)公司,甚至越來越的的傳統(tǒng)行業(yè)也開始注重AI技術(shù)的應(yīng)用如何在本行業(yè)中創(chuàng)造新的價值。下面是一部分學(xué)員的offer情況:
……左右滑動,觀看更多……
《自然語言處理項目集訓(xùn)營》第22期
? 智能客服 ? 知識圖譜 ? 文本生成
? 文本分類 ? 情感分析 ? 金融法律
10大項目,助你成長為優(yōu)秀的NLP工程師
適合什么樣的人?
機器學(xué)習或深度學(xué)習領(lǐng)域自學(xué)一段時間,停留在使用模型/工具上,有一定的算法理論基礎(chǔ),但非常缺乏NLP項目經(jīng)驗;
有一定的編程經(jīng)驗,想通過技術(shù)轉(zhuǎn)型進入NLP算法領(lǐng)域求職的,缺乏系統(tǒng)性學(xué)習;
非CS專業(yè)出身的本科或碩士生,希望獲得算法崗實習或校招崗位的,缺乏計算機編程經(jīng)驗和算法理論知識學(xué)習
科學(xué)的課程進度
為滿足不同基礎(chǔ)的學(xué)員可以循序漸進的系統(tǒng)化學(xué)習,本課程可以根據(jù)學(xué)員自身的知識儲備條件,選擇從哪個階段開始學(xué)習。完整的課程安排可以滿足沒有編程經(jīng)驗和算法基礎(chǔ)的學(xué)員通過5-6個月的高強度學(xué)習入門NLP技術(shù)。
階段一
Week1 |Python編程基礎(chǔ)
Week2-3 |Python數(shù)據(jù)分析
Week4 | 人工智能的數(shù)統(tǒng)概基礎(chǔ)
階段二
Week5-6 | 大數(shù)據(jù)技術(shù)
Week7-9|機器學(xué)習與深度學(xué)習的算法基礎(chǔ)與應(yīng)用
階段三
Week10-12|自然語言處理的算法基礎(chǔ)
階段四
Week13|項目1——語種識別器
Week13|項目2—新聞文本挖掘和分類(ML/DL)
Week14|項目3—ELMo、BERT情感分析與法律NLP應(yīng)用
Week15|項目4—文本自動生成
Week16|項目5—搜索引擎用戶畫像項目
階段五
Week17|項目6—智能客服與聊天機器人
Week18|項目7—最新深度學(xué)習NLP模型案例應(yīng)用
Week19|項目8—金融與醫(yī)療場景的語義匹配建模應(yīng)用項目
Week20|項目9—知識圖譜的實體與關(guān)系抽取
Week21|項目10—知識圖譜構(gòu)建與知識挖掘及問答系統(tǒng)
階段六
就業(yè)推薦與面試輔導(dǎo)
聯(lián)系客服