【導(dǎo)讀】:隨著人工智能的再次興起,尤其是深度學(xué)習(xí)的成功應(yīng)用,自然語(yǔ)言處理(NLP)也逐漸受到了科研研所、高校以及相關(guān)企業(yè)的關(guān)注,也成為了人工智能重點(diǎn)研究的課題之一。NLP 的主要目標(biāo)是解決人機(jī)對(duì)話中的各種困難,使得計(jì)算機(jī)能夠理解人類的語(yǔ)言,讓用戶能用自己的語(yǔ)言與計(jì)算機(jī)溝通。
最近幾年 NLP 的高速發(fā)展,其相關(guān)技術(shù)和應(yīng)用都取得輝煌的成績(jī),清華大學(xué)的 Aminer 團(tuán)隊(duì)在 2018 年 7 月發(fā)布了 NLP 研究報(bào)告,從 NLP 的概念、技術(shù)、人才、應(yīng)用以及發(fā)展趨勢(shì)五個(gè)方面總結(jié) NLP 的發(fā)展歷程和所取得成績(jī)。那么,在過(guò)去這一年中,NLP 取得了哪些發(fā)展呢?
提到 2018 年自然語(yǔ)言處理(NLP)的成就,BERT 將會(huì)首先映入眼簾,其性能橫掃了多種不同的 NLP 測(cè)試,被譽(yù)為 NLP 新時(shí)代的開端。然而,2018 年并不是只有 BERT,無(wú)論是學(xué)術(shù)研究還是在企業(yè)應(yīng)用,同樣還有許多激動(dòng)人心的想法和讓人眼前一亮的應(yīng)用。本文是 AI 前線年終盤點(diǎn)自然語(yǔ)言處理專題系列文章之技術(shù)與應(yīng)用篇,我們將逐一盤點(diǎn)和總結(jié)這些想法和應(yīng)用。
更多優(yōu)質(zhì)內(nèi)容請(qǐng)關(guān)注「AI 應(yīng)用前沿」
學(xué)術(shù)研究是技術(shù)發(fā)展的先行者,我們首先來(lái)看看 2018 年 NLP 學(xué)術(shù)研究都有哪些令人激動(dòng)的想法。愛(ài)爾蘭的 NLP 研究科學(xué)家 Sebastian Ruder 盤點(diǎn)了 2018 年 NLP 領(lǐng)域的十大想法,在保留其原文的框架基礎(chǔ)上,我們對(duì)內(nèi)容進(jìn)行了重新編輯和補(bǔ)充。
1) 無(wú)監(jiān)督機(jī)器翻譯(Unsupervised MT)
EMNLP 2018 上,Guillaume Lample 等人提煉出了無(wú)監(jiān)督機(jī)器翻譯的三個(gè)關(guān)鍵方法:良好的初始化、語(yǔ)言建模和逆向任務(wù)建模 (通過(guò)反向翻譯),大幅改進(jìn)了之前的研究方法,無(wú)監(jiān)督機(jī)器翻譯獲得了重大進(jìn)展。這三個(gè)方法在其他無(wú)監(jiān)督場(chǎng)景中也有用。逆向任務(wù)建模可以增強(qiáng)循環(huán)一致性,這種一致性已經(jīng)在不同的方法中得到應(yīng)用,在 CycleGAN 中最為突出。
2) 預(yù)訓(xùn)練語(yǔ)言模型(Pretrained language models)
這是 NLP 領(lǐng)域今年最重要的發(fā)展趨勢(shì)。有很多令人難忘的方法:ELMo、ULMFiT、OpenAI Transformer 和 BERT。這里主要介紹 ELMo 和 BERT 兩個(gè)模型。ELMo(語(yǔ)言模型的詞嵌入):出自艾倫人工智能研究院和華盛頓大學(xué)的論文“Deep contextualized word representations”,NLP 頂會(huì) NAACL HLT 2018 的優(yōu)秀論文之一,受到了廣泛好評(píng)。ELMo 用語(yǔ)言模型來(lái)獲取詞嵌入,同時(shí)也把詞語(yǔ)所處句、段的語(yǔ)境考慮進(jìn)來(lái)。這種語(yǔ)境化的詞語(yǔ)表示,能夠體現(xiàn)一個(gè)詞在語(yǔ)法語(yǔ)義用法上的復(fù)雜特征,也能體現(xiàn)它在不同語(yǔ)境下如何變化。除了實(shí)證結(jié)果令人印象深刻之外,最引人注目的是論文的分析部分,它剔除了各種因素的影響,并對(duì)在表征中捕獲的信息進(jìn)行了分析。詞義消歧分析執(zhí)行得很好。兩者都表明了,語(yǔ)言模型提供的詞義消歧和詞性標(biāo)注表現(xiàn)都接近最先進(jìn)的水平。
BERT: 它由 Google 推出,全稱是 Bidirectional Encoder Representations from Transformers,意思是來(lái)自 Transformer 的雙向編碼器表示,也是一種預(yù)訓(xùn)練語(yǔ)言表示的方法。BERT 模型沿襲了 GPT 模型的結(jié)構(gòu),采用 Transfomer 的編碼器作為主體模型結(jié)構(gòu)。Transformer 舍棄了 RNN 的循環(huán)式網(wǎng)絡(luò)結(jié)構(gòu),完全基于注意力機(jī)制來(lái)對(duì)一段文本進(jìn)行建模。模型的主要?jiǎng)?chuàng)新點(diǎn)都在 pre-train 方法上,即用了 Masked LM 和 Next Sentence Prediction 兩種方法分別捕捉詞語(yǔ)和句子級(jí)別的 representation。從性能上來(lái)看,沒(méi)有哪個(gè)模型能與 BERT 一戰(zhàn)。目前,BERT 在 11 項(xiàng) NLP 任務(wù)上都取得了最頂尖成績(jī)。
3) 常識(shí)推理數(shù)據(jù)集(Common sense inference datasets)
將常識(shí)融入到模型中,是 NLP 最重要的前進(jìn)方向之一。然而,創(chuàng)建一個(gè)好的數(shù)據(jù)集并不容易,即便是流行的數(shù)據(jù)集,也存在很大的偏差。而來(lái)自于華盛頓大學(xué) Event2Mind 和 SWAG 試圖教模型一些常識(shí),雖然 SWAG 很快被 BERT 超越了,但依然是一個(gè)很重要的想法。例如首個(gè)視覺(jué) QA 數(shù)據(jù)集“Visual Commonsense Reasoning”,每個(gè)答案都包含對(duì)答案的解釋,且每個(gè)問(wèn)題需要復(fù)雜的推理。創(chuàng)作者想盡辦法解決可能存在的偏差,確保每個(gè)答案的正確率為 25% (每個(gè)答案在整個(gè)數(shù)據(jù)集中出現(xiàn) 4 次,錯(cuò)誤答案出現(xiàn) 3 次,正確答案出現(xiàn) 1 次)。在創(chuàng)建數(shù)據(jù)集的過(guò)程中,需要使用計(jì)算相關(guān)性和相似性的模型來(lái)解決約束優(yōu)化問(wèn)題,以防止可能出現(xiàn)的偏差會(huì)成為一個(gè)常識(shí)。
4) 元學(xué)習(xí)(Meta-learning)
元學(xué)習(xí)在少樣本學(xué)習(xí)、強(qiáng)化學(xué)習(xí)和機(jī)器人學(xué)習(xí)中得到了廣泛的應(yīng)用,最突出的例子是與模型無(wú)關(guān)的元學(xué)習(xí) ( MAML )。但在 NLP 領(lǐng)域,元學(xué)習(xí)很少有成功的應(yīng)用。其實(shí)在解決樣本數(shù)量有限的問(wèn)題上,元學(xué)習(xí)非常有用,尤其是將多語(yǔ)言遷移學(xué)習(xí) (如多語(yǔ)言 BERT )、無(wú)監(jiān)督學(xué)習(xí)和元學(xué)習(xí)相結(jié)合起來(lái)的時(shí)候,這是一個(gè)非常有希望取得進(jìn)展的方向。發(fā)表于 EMNLP 2018 上的論文“Meta-Learning for Low-Resource Neural Machine Translation”就使用了 MAML,即將每一種“語(yǔ)言對(duì) ”都視為單獨(dú)的元任務(wù)。在 NLP 領(lǐng)域,用來(lái)適應(yīng)資源較少的語(yǔ)言,可能是元學(xué)習(xí)的最佳用武之地了。
5) 穩(wěn)健的無(wú)監(jiān)督方法(Robust unsupervised methods)
在遷移學(xué)習(xí)中,源和目標(biāo)設(shè)置之間的差異 (例如,領(lǐng)域適應(yīng)、持續(xù)學(xué)習(xí)和多任務(wù)學(xué)習(xí)中的任務(wù)) 會(huì)導(dǎo)致模型的效果變差或崩潰。即當(dāng)語(yǔ)言不相似時(shí),無(wú)監(jiān)督的跨語(yǔ)言單詞嵌入方法會(huì)導(dǎo)致模型崩潰。面對(duì)這種變化時(shí),如何讓模型更加穩(wěn)健是很重要的。ACL 2018 的論文“A robust self-learning method for fully unsupervised cross-lingual mappings of word embeddings” 利用他們對(duì)問(wèn)題的理解來(lái)設(shè)計(jì)更好的初始化,而不是將元學(xué)習(xí)應(yīng)用到初始化上。比較亮眼的是,他們將兩種語(yǔ)言中分布相似的單詞配對(duì)。這一個(gè)例子證明了可以利用領(lǐng)域?qū)I(yè)知識(shí)和分析見(jiàn)解使模型更加穩(wěn)健。
6) 理解表征(Understanding representations)
為了更好地理解表征,研究者已經(jīng)做了很多努力。特別是“診斷分類器”(diagnostic classifiers)(旨在測(cè)量學(xué)習(xí)到的表征能否預(yù)測(cè)某些屬性的任務(wù)) 已經(jīng)變得非常普遍了。在理解表征方面,EMNLP 2018 上論文“Dissecting Contextual Word Embeddings: Architecture and Representation” 精心設(shè)計(jì)的無(wú)監(jiān)督和有監(jiān)督的任務(wù)中對(duì)單詞和跨度表征進(jìn)行了廣泛的研究學(xué)習(xí)。實(shí)驗(yàn)結(jié)果表明預(yù)訓(xùn)練表征學(xué)習(xí)任務(wù)在較低層和較高層比較長(zhǎng)的語(yǔ)義范圍中,與低層次的形態(tài)與句法任務(wù)相關(guān)。這實(shí)際上表明,預(yù)訓(xùn)練語(yǔ)言模型,確實(shí)捕捉到了與在 ImageNet 上預(yù)處理的計(jì)算機(jī)視覺(jué)模型相似的特性。
7) 巧妙的輔助任務(wù)(Clever auxiliary tasks)
在許多場(chǎng)景中,越來(lái)越多的學(xué)者使用多任務(wù)學(xué)習(xí)和精心選擇的輔助任務(wù)。對(duì)于一項(xiàng)好的輔助任務(wù)來(lái)說(shuō),數(shù)據(jù)必須易于訪問(wèn)。一個(gè)最突出的例子是 BERT,它使用下一句預(yù)測(cè) (在 Skip-thoughts 中使用過(guò),最近在 Quick-thoughts 使用) 取得了很大的效果。除 BERT 外,發(fā)表于 EMNLP 2018 上論文“Syntactic Scaffolds for Semantic Structures” 提出了一個(gè)輔助任務(wù),通過(guò)預(yù)測(cè)每個(gè)跨度對(duì)應(yīng)的句法成分類型,來(lái)預(yù)處理跨度表征。盡管從概念上來(lái)說(shuō)很簡(jiǎn)單,但是輔助任務(wù)在推動(dòng)跨度預(yù)測(cè)任務(wù)出現(xiàn)大幅度改進(jìn)方面很重要,例如語(yǔ)義角色標(biāo)注和共指解析。這篇論文證明了,在目標(biāo)任務(wù)所要求的水平上學(xué)習(xí)專門的表征非常有用。而論文“pair2vec: Compositional Word-Pair Embeddings for Cross-Sentence Inference (arXiv 2018)” 基于相似的脈絡(luò),通過(guò)最大化“詞對(duì)”與其語(yǔ)境之間的點(diǎn)互信息來(lái)預(yù)訓(xùn)練“詞對(duì)”表征。 這激勵(lì)了模型去學(xué)習(xí)更多有意義的“詞對(duì)”表征,而不是更通用的目標(biāo),比如語(yǔ)言建模。對(duì)于需要跨句子推理的任務(wù),如 SQuAD MultiNLI,預(yù)訓(xùn)練表征是有效的。將來(lái)或許可以看到更多的預(yù)訓(xùn)練任務(wù),能夠捕捉特別適合于某些下游任務(wù)的屬性,并與更多通用任務(wù) (如語(yǔ)言建模) 相輔相成。
8) 半監(jiān)督學(xué)習(xí)和遷移學(xué)習(xí)結(jié)合(Combining semi-supervised learning with transfer learning)
實(shí)際上,預(yù)訓(xùn)練表征與許多半監(jiān)督學(xué)習(xí)表征的方法是互補(bǔ)的。已經(jīng)有學(xué)者探索了自我標(biāo)注的方法,這是一種特殊類型的半監(jiān)督學(xué)習(xí)。論文“Semi-Supervised Sequence Modeling with Cross-View Training (EMNLP 2018)” 展示了一個(gè)在概念上非常簡(jiǎn)單的想法,確保對(duì)不同輸入觀點(diǎn)的預(yù)測(cè)與主模型的預(yù)測(cè)一致,可以在不同的任務(wù)集合中獲得收益。這個(gè)想法類似于單詞 dropout,但是可以利用未標(biāo)記的數(shù)據(jù)來(lái)使模型更加穩(wěn)健。與其他自組合模型相比,它是專門為特定的 NLP 任務(wù)設(shè)計(jì)的。
9) QA 和大型文檔推理(QA and reasoning with large documents)
在問(wèn)答系統(tǒng)中,除了對(duì)話式問(wèn)答和多步推理,問(wèn)答最具挑戰(zhàn)性的方面是綜合敘述和處理大體量信息。TACL 2018 上的論文“The NarrativeQA Reading Comprehension Challenge” 基于對(duì)整部電影劇本和書籍問(wèn)題的回答,提出了一個(gè)具有挑戰(zhàn)性的新 QA 數(shù)據(jù)集。雖然依靠目前的方法仍無(wú)法完成這項(xiàng)任務(wù),但模型可以選擇使用摘要 (而不是整本書) 作為語(yǔ)境來(lái)選擇答案 (而不是生成答案)。這些變體使完成任務(wù)更加可行,并使模型能夠逐步擴(kuò)展到完整的語(yǔ)境。
10) 歸納偏差(Inductive bias)
歸納偏差,如 CNN 中的卷積、正則化、dropout 和其他機(jī)制,是神經(jīng)網(wǎng)絡(luò)模型的核心部分,它們起到調(diào)節(jié)器的作用,使模型更具樣本效率。然而,提出一個(gè)應(yīng)用更加廣泛的歸納偏差方法,并將其融入模型是一個(gè)挑戰(zhàn)。有幸的是在 2018 的研究中有了這一類的相關(guān)成果。論文“Sequence classification with human attention (CoNLL 2018)”提出利用視覺(jué)跟蹤語(yǔ)料庫(kù)中的人類注意力來(lái)規(guī)范視覺(jué)神經(jīng)網(wǎng)絡(luò)中的注意力。考慮到當(dāng)前許多模型(如 Transformers)也使用注意力,找到更有效地訓(xùn)練它的方法是一個(gè)重要的方向。另外, 論文還證明了人類語(yǔ)言學(xué)習(xí)可以幫助改進(jìn)計(jì)算模型。而 2018 年 EMNLP 上的最佳論文之一“Linguistically-Informed Self-Attention for Semantic Role Labeling”提出了將 multi-head self-attention 與多任務(wù)學(xué)習(xí)相結(jié)合的模型,該模型可以僅使用原始的 token 對(duì)序列進(jìn)行一次編碼,來(lái)同時(shí)執(zhí)行多個(gè)預(yù)測(cè)任務(wù)。論文中還通過(guò)訓(xùn)練一個(gè)注意力頭來(lái)關(guān)注每個(gè) token 的句法父項(xiàng),使 Transformer 的多頭注意力對(duì)句法更加敏感。
總體說(shuō)來(lái),NLP 作為認(rèn)知智能的重要組成部分,依然是人工智能領(lǐng)域研究的重要課題,而 2018 年也取得了成績(jī),也讓我們對(duì)未來(lái) NLP 研究充滿了希望。
伴隨著 NLP 研究的不斷深入,其應(yīng)用也變得越來(lái)越廣泛,尤其是在知識(shí)圖譜、機(jī)器翻譯、閱讀理解和智能寫作等方面都有較為成熟的應(yīng)用。
由于知識(shí)圖譜能夠讓人工智能具備認(rèn)知能力和邏輯能力,進(jìn)而實(shí)現(xiàn)智能分析、智能搜索、人機(jī)交互等場(chǎng)景應(yīng)用,而這一優(yōu)勢(shì)使得知識(shí)圖譜可以應(yīng)用于科研、金融、醫(yī)療、司法、公共安全等各個(gè)領(lǐng)域。2018 年以來(lái),百度應(yīng)用知識(shí)圖譜率,實(shí)現(xiàn)了智能搜索;阿里健康啟動(dòng)醫(yī)學(xué)知識(shí)圖譜,與國(guó)家級(jí)醫(yī)療健康大數(shù)據(jù)平臺(tái)等機(jī)構(gòu)在京宣布啟動(dòng)醫(yī)學(xué)智庫(kù)“醫(yī)知鹿”,而騰訊也推出了首款醫(yī)療 AI 引擎“騰訊睿知”發(fā)力智能導(dǎo)診;美團(tuán)通過(guò)構(gòu)建其知識(shí)圖譜實(shí)現(xiàn)以實(shí)現(xiàn)智能化的生活服務(wù);招商銀行總行的知識(shí)圖譜項(xiàng)目也成果落地上線,預(yù)示著知識(shí)圖譜在金融領(lǐng)域的應(yīng)用正不斷成熟;而在汽車領(lǐng)域,汽車之家通過(guò)構(gòu)建汽車領(lǐng)域知識(shí)圖譜,為其 APP“家家小秘”實(shí)現(xiàn)了圖譜問(wèn)答??傊?,知識(shí)圖譜的行業(yè)應(yīng)用,會(huì)讓內(nèi)容更加精準(zhǔn),服務(wù)更加智能,也逐漸成為了各領(lǐng)域的數(shù)據(jù)和技術(shù)核心。
隨著深度學(xué)習(xí)在機(jī)器翻譯的成功應(yīng)用,以及實(shí)時(shí)的語(yǔ)音轉(zhuǎn)文字和文字轉(zhuǎn)語(yǔ)音功能的成熟,模型翻譯的水平得到了很大的提高,很大程度上的解決了對(duì)話中的翻譯問(wèn)題。為此,翻譯機(jī)在 2018 年成為了人們關(guān)注的熱點(diǎn),除了之前我們熟悉的谷歌、百度、網(wǎng)易等在線翻譯外,2018 年 6 月 13 日,谷歌發(fā)布離線神經(jīng)機(jī)器翻譯技術(shù)( Neural Machine Translation),使得離線狀態(tài)下 ,也能用 AI 翻譯,且支持 59 種語(yǔ)言;2018 年 9 月,網(wǎng)易有道自研離線神經(jīng)網(wǎng)絡(luò)翻譯技術(shù),并應(yīng)用于發(fā)布的翻譯智能硬件“有道翻譯王 2.0Pro”;2018 年 9 月,搜狗推出最新款時(shí)尚 AI 翻譯機(jī)——搜狗翻譯寶 Pro,支持 42 種語(yǔ)言實(shí)時(shí)互譯及中英日韓 4 種語(yǔ)言離線翻譯;2018 年 10 月,百度推出實(shí)時(shí)將英語(yǔ)翻譯成中文和德語(yǔ)的人工智能即時(shí)翻譯工具。機(jī)器翻譯作為 NLP 最為人知的應(yīng)用場(chǎng)景,其產(chǎn)品正逐漸成為人們生活的必需品,因此機(jī)器翻譯任然蘊(yùn)含著巨大的市場(chǎng)價(jià)值,讓眾多廠商為之心動(dòng),同時(shí)也必然會(huì)使得機(jī)器翻譯越來(lái)越成熟。
閱讀理解方作為復(fù)雜的 NLP 技術(shù)之一,受到了廣大學(xué)者和企業(yè)的關(guān)注,同時(shí)也已經(jīng)開始商業(yè)化。2018 年 8 月,“考拉閱讀”宣布完成融資 2000 萬(wàn)美金,并將此次融資用于考拉閱讀原創(chuàng)“中文分級(jí)閱讀系統(tǒng) ER Framework”的優(yōu)化升級(jí)、優(yōu)質(zhì)閱讀內(nèi)容的生產(chǎn)聚合及市場(chǎng)規(guī)模的擴(kuò)大;在近期舉辦的 MS MARCO 文本閱讀理解挑戰(zhàn)賽中,阿里 AI 模型在英文閱讀理解比賽中超過(guò)了微軟、百度等研究機(jī)構(gòu),排名第一,而這一技術(shù)也已經(jīng)大規(guī)模應(yīng)用與淘寶、天貓以及東南亞電商 Lazada 等產(chǎn)品中。閱讀理解作為繼語(yǔ)音判斷和語(yǔ)義理解之后的又一主要挑戰(zhàn),需要模型理解全文語(yǔ)境,同時(shí)還需要理解和關(guān)注詞匯、語(yǔ)句、篇章結(jié)構(gòu)、思維邏輯、輔助語(yǔ)句和關(guān)鍵句等元素,并可以直接作用于現(xiàn)實(shí)中的文本資料中,其價(jià)值不言而喻。也因?yàn)檫@個(gè)原因,使得 MS MARCO 文本閱讀理解挑戰(zhàn)賽變的如此激烈。
智能創(chuàng)作通過(guò)深度學(xué)習(xí)模型獲取創(chuàng)作的背景知識(shí)和創(chuàng)作方法,并根據(jù)主題自動(dòng)生成作品,以輔助或替代人工創(chuàng)作。其中印象最為深刻的便是騰訊寫稿機(jī)器人“Dreamwriter” ,在俄羅斯世界杯足球賽期間,Dreamwriter 生產(chǎn)一篇稿子平均只要 0.46 秒,而且寫法越來(lái)越類人化,不再是冷冰冰的;除此之外,百度在 1 月的百家號(hào)內(nèi)容創(chuàng)作者盛典上宣布推出人工智能寫作輔助平臺(tái)“創(chuàng)作大腦”,為人類作者提供糾錯(cuò)、提取信息等各種輔助工作,其基于語(yǔ)義的智能糾錯(cuò)功能識(shí)別準(zhǔn)確率達(dá)到了 95% 以上,能實(shí)現(xiàn)相當(dāng)于大學(xué)生平均水平的糾錯(cuò)能力;2018 年 5 月,微軟小冰宣布“演唱深度學(xué)習(xí)模型完成第四次重大升級(jí),演唱水平接近人類,且開始向作詞、作曲、演唱全面發(fā)展;2018 年 6 月,IBM Research 推出 AI 系統(tǒng) Project Debator,在舊金山 IBM 辦公室,人工智能在一場(chǎng)辯論賽中擊敗了人類頂尖辯手,Project Debater 通過(guò)處理大量文本,就特定主題構(gòu)建出有良好結(jié)構(gòu)的演講,提供清晰明確的目的,并反駁其對(duì)手,它的對(duì)手是以色列國(guó)際辯論協(xié)會(huì)主席 Dan Zafrir 和 2016 年以色列國(guó)家辯論冠軍 Noa Ovadia。智能創(chuàng)作幾乎需要集成目前所有的 NLP 技術(shù),也側(cè)面體現(xiàn)了各公司 NLP 技術(shù)綜合實(shí)力,因此智能創(chuàng)造也備受各企業(yè)的關(guān)注。
除了以上熱門的應(yīng)用之外,智能問(wèn)答和語(yǔ)音處理依然是 NLP 的熱門應(yīng)用。2018 年以來(lái),各廠商也都相繼更新?lián)Q代,例如騰訊在最近推出了一款全新的“騰訊叮當(dāng)智能視聽屏”,就成功打破了智能音箱和智能顯示設(shè)備之間的隔膜,成功的將兩者完美的結(jié)合在了一起;而在剛剛結(jié)束的 2018 年 AICon 上,智能對(duì)話和語(yǔ)音處理依然是人們主題之一。NLP 的成熟應(yīng)用,讓智能應(yīng)用的關(guān)鍵一步,不僅可以解放人力,同時(shí)也帶來(lái)了更好的用戶體驗(yàn)。
2018 年,無(wú)論是 NLP 的研究還是應(yīng)用,都十分熱鬧。NLP 研究的內(nèi)容逐漸趨近于模型的可解釋性和預(yù)訓(xùn)練,說(shuō)明 NLP 的研究已經(jīng)進(jìn)入了深水區(qū)。而在應(yīng)用方面,我們看到微軟、谷歌、百度等巨頭的競(jìng)爭(zhēng)格局已經(jīng)形成,同時(shí)各垂直領(lǐng)域也相繼推出相應(yīng)的產(chǎn)品,例如汽車之家的家家小秘、蔚來(lái)的 nomi 等,另外不少后起公司憑借自己的努力也有望向巨頭發(fā)起挑戰(zhàn),例如竹間科技、思必馳等。
NLP 涉及了計(jì)算機(jī)、數(shù)學(xué)、統(tǒng)計(jì)學(xué)、語(yǔ)言學(xué)以及腦神經(jīng)科學(xué)等領(lǐng)域的知識(shí),為了不斷的提升 NLP 技術(shù),我們?nèi)匀恍枰?NLP 相關(guān)方面和領(lǐng)域的研究人員和企業(yè)繼續(xù)努力,講求研究和應(yīng)用并舉,普及與提高同步。我們希望看到各領(lǐng)域、各企業(yè)的專家、學(xué)者、工程師通力合作,共同創(chuàng)作另一個(gè)輝煌的 NLP 時(shí)代。
雷濤,高級(jí)算法工程師,汽車之家智能聊天機(jī)器人算法負(fù)責(zé)人。博士畢業(yè)于北京郵電大學(xué)大學(xué)網(wǎng)絡(luò)技術(shù)學(xué)院,主要從事智能聊天機(jī)器人相關(guān)技術(shù)研發(fā),致力于機(jī)器學(xué)習(xí)、深度學(xué)習(xí)、NLP 相關(guān)算法在智能聊天機(jī)器人領(lǐng)域的落地應(yīng)用。
聯(lián)系客服