中文字幕理论片,69视频免费在线观看,亚洲成人app,国产1级毛片,刘涛最大尺度戏视频,欧美亚洲美女视频,2021韩国美女仙女屋vip视频

打開APP
userphoto
未登錄

開通VIP,暢享免費電子書等14項超值服

開通VIP
用 TensorFlow 實現(xiàn)智能機器人

本文第一部分講解自然語言處理的原理,第二部分講解聊天機器人的實現(xiàn)原理,解決方案及挑戰(zhàn),最后以 seq2seq+Attention 機制講解模型結(jié)構(gòu)。第三部分講解如何從 0 開始訓(xùn)練一個聊天機器人。

一、自然語言處理的原理

人工智能理解自然語言的原理,要解釋清楚,首先需要界定下這個問題的含義,一種是狹義的說如何用計算機來處理和分析自然語言;另一種是則是廣義地理解關(guān)于“人工智能”、“自然語言”和“理解”的含義。

我們先從廣義層面探討。弄清楚這幾個名詞。

自然語言:就是人類社會中發(fā)明和演變的用于溝通和交流的語言。而人工智能在對事物(不僅僅是自然語言)的理解,往往包含兩個層次:一是研究內(nèi)容;二是方法論。研究內(nèi)容上主要是現(xiàn)在流行的研究課題,例如知識圖譜、CV、語音識別、NLP 等。方法論是指實現(xiàn)人工智能的方法,主要有三種:符號主義、聯(lián)結(jié)主義、行為主義。符號主義是用數(shù)理邏輯的推理來模擬人的思維智能,例如專家系統(tǒng)的實現(xiàn)。聯(lián)結(jié)主義對人腦的仿生學(xué)研究,最常見的就是神經(jīng)網(wǎng)絡(luò)模型。行為主義重點在可預(yù)測的人類行為上,認(rèn)為人類通過與外界環(huán)境的交互而得到自適應(yīng)性,涉及的算法有遺傳算法、強化學(xué)習(xí)等。

現(xiàn)有的NLP主要是以規(guī)則和統(tǒng)計相結(jié)合來處理的。它的規(guī)則一面偏向于符號主義的視角;而統(tǒng)計一面偏向于挖掘一般規(guī)律,屬于歸納,目前用的方法,比如將自然語言用詞向量的方法表征,然后接入神經(jīng)網(wǎng)絡(luò)中進(jìn)行訓(xùn)練,也就是聯(lián)結(jié)主義的思想。

理解:關(guān)于機器是否能真正理解語言一直有爭論。先拋開這個問題,我們看看人類對語言的理解是怎么樣的。實際上,人類對理解這個事情也做的不一定好。比如,南北方對“豆腐腦”的認(rèn)知是不同的,兩人交談可能就會對同一物體的理解不同。因此,理解是需要由相似的生活經(jīng)歷、共同話題、上下文、會話的環(huán)境、雙方的知識等很多因素決定的。既然對于人類來說,真正能理解對方,需要這么多的隱性因素,那對于機器來說,我們最好就不要關(guān)心機器是否真正能理解問題的含義本身,而是盡可能地讓機器關(guān)注上述因素,來模擬人的智能。

狹義的層面是我們工程師研究的主要方向。也就是將自然語言理解看成是用計算機來處理和分析自然語言,它涉及到語言學(xué)(詞、詞性、語法)和計算機學(xué)科(模型/算法)的范疇。

從語言學(xué)上來看,研究的方向包括詞干提取、詞性還原、分詞、詞性標(biāo)注、命名實體識別、詞性消歧、句法分析、篇章分析等等。這屬于研究的基礎(chǔ)范疇,在這些基礎(chǔ)的研究內(nèi)容之上,面向的是具體的文本處理應(yīng)用,如,機器翻譯、文本摘要、情感分類、問答系統(tǒng)、聊天機器人等。

在計算機算法的研究方面,一般是以規(guī)則和統(tǒng)計相結(jié)合的方法,也就是理性主義和經(jīng)驗主義相結(jié)合。自然語言本質(zhì)上還是符號系統(tǒng),因此有一定的規(guī)則可尋,但是它的復(fù)雜性又決定了沒有規(guī)則可以既不相互沖突又能覆蓋所有的語言現(xiàn)象。后來大規(guī)模語料庫的完善和統(tǒng)計機器學(xué)習(xí)方法流行起來后,就省去了很多人工編制規(guī)則的負(fù)擔(dān),使模型生成自動生成特征。

所以,我們研究的NLP就是使用數(shù)理和機器學(xué)習(xí)的方法對語言進(jìn)行建模??梢哉f,NLP不是達(dá)到真正的自然語言理解,而是把語言當(dāng)成是一種計算任務(wù)。

二、聊天機器人的實現(xiàn)原理、解決方案及挑戰(zhàn)

我們從聊天機器人的分類和實現(xiàn)原理分別說起。目前聊天機器人根據(jù)對話的產(chǎn)生方式,可以分為基于檢索的模型(Retrieval-Based Models)和生成式模型(Generative Models)。

基于檢索的模型有一個預(yù)先定義的回答集,我們需要設(shè)計一些啟發(fā)式規(guī)則,這些規(guī)則能夠根據(jù)輸入的問句及上下文,挑選出合適的回答。

生成式模型不依賴預(yù)先定義的回答集,而是根據(jù)輸入的問句及上下文,產(chǎn)生一個新的回答。

聊天機器人的這兩條技術(shù)路線,從長遠(yuǎn)的角度看目前技術(shù)還都還處在山底,兩種技術(shù)路線的異同和優(yōu)勢如下:

基于檢索的模型的優(yōu)勢:

  • 答句可讀性好

  • 答句多樣性強

  • 出現(xiàn)不相關(guān)的答句,容易分析、定位 bug

但是它的劣勢在于:需要對候選的結(jié)果做排序,進(jìn)行選擇。

基于生成式模型的優(yōu)勢:

  • 端到端的訓(xùn)練,比較容易實現(xiàn)

  • 避免維護一個大的Q-A數(shù)據(jù)集

  • 不需要對每一個模塊額外進(jìn)行調(diào)優(yōu),避免了各個模塊之間的誤差級聯(lián)效應(yīng) 

但是它的劣勢在于:難以保證生成的結(jié)果是可讀的,多樣的。

因此,上述方法共同面臨的挑戰(zhàn)有:

  1. 如何利用前幾輪對話的信息,應(yīng)用到當(dāng)輪對話當(dāng)中

  2. 合并現(xiàn)有的知識庫的內(nèi)容進(jìn)來

  3. 能否做到個性化,千人千面。

這有點類似于我們的信息檢索系統(tǒng),既希望在垂直領(lǐng)域做得更好;也希望對不同的人的 query 有不同的排序偏好。

從應(yīng)用目的的角度區(qū)分,可以分為目標(biāo)驅(qū)動(Goal Driven),應(yīng)用于客服助理等,在封閉話題場景中;無目標(biāo)驅(qū)動(Non-Goal Driven),應(yīng)用在開放話題的場景下,這是可談?wù)摰闹黝}是不限的,但是需要機器人有一定的基礎(chǔ)常識。

盡管目前工業(yè)界應(yīng)用的大多數(shù)是基于檢索的模型,屬于目標(biāo)驅(qū)動的,例如:阿里小蜜,應(yīng)用的話題領(lǐng)域比較窄,稍微將話題擴大一點,它就會不著邊際回復(fù)或者文不對題。如下圖:

一個開放話題場景下的生成式模型應(yīng)該是最智能、符合我們預(yù)期的聊天機器人。因此總結(jié)來看:

智能聊天機器人的目標(biāo):

  1. 和人類能夠進(jìn)行持續(xù)的溝通

  2. 對不同的提問能夠給出合適的回答

  3. 考慮到人類不同個性化的差異性,給出差異性的回答(例如,同一個問題,對男女老少不同群體的回答應(yīng)該略有差異)

那么對于一個智能機器人來說,它的聊天的功能在其中應(yīng)該處于什么位置?首先,聊天應(yīng)該是一個基礎(chǔ)模塊;其次,聊天應(yīng)該和完成任務(wù)的模塊有很好的協(xié)作;最后,聊天應(yīng)該使機器人看上去像您的朋友,而不是您的代理或者助手。

從上述角度來說,現(xiàn)在有一些經(jīng)常與聊天機器人混淆的概念,也是一些聊天系統(tǒng)的周邊產(chǎn)品:

  1. QA 問答系統(tǒng):是回答事實問題(例如珠峰有多高)以及非事實問題(例如why, how, opinion等觀點性問題)的領(lǐng)域機器人。

  2. Dialog system 對話系統(tǒng):這種大多是目標(biāo)驅(qū)動的,但是近幾年都也在慢慢接受聊天機器人功能

  3. Online customer service 在線客服:例如淘寶小蜜,它在多數(shù)情況下像一個自動的FAQ。

因此,盡管聊天系統(tǒng)都是針對文本理解的大方向,但目標(biāo)不同決定了技術(shù)路線會有所偏重,但聊天功能是一個基礎(chǔ)功能。

智能聊天機器人可以從上面的周邊系統(tǒng)研究領(lǐng)域的數(shù)據(jù)集有所借鑒:

  • 非事實問題的問答

  • 社區(qū)型問答系統(tǒng)(例如百度知道等,對問題和答案間有較強的匹配;并且一個問題多個答案時有評分、排序)

  • 從在線系統(tǒng)中挖掘一些好的 QA corpus

那如何來評價一個聊天機器人的好壞?最重要的是問句和答句的相關(guān)性,也就是本質(zhì)是:短文本相關(guān)度計算。但要注意:

  1. 相似性和相關(guān)性是不同的。用于相似性計算的各種方法并不適用于相關(guān)性。我們需要建立一套短文本相關(guān)性計算方法。

  2. 相關(guān)性計算有一些在早期的聊天機器人的構(gòu)建中延續(xù)下來的方法: 

    • 詞語共現(xiàn)的統(tǒng)計

    • 基于機器翻譯的相關(guān)度計算

    • 主題模型(LDA)的相似度計算

目前在聊天機器人上使用的深度學(xué)習(xí)方法有如下這些:

  1. Word2vec, Glove

  2. CNN, LSTM, GRU

  3. Seq2Seq

  4. Attention mechanism

  5. Deep Reinforcement Learning

其中,深度強化學(xué)習(xí)是把“如何得到一個足夠讓人滿意的生成式結(jié)果”量化成 Reward。這些因素包括: 

  • 是否容易被回答(一個好的生成式的結(jié)果應(yīng)該是更容易讓人接下去的) 

  • 一個好的回復(fù)應(yīng)該讓對話前進(jìn),避免重復(fù)性 

  • 保證語義的連貫性。用生成式的結(jié)果反推回 query 的可能性有多大,能保證在語義上是和諧的、連貫的。

那么如何實現(xiàn)在智能聊天機器人的第三個目標(biāo),差異化回答呢?也就是如何在對話里如何引入個性化(personality)信息?

首先預(yù)訓(xùn)練一個人的向量,讓生成的結(jié)果貼近人的特點。通過 word embedding 將人的信息作為一個詞向量,在輸入部分增加一組人的向量;在生成回答的時候,考慮不同的人應(yīng)該選什么樣的詞語。

目前,我們要做一個真正智能的自動聊天機器人,仍然面臨一些挑戰(zhàn):

  • 缺乏公共的訓(xùn)練數(shù)據(jù)集,目前使用國外的數(shù)據(jù)集較多 

    • Ubuntu dialog corpus(subset of Ubuntu Corpus)

    • Reddit dataset(可讀性和質(zhì)量都不錯)

    • Corpora from Chinese SNS(微博)

  • 測試集還不統(tǒng)一

  • 評估度量:度量很難設(shè)計(目前是從機器翻譯和自動摘要的 BLEU、ROUGE 里借鑒的,但面臨問題是否能刻畫聊天機器人的好壞,并且指導(dǎo)聊天機器人的技術(shù)朝著正向的方向發(fā)展)

  • 聊天機器人的一般對話和任務(wù)導(dǎo)向的對話之間如何能夠平滑切換 

    • 這種平滑切換對用戶的體驗非常重要

    • 切換的技術(shù)需要依賴情緒分析及上下文分析

    • 用戶不需要給出明確的反饋。例如,我前一句說鹿晗好,后一句說不喜歡韓范,需要聊天機器人能正確識別

  • 仍然存在的問題 

    • 句子級、片段級的語義建模還沒有詞語的建模(word embedding)那么好

    • 生成式仍然會產(chǎn)生一些安全回答

    • 在知識的表示和引入上還需要努力


(本文余下還有7000字)




本站僅提供存儲服務(wù),所有內(nèi)容均由用戶發(fā)布,如發(fā)現(xiàn)有害或侵權(quán)內(nèi)容,請點擊舉報。
打開APP,閱讀全文并永久保存 查看更多類似文章
猜你喜歡
類似文章
人工智能理解自然語言的原理是什么?
ChatGPT究竟是什么?人工智能時代已經(jīng)到來!
發(fā)展方向劍指自主智能體,借助AI Agent走向AGI成RPA終極目標(biāo)
最全回顧!ChatGPT的前世今生
人工智能各學(xué)派簡介:符號主義,連接主義,行為主義
Jürgen Schmidhuber眼中的深度學(xué)習(xí)十年,以及下一個十年展望
更多類似文章 >>
生活服務(wù)
熱點新聞
分享 收藏 導(dǎo)長圖 關(guān)注 下載文章
綁定賬號成功
后續(xù)可登錄賬號暢享VIP特權(quán)!
如果VIP功能使用有故障,
可點擊這里聯(lián)系客服!

聯(lián)系客服