繼阿爾法狗戰(zhàn)勝韓國職業(yè)棋手李世石沒多久,人工智能再下一城。據(jù)澎湃新聞9月29日報道,27日,谷歌推出了新的翻譯系統(tǒng),聲稱該套翻譯系統(tǒng)基于對人類神經(jīng)思考的模仿,能夠與真人翻譯競相匹敵。
在谷歌發(fā)表的題為《規(guī)模生產(chǎn)中的神經(jīng)網(wǎng)絡(luò)機器翻譯》(A Neural Network for Machine Translation, at Production Scale)的文章中,宣布將機器學習技術(shù)納入網(wǎng)頁和手機APP翻譯中,從前漢譯英的尷尬局面將大為扭轉(zhuǎn)。
翻譯系統(tǒng)面世后,根據(jù)用戶們的測試,發(fā)現(xiàn)漢譯英的準確率高得驚人。
眾所周知,將漢語恰切地譯介為英語是一件不易之事。輸入中文,翻譯系統(tǒng)給出的答案往往是“慘不忍睹”,簡單的機械翻譯對于那些谷歌翻譯的依賴者來說已遠遠不夠。谷歌公司稱,相較之前的算法,谷歌神經(jīng)機器翻譯能減少80%的錯誤,與通過標準測試的真人翻譯所差無幾。
在之前的一項西班牙語譯為英語的測試中,設(shè)定滿分為6分,谷歌舊的翻譯系統(tǒng)得到3.6分,人類普遍得分為5.1分,而谷歌的新系統(tǒng)得到了5分的好成績。
三種譯介方式評估。滿分為6分,橘色為真人翻譯、綠色為谷歌神經(jīng)網(wǎng)絡(luò)翻譯、藍色為短語式翻譯。
從前的譯介模式是短語式的,翻譯系統(tǒng)將一句話拆分成單詞或者詞組進行翻譯,往往得到一些狗屁不通的結(jié)果。而新的翻譯系統(tǒng)稱之為谷歌神經(jīng)機器翻譯(GNMT),這項新的技術(shù)運用更少的機器設(shè)計選擇,它將一句話視為整體進行解碼,雖然仍是將一句話分割成若干獨立單元,但每個單元都放在句子的前后進行考量。這就像一個初中生進入高中大門,為完成作業(yè),要嘗試在一本巨大的詞典中查找單詞和短語。神經(jīng)機器翻譯與以往的翻譯模式用的是同樣一本大詞典,但舊的翻譯模式只是逐個查詞,而神經(jīng)機器翻譯卻訓練出兩種神經(jīng)網(wǎng)絡(luò),可以生產(chǎn)出另一種語言的完整的文本。這對于漢語翻譯是極為重要的,因為漢語中由于搭配不同導致一個詞往往有不同的意思。
谷歌神經(jīng)網(wǎng)絡(luò)翻譯為何能夠在準確性上有質(zhì)的飛躍?
據(jù)悉,谷歌神經(jīng)翻譯克服了之前神經(jīng)機器翻譯在準確性和速度上的缺陷,帶有8個編碼層和8個解碼層的長短時記憶(LSTM)網(wǎng)絡(luò)用來增強注意以及記錄瞬間感覺殘留。注意力機制則連接下層解碼層和上層編碼層,以此來提高并行度從而降低耗時,推理計算中的低精度的算法則提升了最終的翻譯速度。
第一步,網(wǎng)絡(luò)將中文單詞編碼為一系列向量,每個向量代表整句話所有單詞的含義。一旦整個句子被神經(jīng)網(wǎng)絡(luò)閱覽,解碼即開始,生成相應(yīng)的英語句子。而解碼則是一個將已編碼的中文向量與相關(guān)的英語單詞生成的加權(quán)分布的過程。連接編碼解碼的曲線代表解碼過程中所考量到的編碼詞匯。
而為提高對生僻詞的處理,谷歌將詞語分成有限的子詞單元,從而方便輸入與輸出。而束搜索技術(shù)則使搜索長度規(guī)格化以及具有覆蓋性,這使得翻譯輸出的句型可大量覆蓋譯介語種的所有單詞。這一切都可歸為人工智能,人工智能算法不依賴于人類邏輯,比起人們從前使用的手工編寫的算法來說,人工智能算法能找到更好的方式完成任務(wù)。人工智能網(wǎng)絡(luò)自身會學習怎樣翻譯,它只專注于結(jié)果如何,而不受人類思維優(yōu)先的干擾。開發(fā)此項目的谷歌工程師麥克·舒斯特說,“你不必選擇,系統(tǒng)會全面進行翻譯。”
中譯英只是谷歌翻譯所支持的多種語言中的一種。谷歌表示,今后翻譯將更多依賴于人工智能。在之后的幾個月時間里,谷歌還會設(shè)計出適用于更多語言的谷歌神經(jīng)機器翻譯。當然,此種神經(jīng)機器翻譯還不能稱得上完美,固然基于神經(jīng)的人工智能表現(xiàn)不錯,但仍有很多細微之處機器算法不能夠真正領(lǐng)悟。比起人類翻譯,谷歌神經(jīng)網(wǎng)絡(luò)翻譯仍會犯許多人類翻譯不會出現(xiàn)的錯誤,如掉詞、誤譯專有名詞、罕見術(shù)語,以及忽略上下文語境而孤立地翻譯某句話等等。不過,起碼這種新的翻譯模式只是讓意思流失在翻譯結(jié)果上,而非在翻譯過程中就面目全非。
舉例展示GNMT進行漢英翻譯的過程
首先,網(wǎng)絡(luò)將漢字(輸入)編碼成一串向量,每個向量代表了當前讀到它那里的意思(即 e3代表“知識就是”,e5代表“知識就是力量”)。整句話讀完之后開始解碼,每次生成一個作為輸出的英語單詞(解碼器)。
要每一步生成一個翻譯好的英語單詞,解碼器需要注意被編碼中文向量的加權(quán)分布中,與生成英語單詞關(guān)系最為密切的那個(上圖中解碼器d上面多條透明藍線中顏色最深的那條),解碼器關(guān)注越多,藍色越深。
使用人類對比評分指標,GNMT系統(tǒng)生成的翻譯相比此前有了大幅提高。在幾種重要語言中,GNMT將翻譯錯誤降低了55%-58%。
短語式翻譯(藍色)、谷歌神經(jīng)網(wǎng)絡(luò)翻譯(綠色)、真人翻譯(黃色)對比。
此外,該項目開發(fā)團隊還宣布GNMT漢英英漢試用版上線?,F(xiàn)在,谷歌翻譯漢英語言的移動版和網(wǎng)頁版都率先使用GNMT,每天負責1800萬次翻譯任務(wù)。
該團隊表示,GNMT的上線得益于TensorFlow和深度學習專用加速器張量處理單元(TPU),尤其是后者,提供了足夠的計算能力來部署這些功能強大的GNMT系統(tǒng),同時滿足谷歌產(chǎn)品嚴格的延遲要求。開發(fā)團隊表示,今后的幾個月里將持續(xù)推出更多的語種服務(wù)用戶。
機器翻譯的挑戰(zhàn)仍然存在。GNMT還是可能會犯一些人類絕對不會犯的錯,總之,GNMT有待改善的地方還有很多,但無論如何,GNMT都代表了一座重大的里程碑。
(觀察者網(wǎng)綜合澎湃新聞等)
聯(lián)系客服