IT之家 12 月 31 日消息,2021 年 12 月,字節(jié)跳動(dòng)旗下的火山翻譯官網(wǎng),上新了包括世界語、塔希提語、韃靼語等在內(nèi)的 38 個(gè)稀有語種的翻譯。目前,包括漢語、英語、阿拉伯語、俄語、法語、西班牙語六個(gè)通用語種在內(nèi),火山翻譯已具備 94 個(gè)語種、8742 個(gè)語向的翻譯能力,整體 bleu(機(jī)器翻譯質(zhì)量自動(dòng)評(píng)估指標(biāo))達(dá) 33.45,處于行業(yè)領(lǐng)先水平。
▲ 藍(lán)色部分為火山翻譯上新的 38 個(gè)語種
據(jù)了解,通過采用自研的 mRASP 多語言模型,火山翻譯僅使用一個(gè)模型就完成了上述 38 個(gè)語種與英文的雙向互譯,突破了傳統(tǒng)雙語言翻譯模型對(duì)每個(gè)語向單獨(dú)訓(xùn)練、單獨(dú)上線服務(wù)的方式,大幅降低機(jī)器學(xué)習(xí)的訓(xùn)練和服務(wù)成本。
“通常情況下,訓(xùn)練 76 個(gè)語向的雙語言模型需要 150-200 天。而相同硬件條件下,訓(xùn)練一個(gè)多語言模型只需要 30 天。”火山翻譯團(tuán)隊(duì)介紹,“對(duì)于請求量小的語種,使用 mRASP 模型集中服務(wù)可以大大節(jié)省計(jì)算資源,僅需半張用于深度學(xué)習(xí)訓(xùn)練的 Tesla T4 顯卡就可以滿足 38 個(gè)語言的全部翻譯請求,和雙語翻譯所需的資源一樣?!?/p>
IT之家了解到,火山翻譯通過 mRASP 中的對(duì)比學(xué)習(xí)和詞對(duì)齊信息,可以很好地借助單語語料和其他擁有豐富語料的語種來幫助訓(xùn)練,彌補(bǔ)訓(xùn)練數(shù)據(jù)的不足。數(shù)據(jù)顯示,火山翻譯此次上新的稀有語種平均 bleu 值達(dá) 33.36,其中,海地語翻譯表現(xiàn)最為突出,bleu 值達(dá) 50.76。
目前,火山翻譯擁有:火山同傳、機(jī)器翻譯與視頻翻譯三大產(chǎn)品,支持飛書、今日頭條、西瓜視頻等業(yè)務(wù)的翻譯需求,并通過字節(jié)跳動(dòng)旗下的企業(yè)級(jí)技術(shù)服務(wù)平臺(tái)火山引擎對(duì)外提供翻譯服務(wù)。(小智)
聯(lián)系客服