現(xiàn)在,你可以用 GitHub 上最火的 NLP 項(xiàng)目做機(jī)器翻譯了。
沒(méi)錯(cuò),就是 Hugging Face (抱抱臉)標(biāo)星 26.9k 的 Transformer 項(xiàng)目。在最新更新的版本里,抱抱臉發(fā)布了 1008 種模型,正式涉足機(jī)器翻譯領(lǐng)域。
模型涵蓋 140 種不同語(yǔ)言組合,中文翻英文,英文譯法語(yǔ),法語(yǔ)翻阿拉伯語(yǔ)……還能一對(duì)多翻譯。
就像這樣:
抱抱臉創(chuàng)始人 Clement Delangue 表示:
全世界有那么多人在使用我們的開(kāi)源項(xiàng)目,越來(lái)越多使用不同語(yǔ)言的人聚集在NLP社區(qū)。
這讓我們意識(shí)到,應(yīng)該在模型中提供更多其他語(yǔ)言的接入,同時(shí)也提供翻譯。
據(jù)抱抱臉介紹,這1000+模型,是研究人員使用無(wú)監(jiān)督學(xué)習(xí)和 OPUS 數(shù)據(jù)集訓(xùn)練的。
OPUS 項(xiàng)目來(lái)自赫爾辛基大學(xué)及其全球合作伙伴,旨在收集和開(kāi)源各種語(yǔ)言數(shù)據(jù)集,尤其是低資源(小語(yǔ)種)語(yǔ)言數(shù)據(jù)集。
并且,抱抱臉也在 Transformer 項(xiàng)目中增加了喜聞樂(lè)見(jiàn)的 Seq2Seq 模型。
比如谷歌 AI 的 T5,F(xiàn)acebook 的 BART。
使用方法,一如既往的簡(jiǎn)單。
比如用 opus-mt-en-ROMANCE 這個(gè)模型同時(shí)進(jìn)行英語(yǔ)翻法語(yǔ)、英語(yǔ)翻葡萄牙語(yǔ)和英語(yǔ)翻西班牙語(yǔ),一個(gè) API 就搞定了。
就有網(wǎng)友評(píng)價(jià)道:節(jié)約時(shí)間的利器。
抱抱臉的 Transformer Python 庫(kù)目前已有超過(guò) 50 萬(wàn) pip 安裝量,SQuAD排行榜上的最佳語(yǔ)言模型們通通被收編其中。
比如谷歌 AI 的 BERT、XLNet,F(xiàn)acebook AI 的 RoBERTa,OpenAI 的 GPT-2。
使用簡(jiǎn)單,只需一個(gè) import。
支持 TensorFlow 2.0 和 PyTorch 之間的深度互操作。
還有在線 Demo 供你實(shí)時(shí)調(diào)戲。
這樣的萬(wàn)星項(xiàng)目,NLPer 用了都說(shuō)好。
這就用起來(lái)?
GitHub 項(xiàng)目:
https://github.com/huggingface/transformers
— 完 —
聯(lián)系客服