绅士,客厅吊顶,女生网名-五星俱乐部,评选全球最佳俱乐部

频道:国内时事 日期: 浏览:201

晓查 发自 凹非寺

量子位 报导 | 大众号 QbitAI

本年2月,Facebook宣布了论文《Cross-lingual Language Model Pretraining》,这篇论文提出了依据BERT优化的跨言语模型XLM,它刚刚出世就在两项机器翻译使命上取得了巨大进步。

在无人监督的机器翻译中,XLM在WMT’16的德语-英语上获得了34.3 BLEU,比之前的技能水平提高了9个以上BLEU。

但是这只是在单个应用领域的成果,XLM更全面的功能测验成果怎么呢?

就在昨日,论文的两位作者提交了GLUE测验得分,在运用相同的数据 (Wiki/TBC)的情况下,没有下一句猜测使命,XLM新模型在所有提交的GLUE使命上均优于BERT。



为何能比BERT功能更好,论文作者之一Guillaume说:是因为更大的维度,以及没有下一句猜测。



XLM项目

Facebook已经在GitHub上更新了的XLM项目的最新成果。

依据最新的文档描绘,XLM的PyTorch英语模型与预练习的BERT TensorFlow模型运用相同的数据(Wikipedia + Toronto Book Corpus)进行练习。

该完成不运用下一句猜测使命,网络只要12层但容量更高,包含6.65亿参数。总的来说,XLM模型在所有GLUE使命上都比原始BERT具有更好的功能。

整个XLM项目包含以下代码:

1、预练习言语模型:

因果言语模型(CLM)- 单语

掩码练习的言语模型(MLM) - 单语

翻译言语模型(TLM) - 跨言语

2、监督/无监督的机器翻译练习:

去噪主动编码器

并行数据练习

在线反向翻译

3、XNLI微调

4、GLUE微调

Facebook展现了XLM在生成跨言语语句表征上的才能。下面的代码中能够看到依据预练习模型获取语句表征的比如。

# list of (sentences, lang)
sentences = [
('the following secon@@ dary charac@@ ters also appear in the nov@@ el .', 'en'),
('les zones rurales offr@@ ent de petites routes , a deux voies .', 'fr'),
('luego del cri@@ quet , esta el futbol , el sur@@ f , entre otros .', 'es'),
('am 18. august 1997 wurde der astero@@ id ( 76@@ 55 ) adam@@ ries nach ihm benannt .', 'de'),
('اصدرت عدة افلام وث@@ اي@@ قية عن حياة السيدة في@@ روز من بينها :', 'ar'),
('此外 , 松@@ 嫩 平原 上 还有 许多 小 湖泊 , 当地 俗@@ 称 为 “ 泡@@ 子 ” 。', 'zh'),
]
# add sentence delimiters
sentences = [((' %s ' % sent.strip()).split(), lang) for sent, lang in sentences

论文简介

最近的研讨证明了生成预练习(Generative pretraining)对英语自然言语了解的功率。而Facebook将这种办法扩展到多种言语,并展现了跨言语预练习的有效性。

他们提出了两种学习跨言语模型(XLM)的办法:一种是无监督学习,只依靠单语数据,另一种是监督学习,使用新的跨言言语语模型方针的平行数据。



这种办法获得了关于跨言语分类、无监督和监督机器翻译的最新成果。在XNLI上,这种办法比之前的技能将准确率提高了4.9%。

在无人监督的机器翻译中,XLM在WMT’16德语 - 英语上获得了34.3 BLEU,比之前的最佳成果提高了9个以上BLEU。

在有监督机器翻译中,XLM在WMT’16罗马尼亚语-英语上获得了38.5 BLEU的成果,比之前的最佳办法提高了超越4 BLEU。

传送门

论文地址:

https://arxiv.org/abs/1901.07291

项目地址:

https://github.com/facebookresearch/XLM

— 完 —

诚挚招聘

量子位正在招募修改/记者,工作地点在北京中关村。等待有才华、有热心的同学参加咱们!相关细节,请在量子位大众号(QbitAI)对话界面,回复“招聘”两个字。

量子位 QbitAI · 头条号签约作者

վ'ᴗ' ի 追寻AI技能和产品新动态

热门
最新
推荐
标签