2019 年,可谓是 NLP 发展历程中具有里程碑意义的一年,而其背后的最大功臣当属  BERT !

2018 年底才发布,BERT 仅用 2019 年一年的时间,便以「势如破竹」的姿态成为了 NLP 领域首屈一指的「红人」,BERT 相关的论文也如涌潮般发表出来。

同时,贵安新区将做好总体规划、基础设施、产业布局、公共服务配套设施、资源要素配置和生态环境保护等六个统筹考虑,把大数据、高端装备制造、电子信息产业、文化旅游业等产业优势作为重中之重抓好,在融合发展中助推黔中城市群核心区快速形成。(完)

陈晏对此给出答案:贵阳贵安融合发展是新时代贵州高质量发展进程中具有标志性意义的大事,影响极其深远。两地的融合发展不是简单的合二为一,而是要产生“1+1>2”的融合效益。

该方法最初源于谷歌研究者 Dai&Le 于 2015 年发布的 LSTM LM 论文,论文相关链接为:

掩膜语言模型(MLM)任务。这项任务鼓励模型同时以单词级别和句子级别学习语言的良好表示。简单地说,一个句子中 15% 的单词是随机选择并用标记隐藏(或「掩蔽」)。该模型的工作原理是利用前后的单词预测这些隐藏的部分,因此,我们试图从损坏的输入重新建立起完整的文本,左边和右边的内容都被用来做预测。这允许我们搭建考虑到所有文本的单词表示。与 ELMo(一种基于 RNN 的语言模型,用于生成由上下文感知的单词嵌入)等方法不同,BERT 同时学习它的双向表示,而 ELMo 是由两个不同的语言模型分别独立地对从左到右和从右到左的语言表示进行学习,然后连接。我们可以说 ELMo 是一个「浅双向」模型,而 BERT 是一个「深双向」模型。 下一个句子的预测(NSP)任务。如果我们的模型被用作语言理解的基础,那么了解句子间的连贯性将有助于它实现目标。为鼓励模型学习句子间的关系,我们添加了下一句预测任务,在该任务中,模型必须预测一对句子是否相关,即一个句子是否可能继续连接着另一个句子。句子中的正训练对是语料库中真实相邻的句子,负训练对是从语料库中随机抽取的两句话。这不是一个完美的系统,因为随机抽样的一对句子实际上可能是相联系的,但这样对于任务的需要来讲已经足够好了。

实际中,使用 BERT 进行迁移学习,通常只有经过训练的编码器栈才会被重新使用——首先将模型的解码器切掉一半,然后将编码器 Transformer 模块用作特征提取器。因此,我们不关心 Transformer 的解码器对它最初训练的语言任务做出的预测,我们只关心模型内部表示输入文本的方式。

三、BERT 是如何进行训练的?

我希望这篇文章对 BERT 所引发的研究热潮提供了一个合理的回顾视角,并展示了这个模型在 NLP 研究领域中是如何变得如此热门和强大。

如图为在 2018 年 11 月至 2019 年 12 月间发表的与 BERT 相关的论文集合。y 轴代表的是对引文数目的对数统计(由 Google Scholar统计),它的下限为 0。这些文章中的大多数是通过在 arXiv 论文的标题中搜索关键词 BERT 找到的。 

一个有趣的现象是,从 2018 年 11 月份发表 BERT 的原始论文的时间与大概 2019 年 1 月份开始出现一大波相关论文的时间之间的间隔,相当短。 BERT (相关)论文最初的发表浪潮往往集中在一些核心的 BERT 模型的即时扩展和应用上(比如:图中红色、紫色和橙色部分),例如使 BERT 适用于推荐系统,情感分析,文本摘要和文档检索。 然后从 4 月开始,一系列探讨 BERT 内部机制的论文(图中绿色部分)相继发布,例如了解 BERT 如何通过建模进行语言的分层,并分析注意力头之间的冗余现象。其中特别令人印象深刻的是一篇名为「利用 BERT 重新探索经典 NLP 的传播途径」的论文(相关论文链接为:https://arxiv.org/abs/1905.05950)。该论文作者发现了BERT 的内部计算可以反映传统 NLP 的工作流程,即词性标记、依赖项分析、实体标记等。 然后在 9 月份左右,又发布了一系列有关压缩 BERT 模型尺寸的论文(如图青色部分),例如DistilBERT,ALBERT 和 TinyBERT 等论文。其中,来自 HuggingFace 的 DistilBERT 模型是 BERT 的压缩版本,其参数只有先前的一半(从 1.1 亿降至 6600 万),但在对重要 NLP 任务的实现上却达到了之前性能的 95%(具体请参阅 GLUE 基准; https://gluebenchmark.com/)。原始的 BERT 模型并不轻巧,这在计算资源不足的地方(如移动手机)是一个问题。

自注意力机制是一种序列到序列的操作,它通过将每个词的内容融合到它的表示中的方式来更新输入标记的嵌入。这允许它同时对所有输入的字之间的关系建模,这一点与 RNN 有所不同,RNN 中的输入标记是按顺序来读取和处理的。自注意力使用点积计算词向量之间的相似性,计算所得的注意力权重通常被视为注意力权重矩阵。 注意力权重捕捉单词之间关系的强度,我们允许模型通过使用多个注意力头来学习不同类型的关系。每一个注意力头通常捕捉单词之间的一种特殊关系(带有一些冗余)。这些关系中的一部分是可以直观地解释的(比如主客体关系,或者跟踪相邻的词),而有些是相当难以理解的。你可以把注意力头集中看作是卷积网络中的滤波器,每个滤波器从数据中提取一种特定类型的特征,这些提取出来的特征将最大限度地帮助神经网络其他部分做出更好的预测。 这种自注意机制是 Transformer 的核心操作,但只是将其置于上下文中:Transformer 最初是为机器翻译而开发的,并且它们具有编码-解码器结构。可以将 Transformer 编码器和解码器的构造看作 Transformer 模块,其通常由自注意力层、一定量的归一化和标准前馈层组成。每个模块对输入向量执行此序列操作,并将输出传递给下一个模块。在 Transformer 中,它的深度是指 Transformer 中模块的数量。

一、从 BERT 文献中得出的一些启发

实际上直到我试图编撰一份去年发表的与 BERT 有关的论文清单时,我才意识到它到底有多受欢迎。我收集了 169 篇与 BERT 相关的论文,并手动将它们标记为几个不同的研究类别(例如:构建特定领域的 BERT 版本、理解 BERT 的内部机制、构建多语言BERT 等)。

现在已经有很多关于 BERT 的论文发表。从上图我们可以发现以下几点:

上述实验使用的原始数据如下:

可喜的是,《意见》明确提出,促进贵阳市、贵安新区融合发展。

如果你对其中一些模型的名称感到好奇,这些名称实际上是 NLP 的研究人员对《芝麻街》中的人物着迷的体现。我们可以将这一切归咎于(开先例以《芝麻街》人物命名)的论文 ELMo,论文相关链接如下:

雷锋网原创文章,。详情见转载须知。

但是,BERT 是在什么任务上进行训练,能够激励它对语言的学习有这样良好及普遍有效的理解呢?未来的工作中也许可以调整学习策略,但原论文就使用了下面两个任务:

从实用性的角度来看,这固然是令人兴奋的,但更有趣的是,BERT 和相关模型可以促进我们对于如何将语言表示为计算机能够理解的语言,以及哪种表示方法能让我们的模型更好地解决这些具有挑战的语言问题有基本的理解。

湖北日报讯 (记者曾莉) 3月23日,国务院新闻办公室在湖北武汉举行新闻发布会,介绍中医药在防治新冠肺炎中的作用。中央指导组成员、国家卫生健康委党组成员、国家中医药局党组书记余艳红介绍,全国新冠肺炎确诊病例中,有74187人使用了中医药,占91.5%。其中,湖北有61449名患者使用了中医药,占90.6%。临床疗效观察显示,中医药总有效率达90%以上。

实际上,类似迁移学习这种先对模型进行预训练再对特定任务进行微调的方式,并不少见,比如计算机视觉研究人员通常使用大型数据集(如 ImageNet)上预训练好的模型。 NLP 领域长久以来,则一直通过重用词嵌入来进行「浅层」迁移学习。

BERT(来自 Transformer 的双向编码器表示),是 Google 研究人员构建的一个预训练语言模型(LM)。这个语言模型是基于激励模型学习一个对语言深层理解的任务上训练的;LM 的一个常见的训练任务是预测下一个单词(比如:「猫坐在__上面」)。

伊卡尔迪本赛季为巴黎出场28次打进19球,对于下赛季的去处,他的妻子兼经纪人旺达说:“我不知道明年我们会在米兰还是巴黎,在足球圈,你永远无法预知未来。”

《意见》明确赋予省级经济管理权限;促进贵阳市、贵安新区融合发展;增强贵安新区防范化解风险能力;加大财税支持;加强用地支持;加强用电支持;支持用人机制创新;强化改革创新支持。八条“硬核”政策,为加快把贵安新区打造成为西部地区重要经济增长极、内陆开放型经济新高地和生态文明示范区注入强劲动力、提供有力支撑。

2019 年是 NLP 发展历程中具有里程碑意义的一年,从阅读理解到情感分析,针对各大重要任务的解决方案都迎来了新的记录。

内陆开放型经济新高地加速形成。贵安新区不断搭建开放平台,提高开放层次,扩大开放范围,优化开放布局,创新开放路径,完善开放体制,内陆开放型经济新高地正在加速形成。

下面是所有这些论文的分布情况:

复工复产步伐之迅速,来源于产业发展取得佳绩的高度自信。近年来贵安新区大数据产业发展势头迅猛,迸发澎湃动力。2019年,贵安新区电子信息制造业总产值完成258.53亿元(人民币,下同),同比增长10.30%;电子信息制造业对新区经济拉动持续发力,占新区工业总产值277.23亿元的93.25%,继续保持“经济高地”的核心地位。

贵州省不沿江、不沿海、不沿边的“三不沿”状态近年来正在转变为近江、近海、近边“三临近”发展优势。贵州不断完善开放通道,目前已形成贵阳至周边省会城市及珠三角、长三角、京津冀、成渝等地区2—8小时高铁交通圈;通航机场实现全省市(州)全覆盖;贵州成为西部地区连接华中华南的枢纽和贯通“一带一路”的重要陆海连接线。

如图为在各篇 BERT 论文上移动鼠标时出现的数据。

贵阳和贵安新区,一个是贵州的省会城市,是贵州省发展的“火车头”和“发动机”;一个是国家级新区,拥有国家级及省级层面政策和资金支持的优势,资源禀赋得天独厚。两个独具特色优势的城市携手“融合”会产生何种集群效应,又如何“融合”加速同城发展。

如果你发现使用掩蔽的方法有点问题:那么你其实是对的。由于一个片段中随机有 15% 的单词被遮蔽,因此可能会出现多个。确实是这样,但是 BERT 将这些被遮蔽的单词彼此间看作独立,这是存在限制的,因为它们实际上很容易形成相互依赖的关系。这也是在 XLNet 论文(https://arxiv.org/abs/1906.08237)中提到的一点,有些人认为它是 BERT 的继承。

浏览这些文献时,我发现了其中出现的一些常见概念:

随着这一核心概念与简单的微调步骤和相应的开源代码叒叒出现出现时,就意味着 BERT 已迅速地传播开来了:翻译的语句要能体现出“很快传播”的意味:初发布于 2018 年底的 BERT ,2019 年就已经变成了非常流行的研究工具。

新出现的范例是:既然可以重新使用 BERT 对语言扎实掌握的基础,模型为什么还要不断针对每一个新的 NLP 任务从头开始学习语言的语法和语义呢?

八大“硬核”措施为新区发展注活力

开源机器学习模型的价值。作者免费提供了 BERT 模型和相关代码,并提供了一个简单、可重复使用的微调过程。这种开放性对于加快研究进展而言是至关重要的,并且我有理由怀疑如果作者不那么直爽的话,该模型是否会受到同样程度的欢迎。 严肃看待超参数调整问题,认识到它的重要性。RoBERTa 的论文中,提出了一种更具原理化的优化设计(如更改训练任务)和更加范化的超参数调整方法来训练 BERT,这在学术界引起了轰动。这种不断更新的训练制度,再加上它只对模型使用更多数据进行更长时间的训练,就再次将各种 NLP 基准性能的纪录提升到了新的高度。 关于模型大小的想法。最初,BERT 作者发现了一个很吸引他的现象:即使在非常小的数据集上,仅通过简单地增加模型大小也可以极大地提高模型的性能。这也许在某种意义上意味着,你「需要」数亿个参数来表示人类的语言。2019 年的其他几篇论文中指出,仅通过扩大 NLP 的模型规模即可带来模型的改进(例如众所周知的 OpenAI 中的 GPT-2 模型)。当然,这里还有一些新的技巧可以用于训练大到荒谬的 NLP 模型(例如 NVIDIA 的拥有 80 亿参数的庞然大物 MegatronLM)。但是,也有证据表明,随着模型尺寸的增加,模型的效果会递减,这与计算机视觉研究人员在添加到一定多数量的卷积层时会遇到壁垒的情况相似。关于模型压缩和参数效率论文的成功发表,表明可以在给定大小的模型中获得更多的性能。

贵安新区是2014年1月6日国务院批复设立的第八个国家级新区,也是中国最年轻的国家级新区之一,承载着西部地区重要经济增长极、内陆开放型经济新高地、生态文明示范区三大战略定位。

2019 年,是 NLP 发展史上值得铭记的一年,也当之无愧的「BERT 年」。

BERT 基于相对较新的神经网络结构 Transformer,后者使用一种称为自注意力的机制来捕获单词间的关系。在 Transformer 中没有卷积(如 CNN)或递归(如 RNN)操作,注意力是你唯一需要的。已有一些已经出版的优秀教程(http://www.peterbloem.nl/blog/transformers)对此进行了介绍,所以在这里就不再做详细介绍,如下为相关概念的简短介绍:

二、BERT 到底是什么?

目前,贵安新区新交通路网等基础设施已基本完善,产业发展取得显著成效。

值得一提的是,从贵州省“1+8”国家级开放创新平台来看,贵阳市和贵安新区的开放平台就占据了三分之二。对此,贵阳和贵安的融合发展,对加快构建贵州内陆开放型经济新格局具有重要意义。

计算机视觉领域,何凯明曾有一项工作《Rethinking ImageNet Pre-training》表明,预训练和微调主要有助于加快模型的收敛速度。这一思考和观点,是否也同样适用于 NLP 领域的工作呢?

这在当时也被称为「NLP 的 ImageNet 时刻」,与此同时,2019 年基于这一趋势的相关研究工作也在持续开展。

图为位于贵安新区的中国—东盟国际会议中心。 贵安新区管委会供图

这使得后来的诸如 BERT 和 ERNIE 模型也开始以相关任务命名,变得不可避免。我非常热切地在等待一个 BIGBIRD 模型,那么我们不妨将其压缩版本称为 SMALLBIRD?

五、BERT 出现之前的一些方法?

目前这一领域的进展迅速,我们现在从最先进的模型中看到的结果,即便在仅仅五年前也是难以置信的)例如,在问答任务中表现出来的超越人类的性能。

贵阳市市长、贵安新区管委会主任陈晏对此表示,“贵安八条”每一条都是“真金白银”,每一条都非常务实、非常管用,对贵安新区高质量发展赋予了重要使命,也提供了重大机遇。

《米兰体育报》称,切尔西在冬季收购卡瓦尼失败后,将目光转向了伊卡尔迪。不过,蓝军出手的前提是巴黎圣日耳曼不买断阿根廷前锋,在目前的租借合同中,巴黎拥有以6千万欧元买断伊卡尔迪的选择权。

如图,我们的 NLP 模型变得越来越大。摘自 DistilBERT 论文。

NLP 领域最新发展进程中的两个主要趋势是迁移学习和 Transformer 的兴起,我非常期待看到这两个研究方向在 2020 年的发展。

“共有4900余名中医药人员驰援湖北,约占援鄂医护人员总数的13%,其中院士3人,专家数百名。这次中医药援助队伍规模之大、力量之强前所未有。”余艳红说,在早期没有特效药、没有疫苗的情况下,总结中医药治疗病毒性传染病规律和经验,深入发掘古代经典名方,结合临床实践,形成了中医药和中西医结合治疗新冠肺炎的诊疗方案,成为中国方案的重要特色和优势。目前,已筛选出金花清感颗粒、莲花清瘟胶囊、血必净注射液和清肺排毒汤、化湿败毒方、宣肺败毒方等有明显疗效的“三药三方”。

余艳红表示,研究证实,中医药的整体调节,能够增强人体免疫力,同时还有抑杀病毒的作用。中国的中医药界愿意与国际社会进一步加强合作交流,分享防疫和救治经验,向有需要的国家和地区提供有效中成药、专家咨询和任何力所能及的援助。

2019年,贵安新区进出口贸易总额预计完成9.25亿美元;中国国际大数据产业博览会贵安分论坛、中国—东盟教育交流周、中印IT产业发展论坛等系列重要对外开放活动成为贵安新区打造具有世界影响开放平台提供了有力支撑。

请注意这份 BERT 论文清单很可能是不完整的。如果与 BERT 相关论文的实际数量是本人所整理的两倍,我不会感到惊讶。在这里做一个粗略的数量估计,目前引用过原始 BERT 论文的数量已经超过了 3100。

六年来,贵安新区按照“高端化、绿色化、集约化”的主攻方向和“建城市、聚人气,广招商、兴产业”的工作主线,全力推进经济高质量发展。

对于正在感恩奋进贵州而言,扩大对外开放是加快发展的关键一招。

图为贵安新区高端装备制造园标准厂房。 贵安新区管委会供图

其中最为突出的研究趋势是迁移学习在 NLP 的应用,即在特定的语言处理相关任务中,运用大量预训练模型对它们进行微调。在迁移学习中可以重新使用预构建模型中的知识,提高模型的性能和泛化能力,同时大量减少具有标签的训练样本。

BERT 模型通过使用上述 Transformer 设置,在 2 个无监督语言模型上进行训练。关于 BERT 训练,最重要的是它不依赖于标记数据,也就是说它可以使用任何文本语料库,而不需要任何特殊标记的数据集。BERT 论文的模型就是使用维基百科和一本书的语料库进行训练的。与其他「普通」的语言模型相比,BERT 使用的数据是廉价的,这边是它所具备的一大优势。

大数据企业的全面复工吹响了贵安新区新一轮发展的号角。就在这个关键时刻,贵州省委、省政府于2月24日出台《关于支持贵安新区高质量发展的意见》(以下简称,《意见》),为加快把贵安新区打造成为西部地区重要经济增长极、内陆开放型经济新高地和生态文明示范区注入强劲动力、提供有力支撑。

在资金要素支持上,新政策赋予贵安新区省级经济管理权限,除法律、法规和国家明文规定不得下放的权限外,将涉及贵安新区的省级经济管理权限全部下放贵安新区行使;增强贵安新区防范化解风险能力,贵州省财政分步向贵安新区开发投资有限公司注入资本金50亿元,鼓励金融机构对涉及贵安新区开发投资有限公司的贷款融资进行展期重组,降低偿债成本。

上述模型必须同时学会两项任务,因为它实际的训练损失是两项任务损失的总和(即 MLM 和 NSP 可能性平均值的总和)。

让我们返回到前面,来讨论一下 BERT 到底是什么。

六、问题以及需要考虑的事情

陈晏亦表示,对贵阳来说,加快两地融合可以有效解决贵阳发展空间不足的问题,提升产业承载能力,促进产业集聚发展;对贵安新区来说,加快两地融合可以为新区产业发展提供资源要素支撑,贵阳贵安融合发展正解决了以上两个的不足。

这种信息通常具有更好的交互性,因此这里我给出了它的 GIF 图。如果感兴趣的话,你也可以打开以 Jupyter 笔记本形式记录的原代码,可以自行调整图中的参数,相关链接如下:

BERT 微调实际上会更新模型中所有参数,而不仅针对新任务中特定层的参数,因此这种方法不同于将传输层参数完全冻结的技术。

2019年,贵安新区规上工业总产值预计完成270亿元(人民币,下同),增长8%;大数据服务业快速增长,三大运营商、腾讯、华为、苹果等大数据中心建设进展迅速,以大数据为引领的高科技产业初具规模;现代服务业平稳快速发展,引进和培育一批现代服务业新业态,现代服务业对GDP贡献率呈现加速上升趋势。

无监督的基于特征的方法(如 ELMo),该方法使用预训练表示作为输入特征,但使用针对特定任务的架构(比如:它们为每个新任务更改模型结构)。事实上,所有研究者最喜欢的单词嵌入方式(从 word2vec、GLoVe 到 FastText)、句子嵌入和段落嵌入都属于这一类。ELMo 还提供单词嵌入,但以上下文敏感的方式,标记的嵌入或者表示是从左到右和从右到左的语言模型隐藏状态向量的连接。 无监督的微调方法(如 OpenAI 的 GPT 模型),它对有监督的下游任务的所有预训练参数进行微调,并且只通过引入一些针对特定任务的参数,来最小程度地改变模型结构。预训练是在未标记的文本上进行的,学习任务通常是从左到右的语言模型或文本压缩(就像自动编码一样,它将文本压缩成矢量形式,然后从矢量重建文本)。然而,这些方法使得对上下文建模的能力受到了限制,因为它们对给定单词的模型通常是单向、从左到右的,它没有能力将所有后来的单词合并到其表示中。 从有监督的数据进行迁移学习。此外,还开展了一些工作来迁移从具有大量训练数据的监督任务中学习到的知识,例如使用机器翻译模型参数来对不同的语言问题的权重初始化。

在财税、用地、用电等要素支持上。新政策明确提出,从2020年起,贵州省财政将连续5年每年安排10亿元用于贵安新区开发建设;省级分享的税收收入全额返还贵安新区;在贵州全省范围内依法统筹解决新区耕地占补平衡指标,对贵安新区的土地出让收益全额返还;确保电力优质可靠供应对贵安新区土地利用年度计划指标实行单列管理。

以贵安新区为核心,以贵阳高新区、贵阳经开区、安顺高新区、遵义经开区、双龙航空港经济区、贵阳综保区、贵安综保区、遵义综保区为重点的“1+8”国家级开放创新平台加快发展。贵州已与190多个国家建立贸易往来关系。

对于步入加快高质量发展关键时期的贵安新区来说,《意见》的出台可谓是再一次迎来“及时雨”,此举也是贵州省立足打赢疫情防控和经济社会发展“两场战役”的重要举措。

BERT 能够明显地让 NLP 任务轻易地实现迁移学习,同时在此过程中能够以最小化适应的方式在 11 个句子级和词级的 NLP 任务上,产生当前最好的结果。

BERT 原论文写得很好,我建议各位读者再温习下,原论文链接为:https://arxiv.org/abs/1810.04805。我将论文中用到的此前语言模型预训练和微调常用的一些主要方法总结如下:

中医药能够有效缓解症状,减少轻型、普通型向重型发展,能够提高治愈率、降低病亡率,促进恢复期人群机体康复。中国工程院院士、天津中医药大学校长张伯礼表示,方舱医院采取中药为主的中西医综合治疗,除了汤剂或者口服的中成药以外,还有按摩、刮痧、贴敷这些综合治疗。结果显示,各个方舱医院的转重率基本在2%到5%左右,显著降低了由轻症转为重症的比例,成为取得胜利的关键。

我们跟随她的脚步来看:

BERT 微调可能需要几分钟到几小时,这取决于任务、数据大小和 TPU/GPU 资源。如果你有兴趣尝试 BERT 微调,你可以在 Google Colab 上使用这个现成的代码,它提供对 TPU 的免费访问。相关代码如下:

一旦训练好的基础的 BERT 模型,后续通常需要经过两个步骤来对其进行微调:首先在无标签数据上继续进行无监督训练,然后通过添加一个额外的层并在新目标上训练,从而学习实际的任务(这里无需使用过多的标记数据)。

贵阳贵安携手融合发展启新程

但在 2019 年,随着 BERT 等模型的出现,我们看到了 NLP 领域转向更深度的知识迁移的重要转变,即迁移整个模型到新任务上,而这本质上是使用大型预训练语言模型作为可重用的语言理解特征提取器的方法。

内陆开放型经济新高地加速形成