深度剖析｜GPT爆发背后：自然语言处理的 20 年动荡

2023-03-29

周周

又一次，GPT-4 敛住所有老牌科企的光彩。

在 ChatGPT 被誉为范式转变之作的第 3 个月，谷歌推出 PaLM-E 视觉语言模型 (VLM)。功能上，除去让 AI 获得理解文字、图片的能力外，额外增添了输出指令生成机器人行动计划的控制回路。

谷歌显然急了。在 OpenAI 和微软的左右夹击下，他直接甩出大招。

这场相似的戏码他太熟悉。移动互联网时代的手机系统之战，以操作系统起家的微软没能在智能手机发展初期抓住生态切入点，败北后起新秀谷歌安卓。如今，紧锣密鼓研发大模型的谷歌被后起之浪 OpenAI 的突然成功打了个措手不及。

但即使谷歌发布出参数量高达 5620 亿、目前世界上最大的视觉语言模型 (VLM) PaLM-E，也没能挡住 GPT-4 打破戈尔迪之结。

回溯 2015 年，马斯克和山姆·奥特曼大概谁都不会想到，OpenAI 这家非盈利组织能够十年内追平谷歌的技术进展，撞破 AI 核心技术巨头垄断格局。GPT 的先发公测且开源底层平台也意味着更多更广的技术会以此为基础进行开发，这是个稳赚的开端。

任何成功的背后都是复杂的，自然语言处理技术跨越了三个阶段，到现在终于迎来变革。接下来，你会从当下回到过去，看到：

1. 自然语言处理的两次重要转折

2. Bert 和 GPT 模型的应用差异及成因

3. GPT 没有出现在中国的两个原因

4. 科技发展是技术在前应用在后

5. 自然语言处理：AGI 最重要的基础

01 Word2vec：让机器感知语义

我们把时间线拉到 20 年前——

2003 年，Yoshua Bengio 正式提出神经网络语言模型 (Neural Network Language Model,NNLM)，而 NNLM 依赖的核心概念就是词向量 (Word Embedding)。

如果说 GPS 是物理世界的位置符号，那么 Word Embedding 是语言世界的距离符号。

2010 年，Tomas Mikolov (谷歌团队) 对 Bengio 提出的 NNLM 进行改进，提出 RNNLM (Recurrent Neural Network based Language Model)，目标是利用所有上文信息来预测下一个词语。

但 RNN 存在长距离梯度消失问题，上下文记忆能力有限，很难追溯更远时间的信息。而且，只通过孤立单词或上文信息不足以让机器感知到特定环境下的单词含义。

于是，2013 年 Mikolov (谷歌团队) 提出 Word2vec，他们把这个方法称作“单词到向量”。Word2vec 的目标不再专注于建模语言模型，而是利用语言模型学习每个单词的语义化向量。

在 1986 年出版的《并行分布式处理》里有谈过这样的观点：“人类比当今的计算机更聪明，是因为人的大脑采用了一种更适合于人类完成他们所擅长的自然信息处理任务的基本计算架构，例如，‘感知’自然场景中的物体并厘清它们之间的关系......理解语言，并从记忆中检索上下文恰当的信息。”

研究人员想到，如果能够把每个词汇都标注为数字，以编码形式输入，那么编码器网络就可以通过反向传播在这些样本上训练。但是，一个非常重要的问题是，机器无法像人类一样获取单词或短语之间的语义关系。

语言学家约翰·费斯在 1957 年把这一思想表达为：你会通过与一个单词一同出现的词来认识它。比如生气往往和愤怒出现在同一语境，大笑和愉悦也常被放在同一语境。

研究人员“词汇表”发现在使用大量英文语料训练词向量后，queen 和 king 的词向量做差得到的向量与 woman 与 man 做差得到的向量几乎一样。于是得到一个等式：

queen-king+man=woman

这就是著名的“国王和女王”的例子，也是自然语言处理向理解语言进步的重要标志。

img_v2_1db841df-cbe7-4d80-8df7-1ab6db14839g_MIDDLE_WEBP.png

word2vec，包含 CBOW 和 Skip-gram 两组模型，分别根据上下文预测中心词以及根据中心词来预测上下文，简化网格结构。使用 Hierarchical Softmax、Negative Sampling 两种算法提升训练效率，优化词向量和语义方面能力。

在对机器进行词语、对话或是理念传达时，不同的语言使用方式和环境密不可分，因此，要消解机器对于模糊词、隐喻等困惑，构建机器对世界的认知系统，数据和模型在这种体系中格外重要。

当单词可以用坐标作为数字输入时，就大大提高了神经网络在 NLP 中的性能。RNN 语言模型虽然也能获得单词的分布式表达，但为了更好应对词汇量的增加、提高分布式表示的质量，word2vec 很快成为主流。

02 Transformer 和 Bert：从理论走向实践的一次蜕变

再把时间线拉到 5 年内——

2017 年，谷歌团队在论文《Attention is All You Need》中首次提出的 Transformer 架构，造就了一场关乎 NLP 研究的始发性变革。

深度学习时代，自然语言处理准确率的提升带来模型对有标注数据的高度依赖。因为数据稀缺和人力成本高昂，大型 NLP 语言模型训练进入瓶颈。

Transformer 预训练模型主要分为两段训练，先在大规模未标注语料库预先训练一个初始模型，然后在下游任务中利用标注数据对模型再次进行精调。相对而言，预训练模型效能更高，所需标注数据也更低。

很快，预训练语言模型成为自然语言理解任务中的基准模型。

GPT 和 BERT，这两个代表现代 NLP 技术发展的模型都建立在 Transformer 架构上。谷歌团队把这个语言架构浓缩成一句话：“Attention is All You Need.”

重要模型汇总

2018 年 10 月，谷歌团队发布的 Bert 语言模型让这项技术从理论走向实用的蜕变。

这是 NLP 一场全领域的狂欢。同时也预示着自然语言处理有史以来最强烈的一次进化即将开启。

在过往许多研究 AI、NLP、AGI 技术的书籍中都提到过一个词，叫“意义的障碍”。机器和人类间存在着交流沟渠，所以创造出一种让机器理解人类写作、说话方式的能力进而协助人类，是 NLP 的初衷。

人类拥有的能力之一，是感知并反思自己的思维方式，即透过现象以某种本质深刻的方式来理解周围情景，机器并不具备这种理解能力。NLP 的目标就是让机器在理解语言上像人类一样智能，弥补人类交流 (自然语言) 和计算机理解 (机器语言) 之间的差距。

但语言这种具象表达方式，从标引符号演变为象征符号，再演变为语法，是个漫长的过程。自然语言是一种“活着”的语言，它在不断在向前演进、生长。从过去到现在，有许多俚语不断被淘汰，又有许多词语生成出来。基于此，这种可以择世生存的自然语言处理技术研发变得相当困难。

在 Bert 发布前，大部分 NLP 任务是基于 word2vec+RNN 的基本架构。由于数据匮乏，NLP 进展一直不像 CV 那么顺利，于是有些学者就将基于 CV 的思想应用到预训练+微调的架构上，ELMo 和 GPT 就是采用这种方式。

Bert 在两个方向进行创新。首先提出两阶段模型，第一阶段双向语言模型预训练，第二阶段具体任务 Fine-tuning；其次特征提取器变为 Transformer。几乎所有的 NLP 任务都可以采用 Bert 两阶段训练思路，所以此后的几年，几乎所有企业都在以 Bert 为基础进行改进，研发方向的转折也就此开始。

03 GPT 没有出现在中国的两个原因

从自然语言角度出发，自然语言处理大致可分为自然语言理解和自然语言生成两个部分。

自然语言理解：让计算机能够理解文本意义，核心是“理解”。具象来说，就是把语言表示成可分解的符号或语音，从中提取有用的信息用于下游任务。研究方向包含语言结构、信息抽取、信息检索、词性标注和句法分析。

自然语言生成：它是按照一定语法和语义规则生成自然语言文本、图表、音视频，即对语义信息以人类可读形式进行表达，简单来说是从文本规划到语句规划再到实现。主体分为三大类，文本到文本 (Text to Text)、文本到其他 (Text to Other)、其他到文本 (Other to Text)。

以 BERT 和 GPT 为例，即使都属于预训练模型，但在技术研发方向存在分流：

BERT

(Bidirectional Encoder Representations from Transformers)

双向语言模型，可以同时利用上下文信息进行预测，是自然语言理解任务中的基准模型。Transformer 的 Encoder 模块构成，采用预训练和微调两阶段模型训练，属于半监督学习模型，即在预训练时使用大量无标注数据，属于自监督训练，而微调时采用少量有标签数据，属于有监督训练。

Bert 的预训练包含掩码语言模型 (Masked Language Model, MLM) 和下一句预测 (Next Sentence Prediction, NSP) 两个任务，引入基于自编码的预训练任务进行训练。

这种训练方式让 BERT 可以有效捕捉文本中的语义信息，因此被广泛用于文本分类任务，如机器翻译、情感分析、垃圾邮件识别、新闻分类、问答系统、语义匹配等方向。

GPT

(Generative Pre-Training)

单向语言模型，自回归语言建模方式，两段训练：生成式预训练+判别式任务精调。

第一阶段，利用大规模数据训练出基于深层 Transformer 的语言模型；第二阶段，在通用语意表示的基础上，根据下游任务特性进行领域适配。微调通常是在一个较小的数据集上进行的，因此可以使用较小的学习率和少量的训练迭代次数来进行训练。

单向训练方式只能利用之前的文本进行预测，因此适用于自然语言生成、问答系统、机器翻译等任务。

表征和表达能力上，相对单向语言模型 (GPT)，双向语言模型 (Bert) 能力更强。因为单向语言模型中，只能依赖于前词，而无法获取后词信息，在处理复杂自然语言任务时，可能会由于无法充分捕捉上下文信息，影响模型的性能。反之，双向语言模型优势明显。

但是，BERT 的双向性增强了它的理解能力，但在一定程度上限制了生成能力，相较于单向模型仅通过上文即可进行续写生成，双向模型在缺乏下文语境时的生成能力受限。对整个句子进行双向处理，也意味着模型较大，训练和推理时间长，所需计算资源和存储空间更多。GPT 在简化程度、训练及推理速度上更快，更加适用于实时性要求高的场景。

相对于 GPT 这种单向语言模型，BERT 的双向语言模型虽然存在缺点，但在实际应用中更加灵活和具有表达能力，也更容易迁移和扩展。在模型研发方面，BERT 更注重模型的可复用性和通用性，适用于多种自然语言处理任务的应用。

研发上，BERT 引入了 Transformer Encoder 的网络结构，用于对输入的序列进行编码；而 GPT 则采用 Transformer Decoder 的网络结构，用于生成自然语言文本。

模型复杂度方面，BERT 比 GPT 的模型架构更加复杂，训练方式上，Bert 需要在自定义数据上进一步微调，相比之下，BERT 来说更加复杂和繁琐。

“梅须逊雪三分白, 雪却输梅一段香。”总的来说，BERT 和 GPT 两者各有千秋，设计和应用方向的差别，决定它们适用于不同应用环境。

Bert 语言模型提出后的一年内，涌现了许多对其进行扩展的模型，其中包含 XLNet 模型、RoBERTa 模型、ELECTRA 模型等。并且，大多数 NLP 子领域研发模式切换为：预训练+应用微调/应用 Zero 、Few Shot Prompt 模式。

XLNet 模型

使用 Transforner-XL 代替 Transformer 作为基础模型，XLNet 提出了一个新的预训练语言任务：Permutation Language Modeling (排列语言模型)，模型将句子内的词语打乱顺序，从而使得预测当前词语时可以利用双向信息。XLNet 相对 BERT 也使用了更多的语料。

RoBERTa 模型

RoBERTa 采用了与 BERT 具有相同的模型结构，同样采用了屏蔽语言模型任务进行预训练，但舍弃了 BERT 中下句预测模型。此外，RoBERTa 采用了更大规模的数据和更鲁棒的优化方法，从而取得了更好的表现。

GPT目前已经发布五代，从 GPT-3 代起与 Bert 逐渐拉开差距。实际上，它不仅仅是一项具体的技术，更多是体现出关于 LLM 的发展理念的不同。

ChatGPT 是从生成式预训练 Transformer，即 GPT-3.5 在文本和代码的混合语料训练后，再微调得到的，使用了来自人类反馈的强化学习 (RLHF) 技术，即带有搜索启发式的强化学习，它将两种目的紧密结合，用以解决复杂的搜索问题，也是目前大型 LLM 与人类意图较匹配的方法。

反观自然语言处理的发展史，谷歌的模型升级更迭贯穿始终，竞争力较强，但 DeepMind 一直以来的重心在强化学习和 AI 技术方面，在生成式模型研发押注不够。

以往，GPT 的可商用场景不明确，但 Bert 的商用趋势却十分明显，因此语义理解精准度一直是领域发展重点，国内外大部分企业也是以 Bert 模型路线进发。尽管谷歌反应够快，2022 年 4 月便发布出 PaLM 和 Pathways，全力追赶 LLM 技术，但仍是入局尚晚。

经不完全统计，我国自然语言处理布局目前有 52 家，大部分布局重心在前端，即应用端，虚拟人、智能语音、翻译及基于 NLP 技术的 RPA 这几类发展较为靠前。科技所谓技术在前、应用在后，在我国似乎体现不明显。

不过，不只是我国，谷歌尚且在 LLM 上落后一线，这只能说明在之前的研发理念上存在分歧。目前来看，百度、阿里、华为、讯飞等企业的大语言模型研发能力存在潜力，数据、技术积淀上在国内有相对优势。

我国在发展新技术时往往会首先看商用化可行性，这与国内创业环境有关，包含医药研发在内，几乎所有领域都会考虑短线收益，这种方式并不适合新技术的产生。

从整体走向局部，从应用走向基础，着眼算力、芯片、框架逻辑、理念意识才是关键。决定技术进展的往往是基础力，弯道超车无异于拔苗助长，于核心技术进展无益。

04 自然语言处理：AGI 最重要的基础

GPT-4 出现让自然语言处理社团分成两股：相信 AGI 和不信的。

进入大模型时代，范式改变给 NLP 带来内核上的转变，许多独立存在的子领域被纳入 LLM，不再独立存在，LLM 热度空前。

2 月 25 日，OpenAI 萨姆·奥特曼在博客中分享其对 AGI 的当前和后续规划，以及 OpenAI 驾驭 AI 的风险。

他的短期计划是使用 AI 来帮助人类评估更复杂模型的输出和监控复杂系统；长期计划是使用 AI 来帮助提出新的想法以实现更好的对齐技术。他认为，一个错位的 AGI 可能会对世界造成严重伤害，一个拥有决定性超级智能领导的专制政权也可以做到这一点。

在微软 3 月发布的长篇报告中，微软说：“考虑到 GPT-4 功能具有的广度和深度，我们认为可以合理地认为它是通用人工智能 (AGI) 系统的早期（但仍不完善的）版本。”

不过，他们也承认，“虽然GPT-4 ‘对处理许多任务而言达到或超过人类的水’，但其整体‘智能模式显然不像人类’。所以，大致来讲，即使它确实表现出色，但仍然不能完全像人类一样思考。”

微软提到了一个词——“思考”。

有许多哲学家认为，即使通过图灵测试的机器也不会实际上思考，而只是对思考的模拟。

斯坦福大学教授克里斯托弗·曼宁在 2017 年提出：到目前为止，深度学习已经使得语音识别和物体识别的错误率大幅下降，但其在高级别的语言处理任务中并没有产生同等效用。

人类语言往往依赖于常识及对世界的理解，要机器处理更高级别的语言任务。就要让它完全理解人类语言，具备人类的常识和无意识行为。目前的 LLM 还很难做到。

不过，20 世纪 90 年代，发明家、未来学家雷·库兹韦尔发现这样一个规律：一旦技术变得数字化，或者它可以被编辑为以 0 和 1 表示的计算机代码，它就能够脱离摩尔定律的束缚，开始呈指数级加速发展。

简单来说，技术发展后的产物会被用来加速产物升级，这就创造了一个正反馈循环。根据该理论，技术改良以过去的成就为基础，每十年革新步调就会加倍。

传说西塔发明了国际象棋而使国王十分高兴，他决定要重赏西塔，西塔说：“我不要你的重赏，陛下，只要你在我的棋盘上赏一些麦子就行了。在棋盘的第 1 个格子里放 1 粒，在第 2 个格子里放 2 粒，在第 3 个格子里放4粒，在第 4 个格子里放 8 粒，依此类推，以后每一个格子里放的麦粒数都是前一个格子里放的麦粒数的 2 倍，直到放满第 64 个格子就行了”。区区小数，几粒麦子，这有何难，“来人”，国王令人如数付给西塔。计数麦粒的工作开始了，第一格内放 1 粒，第二格内放 2 粒第三格内放 2’ 粒，…还没有到第二十格，一袋麦子已经空了。一袋又一袋的麦子被扛到国王面前来。但是，麦粒数一格接一格飞快增长着，国王很快就看出，即便拿出全国的粮食，也兑现不了他对西塔的诺言。

独立指数技术加速浪潮，已经开始呈现出与其余独立指数技术加速浪潮融合的趋势。比如，自然语言处理技术的加速发展，不仅仅是因为 NLP 或 LLM 的单项技术，还因为 AI、深度学习、神经网络等正加速发展的技术在向这个范围靠拢。

2000 年，互联网创始人提姆·伯纳斯-李提出“语义网”概念。他希望建立一个“本体”为基础的、具有语义特征的智能互联网，不仅能够理解语义概念，还能够理解之间的逻辑。突破单句限制，根据整个动态交互过程中的语义和语境的变化情况，对用户实时输入的语句进行处理并生成结果，是实现语义网的基础。

正常的发展逻辑是首先通过解决语义表达，让计算机利用对现有信息的经验积累和理解，上升到更深层次。这也意味，AI 时代，语义处理会成为操作系统的核心，所有软件技术都会基于语义技术的进展而确立上限。

语言处理的进展，目前主要通过大数据和模型框架及训练模式的互补和变化来构建。数据存在歧义性。LLM 时代，数据成为重要核心，机器在进行词语、对话或理念传达时，使用环境和使用方式可以左右最终成果。因此，要消解机器对于模糊词、隐喻等困惑，构建机器对世界的认知系统，人，在这种体系中格外重要。

本文作者：周周

本文来源：牛透社

分享到：

声明：本文由入驻牛透社的作者撰写，观点仅代表作者本人，绝不代表牛透社赞同其观点或证实其描述。