自然语言理解新突破：科学家让 AI 不止看懂“字面意思”

2021-07-22 来源：中电网

5941

据外媒报道，近日，伦斯勒理工学院的两位科学家撰写了一本名为《人工智能时代语言学（Linguistics for the Age of AI）》的书。

该书探讨了目前的人工智能学习方法在自然语言理解 (natural language understanding，NLU) 中的瓶颈，并尝试探索未来发展智能代理（intelligent agents）的途径。

《人工智能时代语言学》的作者 Marjorie McShane 和 Sergei Nirenburg 发现了一种突破人工智能学习语言瓶颈的新方法，并称为“语言赋能智能体（Language endowed intelligent agents，LEIA）”。该方法能在减少训练模型数据量的情况下，进一步提升人工智能理解人类语言的准确性。

他们认为，人工智能系统必须超越对词语字面意思理解的范畴。他们在书中用案例显示了，自然语言理解系统能够帮助人工智能理解世界、向人类解释他们的知识并在探索世界的过程中学习。

▲ 《人工智能时代语言学》

一、AI 学语言的两种方法：被动告知 or 主动学习？

例如一个歧义语句的案例：“开刀的是她父亲”。这句话有两种理解方式，她的父亲是医生去操作开刀手术，或者她的父亲是被医生开刀的患者。

有些语句单独看充满了歧义，但人类能够通过语境来解决这些歧义。我们通过说话者的语气、语境和对话的一般逻辑以及生活基本常识的线索来构建上下文。当我们的直觉和知识未能帮助我们理解句子的时候，我们会提出疑问。对我们（人类）来说，确定上下文的过程是很容易的。但是让计算机用程序思维来理解相同的过程并不简单。

科学家提出了两种方式来尝试解决这个问题。

第一种方式是科学家在人工智能发展的初期使用的。科学家通过知识库（Knowledge-based）系统来确定句子中的每一个单词的作用，并提取上下文的含义。但知识库系统依赖大量的关于语言、情境和世界的特征（features）。这些信息可能有着各自的来源，并且（在计算机中）需要独立的计算方式。

知识库提供了可靠（reliable）和可解释（explainable）的语言分析方法。但后来它们逐渐“失宠”了，因为它们需要太多的人力来设计特征、创建词汇结构（lexical structures）和本体（ontologies），以及开发将所有这些部分结合在一起的软件系统。研究人员认为知识工程（knowledge engineering）的瓶颈是手动工作（manual effort，大量的人工操作且不能穷举所有结果），他们尝试寻求其他方法来进行语言处理（language processing）。

“公众认为任何试图克服这种所谓的知识瓶颈的努力都是徒劳的，这深刻影响了人工智能的发展道路，特别是自然语言处理，使该领域远离了理性主义、基于知识的方法，并促成了经验主义的出现。”McShane 和 Nirenburg 在《人工智能时代的语言学》中写道。

近几十年来，机器学习算法（machine learning algorithms）已经成为神经语言程序学（Neuro-Linguistic Programming，NLP）和自然语言理解（Natural Language Understanding，NLU）的核心。

部分科学家逐渐开始使用第二种方式，利用知识学习系统（knowledge-lean systems）来训练机器学习模型，使人工智能通过统计关系来处理语境问题。在训练过程中，机器学习模型需要处理大量的文本资料，并根据单词与单词相邻位置的方式来调整其参数。在这些模型中，语境是由单词序列之间的统计关系决定的，而不是单词背后的含义。不过，数据集越大，例子越多样化，这些数字参数就越能捕捉到单词彼此之间的各种出现方式（能够记录单词与单词的排列参数）。

知识学习系统之所以得到普及，主要是因为大量的计算资源和大型数据集可以被用来训练机器学习系统。通过维基百科等公共数据库，科学家们已经能够收集庞大的数据集，并针对翻译、文本生成和问答等各种任务，设置机器学习的专项训练。

二、机器记录了数据并不意味“理解”了数据

今天，我们的深度学习模型可以生成文章长度的文本序列，回答科学考试问题，编写软件源代码以及回答基本的客户服务查询。这些领域之所以能取得进展，是因为深度学习架构（LSTMs，Transformers）得到了改进。更重要的是，神经网络研究每年都有新的进展。

但是，虽然更大的深度神经网络可以在特定任务上逐步取得进展，但它们并不能解决“通用自然语言理解（general natural language understanding）”这一更宽泛的问题。这就是为什么各种实验表明，即使是最复杂的语言模型也无法回答有关世界是如何运作的简单问题。

在 McShane 和 Nirenburg 的书中，他们把目前人工智能系统解决的问题描述为“唾手可得的水果（low-hanging fruit）”任务。一些科学家认为，继续沿着神经网络的道路前进，最终会解决机器学习正面的语言学问题。但 McShane 和 Nirenburg 认为，还有更根本的问题需要解决。

“当前的系统不像人类，它们不知道自己在做什么以及为什么这样做。它们解决问题的方法也不像人类，而且它们不依赖于世界、语言或机构的互动。”他们写道，“相反，它们在很大程度上依赖于将通用机器学习算法应用于越来越大的数据集，并得到现代计算机惊人的速度和存储容量的支持。”

▲ 人工智能

三、真正了解学习意义的 AI 才真“智能”

身为认知科学家和计算语言学家的 McShane 表示，机器学习必须克服几个障碍，其中首先是意义的缺失（真正让计算机了解学习的意义，而不是单纯的背答案）。

“统计/机器学习（The statistical/machine learning，S-ML）方法并不试图计算意义（compute meaning）（目前的计算机学习仅能进行数据处理，并不能真正理解数据的含义）。”McShane 说。“从业者（部分研究人员）认为单词（在句子中）足够代表它的含义，但事实并非如此。当涉及到完整的上下文意义时，一个句子中的单词（意思）只是冰山一角。对人工智能来说，混淆词语的含义就像把船开向冰山一样令人担忧（人工智能在不能完全正确理解语言指令含义的时候，会导致后续的一系列错误）。”

在大多数情况下，机器学习系统通过缩小任务范围或扩大数据集来回避处理词义的问题。但是，即使一个大型的神经网络能够“创作”一段长文本并保持语义的连贯性，它仍然不能理解它所“写”的词句的含义。

“人们可以搭建一个看起来十分“智能”的系统，但实际上它们（人工智能）并不知道发生了什么（例如，GPT-3）。”McShane 说。

▲ GPT-3

所有基于深度学习的语言模型，只要你问它们一系列琐碎但相关的问题，它们就会开始崩溃，因为它们的参数无法捕捉日常生活中无限的复杂性。在这个问题上投入更多的数据并不能让它们变得更加“智能”。

四、赋能 AI 突破语言学习的瓶颈

在他们的书中，McShane 和 Nirenburg 提出了一种不需要求助于纯机器学习（纯机器学习需要大量数据），而且解决了自然语言理解的“知识瓶颈”的方法，它被称为“语言赋能智能体（LEIA）”。它有三个关键特征:

1.LEIAs 能够理解敏感语境下的语言含义，不至于造成歧义。

2.LEIAs 可以向人类解释它们（AI）的思想、行动和决策

3.LEIAs 能够在与“世界”互动中终身自主学习，减少人类对其扩展知识库的需求。

LEIAs 对自然语言进行了六个阶段的处理，从确定单词在句子中的作用，到语义分析，最后到情景推理。这些阶段使得 LEIA 能够解决单词和短语不同含义之间的冲突，并将句子整合到主体工作的更广泛的环境中（将句子的表达方式调整的更像人类的语言）。

LEIA 为它们的语言表达设置了信心水平，并知道它们的技能（语言技巧）和知识在哪里达到了它们的极限。在遇到理解力的极限的情况下，它们能与人类 (或其他高等智能) 进行交互以解决语言歧义的问题。这些互动反过来使它们能够学习新事物，扩大它们的知识储备。

LEIA 将句子转化为文本意义表述（text-meaning representations，TMR），即句子中每个词的可解释和可操作的定义。根据其（语句）背景和目标，LEIA 决定哪些语言需要跟进处理。例如，如果一个维修机器人与几个人类技术人员处在同一个机器维修的车间，而人类在讨论昨天的体育比赛结果，那么人工智能应该能够区分与它的工作（机器维修）相关的句子和它可以忽略的句子（体育）。

LEIAs 主要使用 knowledge-based systems，但它们也在处理语言的过程中使用了机器学习模型，特别是在语言处理句子解析的初始阶段。

五、AI 真的需要模拟人类大脑思维吗？

LEIA 的主要特点之一是整合了知识库（knowledge bases）、推理模块（reasoning modules）和感觉输入（sensory input）。目前，计算机视觉（computer vision）和自然语言处理等领域的重叠很少。

正如 McShane 和 Nirenburg 在他们的书中所指出的，“语言理解不能脱离整体认知（overall agent cognition），因为语言理解有时也需要其他感知模式（如视觉）的辅助。

在现实世界中，人类利用丰富的感官体验来填补语言表达的空白（例如，当有人告诉您“看那边？”时，他们假设您可以看到他们的手指指向的位置，并补充信息）。人类对话的思维逻辑能做出假设并省略语言中的细节。我们希望与我们交互的智能代理（intelligent agent）都具有类似的功能。

“我们完全理解为什么单独处理的方式（silo approaches）是现在的常态，毕竟解决每一个问题都很困难，而且每个问题都需要单独进行研究，”McShane 说。“然而，如果不进行整合，问题是无法从根源解决的（人工智能语言学习的发展应该整合多个模式）。”

同时，实现类似人类的思考逻辑并不要求 LEIA 完全复制人类大脑。McShane 说：“至少在这个发展阶段，神经科学（neuroscience）不能为我们的认知建模（cognitive modeling）提供任何语法上和内容上的帮助。”McShane 和 Nirenburg 认为，复制大脑并不能为人工智能解释目标（语句）所服务。