当我们提到“猫”的时候：约书亚·本吉奥谈自然语言处理难题

澎湃新闻 2018-11-09 07:38 大字

当我们提到“猫”的时候，我们不仅会想到一个抽象的概念，还会想象到猫的形象，甚至会记得一只猫咪趴在腿上时柔软的触感。与人类相比，目前的人工智能自然语言处理系统还不能真正理解句子的含义。因而，它们时常犯一些“非常愚蠢的错误”。

2018年11月6日，Yoshua Bengio（约书亚·本吉奥）在“二十一世纪的计算”国际学术研讨会暨微软教育峰会上与澎湃新闻（www.thepaper.cn）记者谈到了自然语言处理技术的发展状况。作为其中一位深度学习奠基者，他希望建立自然语言理解系统来理解“语言所指的世界”。

Yoshua Bengio接受澎湃新闻采访

Yoshua Bengio成长于加拿大，现居蒙特利尔，在蒙特利尔大学（University of Montreal）计算机科学与运算系任教授。业内戏称他与同样活跃于加拿大的“神经网络之父”Geoffrey Hinton和“卷积网络之父”Yann LeCun为“加拿大黑手党”（Canadian Mafia）。

自然语言处理的“常识”难题：“甚至没有两岁小孩的理解能力”

Bengio的其中一个重要研究领域是自然语言处理（NLP）。简单来讲，自然语言处理指的是实现人与计算机之间用自然语言进行有效通信，其中既有自然语言理解的过程，也有自然语言生成的过程。由于自然语言本身存在的歧义性或多义性，实现高质量的自然语言处理有相当的难度，但目前已经取得了不小的进展。

Bengio表示，基于大量的文本，人们已经建立了大型系统，在语言处理中表现不错，但也出现了明显的局限性。最明显的问题是，目前的自然语言系统其实并不理解句子的真正含义。机器“会犯一些非常愚蠢的错误，甚至没有两岁小孩的理解能力”。现有的自然语言处理系统掌握了大量的词汇量和语言转换的技巧，但是系统不了解语言具体指代的是什么。Bengio认为，语言是一个工具，用来指代世界上正在发生的事情，指代我们头脑中的概念，“这些概念不是纯粹抽象的，它们锚定在我们世界的现实中，很多关于这些概念的知识不能通过简单阅读大量的文本而获得。”使用大量的数据，人们可以让机器掌握任何人一生都无法经历的巨大文本数量，“但这些机器的理解非常有限”，换言之，“机器缺失了常识”。

是否有解决办法？Bengio给出了肯定的答案。他首先聊到了常识，聊到了三岁小孩对世界的理解。“常识是指我们对周围世界的广泛理解”，他举例说，一个两岁或三岁的孩子，她有物理常识，她知道重力、液体、容器、压力等等，她也懂一点心理学，甚至懂一点因果关系，“她能在某些方面直观地理解这个世界”，渐渐地，她会知道语言中某些词汇在现实里所指代的事物。

他接着提出了猫的例子。当我们提到“猫”的时候，我们不仅会想到一个抽象的概念，还可以想象到猫的形象，甚至会记得一只猫咪趴在腿上时柔软的触感。“我们用这些词汇时，实际上伴随着所有与它们相关的感知联想。而这些知觉或行动，对于理解句子来说很重要”。他认为这种感知和理解力的缺失是电脑不擅长理解语言的原因。

人类为了理解语句，必须对现实世界中发生的事情有一个“心理图像”，而这些信息并不存在于语言文本中。对人类而言，人们“必须要有常识，有对世界的直观理解”，才能正确理解语义；同理，对计算机系统来说，“如果只在文本上进行训练，这个问题就得不到解决”。

上面的例子启发了Bengio，他认为，我们不能独立地用模型构建来进行语言学习，还需要同时建立起这个世界的模型：像一个孩子那样直观地了解这个世界的运作法则，并且为概念命名，如此一来，我们才可以用语言来指代这个世界中的事物。

他肯定了神经科学在其中的作用，并表示，神经科学已经在很多方面帮助了机器学习。从50年代开始，深度学习借用了神经科学和认知科学的许多概念。近期，人们用来制作深度网络的一些技巧都源于神经科学或认知科学。

除了科学领袖，加拿大还想成为“AI道德领袖”

美国的“佛系”邻居加拿大在人工智能尤其是机器学习领域有相当数量的顶尖科学家和科研人员。除了Yoshua Benjio、Geoffrey Hinton（谷歌大脑人工智能团队首席科学家）、Yann LeCun（Facebook人工智能研究主管）这三位深度学习“三巨头”，还有蒙特利尔、多伦多等AI重镇。

为什么加拿大在人工智能领域如此优秀？Benjio在采访中给出了一些答案。在他看来，

一个重要因素是加拿大比很多国家更早开始做深度学习研究，“特别是在蒙特利尔，一大批研究人员在做这些研究”。另外，加拿大政府也在这类研究中投入了大量资金，这些资金被用来招募教授、招收更多的学生、做大量的研究。

还有一个很重要的原因是加拿大是第一个提出AI战略的国家。Benjio称，加拿大是第一个真正有国家战略去发展AI科研和AI经济的国家，“加拿大一直是一个科学领袖，它正在建造大量的高科技AI公司。但当然加拿大是个小国家，不像中国或美国。”

除了科学领袖，“加拿大还想成为AI的道德领袖”。Benjio认为，AI非常强大，并且在未来将更强大。因此，如何开发、应用AI非常重要，这会对社会和普通人都产生影响，“在道德层面，需要政府参与以确保AI没有被滥用”。

为了AI的社会化责任发展，蒙特利尔花了一年左右的时间提出了一份蒙特利尔宣言（Montreal Declaration）。这个宣言包含七个原则，关乎到人们应如何从伦理、社会角度去建造AI系统。他希望这将有助于指导公司和政府做出决策。Benjio提到了这份道德宣言的特别之处，它不仅仅吸收了计算机科学家的意见，还有哲学家、经济学家、社会学家、人文学者等参与其中。除此之外，他们与公众进行了磋商，在公共图书馆询问人们对AI的担忧，以获取对于该声明的反馈。

Benjio还认为，对于AI的伦理问题，我们需要一些全球性的规则。“有一些明确的道德底线是不应该被逾越的”。他提到了AI的军事用途，他希望所有国家或大多数国家都同意避免使用可能真正危及人类生命安全的技术。他开玩笑说，“你可以想象比如一些国家建造杀人无人机去瞄准AI科学家……我们不希望这样”。

自动编程、打破语言障碍与学习外星语言

澎湃新闻（www.thepaper.cn）还在采访中与Benjio聊到了一些有趣的问题：

澎湃新闻：有没有可能使用深度学习实现自动编程？

Yoshua Benjio：有好几个人试图这么做。这很难。我认为目前还没有很好的解决方案。但这是一个有趣的问题，因为它关系到推理，即人们称为系统二任务。在心理学中，系统二任务是我们按顺序执行的任务，比如一些程序设计之类的任务，是需要人们有意识地去做的事情。我不认为当前的机器学习在这些方面能做得很好，但我们需要取得进步。所以我认为研究人员正在研究这件事是很好的。

澎湃新闻：在一百年内，人们可以打破语言的障碍吗？

Yoshua Benjio：是的，但其实我不知道，因为我没有水晶球。我的朋友Yann Lecun有一个很好的比喻：我们在爬山，取得了很大的进步，我们非常高兴，“哦，太好了，看看我们在几年间取得了这么大的进步”。但当我们越爬越高的时候，我们看到了什么？另一座山在后面。你认为另一座山后面是什么？可能是另外一个。这在科学上很普遍，当我们在这些问题上取得进展时，我们看到了我们没有意识到的其他挑战。所以也许需要20年，也许需要两百年才能解决这些挑战，因为我们还不知道挑战是什么。

澎湃新闻：人们是否能通过深度学习掌握外星人的语言，如果有外星人存在的话？

Yoshua Benjio：至少不是通过目前的深度学习。因为目前的深度学习甚至不能学习人类语言。我的意思是，我们目前训练的系统非常有用，但是它们不明白自己在说什么。

新闻推荐

美联储宣布维持联邦基金利率不变符合市场普遍预期

新华社华盛顿11月8日消息，美国联邦储备委员会8日宣布将联邦基金利率目标区间维持在2％至2.25％的水平，符合市场普遍预期。美联...