数据要素产业

下一波人工智能将更加强大

12-08 00:42

人工智能是一个涵盖图像识别、自然语言处理（NLP）和机器人等多方面维度的广泛领域。AI也在以一种有时看似疯狂的速度发展，因此很难跟上正在发生的一切。

不出所料，许多组织转向他们的IT供应商合作伙伴，帮助他们开发和部署AI解决方案，以最好地满足他们的需求。大卫·埃里森是联想公司的高级人工智能数据科学家，他的职责包括使用先进的人工智能技术为客户组织提供解决方案，同时在内部支持联想全球数据中心集团的整体人工智能战略。

联想已投入商业运营的项目包括利用卷积神经网络从图像中提取特征，并将其归类为缺陷，以检测工厂的制造缺陷。联想还为一家赛车公司开发了一套计算机视觉系统，以决定是否应该让特定的汽车进入维修站进行维修。

埃利森表示，今年和不久的将来，人工智能的主要趋势包括基于计算机视觉的应用程序、用于训练人工智能模型的数据生成和数据标记算法的开发，以及基于转换模型的自然语言处理的快速进展。

联想对人工智能近期主要趋势有如下展望：

计算机视觉

在计算机视觉方面，开发人员和研究人员现在开始探索将这种能力与人工智能的其他一些领域相结合的实用方法，比如机器人技术或自动应用图像字幕等应用的自然语言处理。据埃里森介绍，这部分是因为计算机视觉的一些基本问题已经被证明很难解决，研究人员正在寻找新的方法来解决这些问题，而不是简单地推动研究领域向前发展。

埃里森：“我认为我们在解决一些核心的计算机视觉任务时遇到了问题，比如3D投影，当你看到一张图片，一栋建筑的二维图像，人类的大脑可以将其推断成三维形状，但机器很难做到这一点。”在这方面已经有很多研究，但这是一个尚未解决的核心问题，我认为人们会感到沮丧，会尝试一些新东西，或者尝试将它与其他领域相结合，找到更好的用途。

埃里森认为，这就是为什么机器人技术是目前最广泛研究的人工智能领域之一，因为它为人们提供了一个明确的目标。他列举的例子包括使人工智能能够使用视觉感应在其周围的空间中安全移动——无论是制造工厂的机械臂，还是使用人工智能导航到目的地的自动车辆。

训练数据

熟悉人工智能的人会知道，成功训练一个模型的关键因素之一是数据，这需要大量的数据。事实上，它所训练的数据越多，就越能更好地交付你所寻求的结果。据埃里森不是，计算机视觉目前很困难，因为用于训练模型的数据集没有包含足够多的样本。例如，吉布森三维空间数据库（Gibson Database of 3D Spaces）是一个广泛使用的数据集，用于训练模型在室内空间中导航，它包括572栋完整的建筑，共1447层。虽然令人印象深刻，但这不太可能是一个人工智能系统在现实世界中可能遇到的全面集合。

当物体的方向与计算机视觉模型所训练的方向不同时，也会出现类似的问题。在被广泛用于人工智能训练的ImageNet数据集中，埃里森：“一把椅子只是一张椅子的照片，面对着镜头。如果你把椅子翻过来，电脑视觉应用程序突然就认不出它了。”

这个缺点是一个名为ObjectNet的新数据集的灵感来源，它以不同的配置显示日常项目，例如椅子翻转或倒置。这个训练集被用来解决计算机视觉的一些缺点，例如不能识别方向不正常或部分模糊的物体。

但是为人工智能训练获取足够大和多样化的数据集的问题仍然存在，这导致了埃里森发现的另一个主要趋势，即首先使用人工智能来生成数据集。

自我监督和综合数据

数据集需要大量的人工数据标签，因此越来越多的研究项目现在都集中在自我监督算法上，它可以获取已经收集到的数据，并让计算机自动给数据贴上标签。

埃里森解释：“一个典型的例子就是一个具有计算机视觉应用和接近传感器机器人。计算机视觉能够比接近传感器看得更远。但是当机器人向前移动时，出现在计算机视觉中的东西最终会以物体的形式出现在近距离传感器中。”根据传感器的数据，回溯到物体第一次被发现的时间，然后对其进行标记。

人工智能系统一旦部署就不太可能遇到这样的问题，因此可能无法在训练数据集中表示出来，这是开发人员面临的另一个挑战。然而，如果这些边缘情况代表了真实场景，那么就需要考虑这些情况，以确保AI模型正确地处理它们。

“关键的例子是自动驾驶。在你的数据集中有多少次在昏暗的暴风雪中开车上山？你的数据集中不会有很多这样的情况，所以他们本质上必须做模拟数据。”

换句话说，边缘案例是通过使用合成数据来处理的，合成数据是使用各种方法来创建的，例如生成模型。但这也产生了一个问题，即数据科学家或开发人员如何才能确保这些合成数据准确地反映出人工智能在现实生活中会遇到什么情况。

“这很关键，”埃里森承认，但到目前为止的解决方案只是生成更多的数据，并希望这将用足够的合成数据填充那些用例。同时也也使用了神经网络自动编码器或更复杂的生成对抗网络（GANs）等方法，其中一个网络创建合成数据，另一个网络用于判断候选数据的质量。

埃里森：“所以这是一种自我训练，来模拟出足够现实的案例。你同时训练两个神经网络，一个生成这些例子，一个判断这些例子，你希望最终得到一些更现实的东西。”

GANs已经被用于生成数据的一个很好的例子就是“深度伪造”技术，这种技术已经被用于创建逼真的人脸，或者改变视频，使视频中的人看起来像是在单独的音轨中说话。据埃里森介绍，这表明了这类模型已经达到的比较复杂程度。

自然语言处理

尽管如此，基于转换的深度学习模式是过去几年在自然语言处理领域的成功案例之一，埃里森相信这些模式将继续占据主导地位。这是因为它们已经发展到能够识别句子之间的依赖关系和连接，而在早期的模型中使用的循环神经网络（RNN）［1］本质上是连续的，并且往往会丢失单词的上下文。

“一个带有隐藏的多头传感器的转换器，会添加规范层和前馈层，但它没有所有的反馈机制，而这些反馈机制会减慢处理速度，所以他们能够看到更大的区域。”

按照埃里森的说法，这对模型解释含义的能力有影响，而RNN在多个句子中识别同一个实体时存在问题。一个算法很难做出这两个句子之间的飞跃，递归神经网络在这方面存在问题。

这种架构使得变压器（transformers）在许多最近开发的NLP模型中扮演了重要的角色，例如谷歌的BERT和OpenAI的GPS －2，以及Facebook的RoBERTa和微软的MT－DNN，它们在NLP任务中显示出了巨大的潜力，例如文档分类、情感分析、问题回答和句子相似性。

延伸阅读——我们现在的位置——充满了弱人工智能的世界

现在的弱人工智能系统并不吓人。最糟糕的情况，无非是代码没写好，程序出故障，造成了单独的灾难，比如造成停电、核电站故障、金融市场崩盘等等。

超人工智能确实会比人类思考的快很多，但是真正的差别其实是在智能的质量而不是速度上。用人类来做比喻，人类之所以比猩猩智能很多，真正的差别并不是思考的速度，而是人类的大脑有一些独特而复杂的认知模块，这些模块让我们能够进行复杂的语言呈现、长期规划、或者抽象思考等等，而猩猩的脑子是做不来这些的。就算你把猩猩的脑子加速几千倍，它还是没有办法在人类的层次思考的，它依然不知道怎样用特定的工具来搭建精巧的模型——人类的很多认知能力是猩猩永远比不上的，你给猩猩再多的时间也不行。

就像在首届的世界智能大会上阿里巴巴团体董事局主席马云宣布演讲，讨论了人类与与人工智能的关系～以及人类和将来的关系。英语科班出生的马云关于人工智能～大数据等新词汇的翻译进行抨击，比方说人工智能，是人们把本人看得太高了，由于人类在智能上基本比不上机器的；大数据的翻译会给人形成误会的，以为大数据就是“数据量大”，而马云看来大数据就是海量的数据加上大计算的。

“人就应当是人，机器应当是机器”，马云以为在人工智能社会万物应当领有像人一样去学习的能力～而不是说像人一样的。这个是源于人类对人工智能缺少清楚的定义的。关于将来的智能世界来说在马云看来咱们还只是婴幼儿的，关于人工智能的理解十分的幼稚。“人工智能应当去处理人处理不了的问题，了解人不能了解的东西”，所以他仍然保持此前他关于AlphaGo的意见，人类跟AlphaGo在围棋的较量就是一个悲剧的。而在100年之后人类甚至会因而以为惭愧的。

人工智能能够代替的工作绝大多数是重复性极强的工作，当人工智能帮助人类去做这些重复枯燥的工作之后，这些人可以去做更有价值的事情，促进人类的整体发展

更多>数据要素产业相关信息

最新发布

点击排行

Select Language

AI社区

今日排行

本月搜索

Dataset Category

数据要素产业

下一波人工智能将更加强大