Select Language

AI社区

数据要素产业

斯坦福教授曼宁:AI巨模型训练成本动辄几十万,穷博士和小公司用不起了

新智元报道

来源:Wired

编辑:David

【新智元导读】近几年来,AI模型性能越发强大,但规模也越做越大,训练成本高居不下,小公司即使想用也往往有心无力。未来的AI创新真的只能靠巨头了吗?

Glean是一家从事搜索业务的创业公司,一直很想使用最新的AI算法来改进公司的产品。

Glean提供Gmail、Slack和Salesforce等应用程序进行搜索的工具,用于解析语言的新AI技术,可以帮助公司的客户更快地发掘正确的文件或对话。

但是训练这样一个尖端的人工智能算法需要花费数百万美元。因此Glean使用更孝能力更弱的AI模型,这些模型无法从文本中提取出尽可能多的含义。

Glean对此也是颇为无奈。

「对于预算较少的小企业来说,很难获得与谷歌或亚马逊等公司相同精度的结果,对于这些小公司而言,要想搞出最强大的人工智能模型是不可能的。」公司表示。

过去十年中,AI产生了一系列令人兴奋的突破,目前已经可以在复杂的游戏中击败人类,可以在特定条件下驾驶汽车穿过城市街道,响应口头命令,并根据简短的提示编写连贯的文本。

一方面,这些进步在很大程度上是因为算法有了更多的文本作为训练数据。另一方面,为了消化这些数据,使用了更多的芯片。

这是要花钱的。

以OpenAI的语言模型GPT-3为例,这是一个大型的、数学模拟的神经网络,从网络上抓取大量文本进行训练后,GPT-3可以以惊人的连贯性预测哪些词应该填在其他词前后,生成流畅的文本,而且是开箱即用的。

GPT-3在回答问题、总结文本和纠正语法错误等任务上明显优于以前的 AI 模型。与上一代的GPT-2相比,性能实现了1000倍的增长。不过,据估计,训练GPT-3的成本接近500万美元。

「如果GPT-3既方便又便宜,会大大增强我们的搜索引擎,那会非常非常强大。」

对于希望拥抱AI转型传统企业来说,训练高级AI的成本不断上升也同样是一个问题。

Dan McCreary在健康IT公司Optum领导一个团队,该团队使用语言模型来分析通话记录,识别哪些患者风险较高,哪些应该及早推荐转诊。

他说,现在即使训练一个GPT-3大小千分之一的语言模型,也会很快耗尽团队的预算。他们需要的模型针对特定任务进行训练,成本可能超过50000美元,这笔钱要付给云计算公司,作为租用其计算机和程序的租金。

McCreary表示,云计算供应商没有理由降低成本。现在他正在考虑自己购买加速人工智能训练的专用芯片。

现在,许多学术实验室和创业公司可以直接下载并使用最新的理念和技术。比如在图像处理方面取得突破的算法来自学术实验室,使用现成的硬件和公开共享的数据集开发。

然而,随着时间的推移,越来越清楚的一点是,AI的进步与底层计算机性能的指数级增长息息相关。

有了算力,才有创新。没有钱,就没有算力。

现在,一些大企业进一步把这个趋势推得越来越高。近日,微软表示,它和英伟达合作,构建了一个比GPT-3大两倍的语言模型。

MLCommons是一个跟踪AI专有芯片性能变化的机构。该机构的执行董事大卫坎特 (David Kanter) 表示:「未来训练 AI 的成本绝对会继续上升。」

Mosaic ML的技术可以帮助大公司将模型提升到一个新的性能水平,也可以帮助没有深厚AI专业知识、也没那么有钱的小公司利用AI技术。

利用最新技术的成本不断上升,可能会将创新留给最大的公司和租赁工具和算力的公司,从而减缓创新的步伐。

「我认为这种情况确实会阻碍创新。」专门研究人工智能和语言的斯坦福大学教授克里斯曼宁说。

「当只有少数几个地方才能研究这些大模型的内部结构时,出现创造性新成果的几率一定会大大降低。」

曼宁说,就在十年前,他的实验室有足够的计算资源来探索任何项目。「一个努力工作的博士生就可能会做出最先进的工作,而现在,这个窗口已经关闭了。」

与此同时,不断上涨的算力成本,促使人们寻找更有效的AI算法训练方式。目前已经有数十家公司开发用于训练和运行AI程序的专用计算机芯片。

所以,特斯拉设计自己的车载芯片,也许只是为了训练自动驾驶的AI模型。

Mosaic ML是一家源自MIT的初创公司,主要开发提高机器学习训练效率的软件和技术。

一种技术是对神经网络进行「修剪」,消除网络结构中的低效率部分,创建一个功能类似、但规模小得多的网络。

早期的结果表明,这种方法应该可以将训练GPT-3之类的网络所需的计算机功率减少一半,从而降低开发成本。

Mosaic ML计划将大部分技术开源,同时也为降低AI技术成本的公司提供咨询服务。Carbin说,未来可能会有一种这样的产品,一款能够在训练模型的准确性、速度和成本方面实现权衡的工具。

「不过目前,还没有人真正知道如何将所有这些方法组合在一起。」他说。

参考链接:

https://www.wired.com/story/ai-smarts-big-price-tag/