数据要素产业
AI面临产业大考:落地虽难,但产业化路径已日渐清晰
图片来源@视觉中国
文 | 脑极体
今天我们谈论AI,已经很少再提及下围棋、打游戏等“碾压人类”式的炸裂新闻,而是更关注AI如何与各行业相结合,创造真实的产业价值与经济效率。
近期,国际咨询公司Gartner 将“AI工程化”列为2021年度九大技术趋势之一,这也是继去年“AI民主化”入榜后,Gartner再次对AI技术做出预判。
作为AI 民主化技术趋势报告的主笔分析师,Gartner高级研究总监吕俊宽认为:这两大趋势的核心都是让AI逐步走向产业。从案例式的单点项目,到千行万业的规模应用,AI走向产业其实包含了两层含义:一是AI可以用规模化生产的方式来降低产业使用门槛,使技术成本可接受,即“AI民主化”;二是AI可以与具体的产业场景相融合,达成可靠、可见、可信的良性收益,即“AI工程化”。
但对于大部分人和企业来说,“未来所有公司都是AI公司”的愿景并不容易实现,从“技术概念”到产业落地,中间还横亘着广袤而空旷的未知地带。
今天,大家都希望AI会如同“水电煤”一样推动第四次工业革命来到我们身边,但真正惠及所有企业,让各行业都能加上AI这个内核,仍旧任重而道远。
自2018年初,Google发布Cloud AutoML至今,AutoML成为了微软、Facebook、AWS、BAT等巨头争相布局的重心,Gartner同时也将AutoML看做是AI产业化进程中不可或缺的关键要素。AutoML因何成为了巨头们的“新宠”,它又在推动“AI民主化”和“AI工程化”中充当了什么角色?
AI落地难成共识但产业化之路已日渐清晰
今天,AI为各行各业带来了效率提升、价值增长,让所有人都看到了AI的价值和潜力。伴随着AI技术的日臻成熟,AI正在快速进入“工业化”阶段。但人才缺失、实施复杂、周期过长、成果过高等客观因素,也造成了AI难产的局面。
想让AI真正的释放价值,或许可以从煤的发展历程中看出端倪。
19世纪,凭借煤炭能源的挖掘,英国迅速创造了一个令世界瞠目结舌的工业社会,一跃成为世界霸主。除了储煤量大以外,其中最关键便是实现了煤产业化。
具体表现为三点:
1.提升了应用效率:蒸汽机等高效率工具的发明与普及,让煤这一能源得以高效、规模化的应用。
2.完善的基础设施:铁路、运河等的建设,让煤炭能够从矿区被运往更具商业价值的产业带。
3.打造产业带:人才、工具、市场,紧密结合在技术半径内,形成产业带,让高效生产成为可能。
正是这些铺陈,才让煤得以真正成为工业革命中“动力和文明”(艾默生语)的象征。
如今,AI正有机会像煤一样,给人类社会带来天翻地覆的变化,这就让AI满足全社会规模化应用的能力,变得格外重要。在这一过程中,同样少不了“蒸汽机”、“铁轨”和产业带。
AutoML让AI价值跃点
在瓦特改造蒸汽机之前,英国煤矿普遍使用的是纽科门蒸汽机,需要消耗大量的煤来维持运转,也让矿区工人们不得不在严酷的环境中工作。改造后,新的蒸汽能效提升了四倍之多,从而让煤进入了高效利用时代,也让筋疲力尽的体力劳动者们得到了解脱。
AutoML的价值与蒸汽机一样。在最新发布的《AI for EveryoneAutoML 引领AI民主化之路》白皮书中,Gartner将其视为降低门槛、提升效率的利器。
简单来说,AutoML(自动机器学习)就是可以让企业或个人不用写一行代码,就训练出一个企业级的机器学习模型的技术。只需要按照说明,把训练数据都拖进AutoML系统里面,很快一个适用于自身应用的机器学习模型就训练好了。让机器学习中最耗时和最难的工作数据清洗、特征工程,变得轻松不少,甚至无需考虑了解AI复杂的原理。
对于渴望规模化、高效率应用AI的企业来说,这意味着不需要从源头去设计一个神经网络或是进行复杂的调参,最大程度地降低了机器学习的编程工作量,节约了AI开发时间;同时也意味着对专业数据科学家和算法工程师的依赖程度也有所降低,缓解与科技巨头“抢人才”的困扰。在自动驾驶、金融风控、工业制造等多个领域中,使用AutoML搭建的模型效果甚至超越了大多数算法工程师。
于是,我们看到了越多越多的企业和开发者加入到了AI产业化的行列中,以百度为例,其EasyDL已拥有70多万开发者,覆盖了20多个场景。更为欣喜的是,我们看到了没有一点AI甚至是编程背景的人将AI物尽其用:妇产医院的医生基于AI独角兽第四范式的AutoML技术及产品,建立了新生儿体重预测和胎膜早破的预测模型,为产妇生产方案的制定提供更多依据,这在学术界首次证明了大气压与胎膜早破之间的紧密相关性,填补了这一领域的空白。
这些案例意味着AI开始进入低门槛、低成本、泛用性的工业生产阶段,得以快速落地企业,释放技术价值。
据Gartner的预测,2023年,40%的开发团队会使用自动化机器学习服务来构建为其应用软件添加AI功能的模型,而2019年这一比例不到2%。到2025年,AI将使50%的数据科学家活动实现自动化,从而缓解人才严重短缺问题。
这也是为什么,Gartner 认为AutoML是引领AI民主化,实现“AI for Everyone”的关键力量。
铺设铁轨:通往产业智能的通衢
AutoML提升了AI的效能,但智能怎么才能够抵达产业端,却是一个大问题。因此也吸引了不少巨头和创业公司争相布局,它们的存在就像是铁轨与运河,将源源不断的技术能量运输到产业土壤中去。
目前来看,AutoML平台主要分为以下几大类:
第一种,以谷歌、微软、亚马逊、百度等为代表的头部AI巨头,具有较强的AI实力,可以提供从算法到流程全自动化的工具支持。
第二种,是一些开源技术平台或组织。优势是灵活、开放,比如在谷歌发布AutoML之前,2013年就出现了可以自动选择模型并选择超参数的AutoWEKA。
第三种则是一些技术/算法公司,除了AutoML工具之外,还会面向企业提供数据策略、业务咨询等服务。
那么,它们都在向产业界提供哪些具体能力呢?
首先是平台和工具。比如谷歌推出的Google Cloud AutoML覆盖了图像分类,文本分类以及机器翻译领域,比如用户只需要上传图片到AutoML Vision上,就可以训练和部署一个计算机视觉模型。今年还展示了能够自动创建计算机视觉系统NASNet的能力,可以帮助自动驾驶或智能机器人开发。
微软差不多和谷歌同时期发布了自己的AutoML平台,涵盖图像、视频、文本和语音等各个领域。
国内比较领先的如百度的EasyDL,用户可以在上面开展图像分类、物体检测、图像分割、文本分类、视频分类、声音分类等任务。代表厂商第四范式,打造的自动化机器学习平台Sage Hypercycle ML,也面向金融、零售、医疗、制造、能源等行业提供了多种封装好的AutoML算法及全流程开发工具。
其次是服务和定制。近两年来,AutoML领域也越来越注重定制化服务。比如今年1月,微软就针对视觉能力打造了自动化平台Microsoft Custom Vision Services(微软定制视觉服务)。谷歌也与产业端合作,利用谷歌云的AutoML Vision技术创建了能理解古埃及文字的工具Fapicius,来达到普及AI的效果。国内如第四范式也提出了“AutoML全栈算法”从感知、认知、决策三个关键维度帮助企业提升关键场景的决策水平,同时针对不同行业、不同技术能力的企业来有的放矢地提供服务。
如果说AutoML平台和工具降低了AI的应用门槛,加速了“AI民主化”的进程,那么服务导向的出现,则让人们看到“AI工程化”趋势的端倪。
这一变化背后的原因也很简单,回到第一次工业革命时期,我们会发现基础设施的铺设往往需要因地制宜,以庞大的工程将运河与铁轨不断延伸到东海岸。AI落地产业自然也不是一种平台或工具集就能够完成的。
一方面,许多巨头云厂商在推出AutoML平台的同时,也希望企业用户与自己的开发生态相捆绑,比如谷歌就要求必须在谷歌云上部署相关模型和网络,这对于无法或无意使用谷歌云的用户来说就成了限制。
同时,应用AI更是一个千变万化的复杂工程。要让毫无机器学习经验的个人和企业借助AutoML用上AI,需要与产业应用场景的深度适配,同时解决数据收集、数据清理、打通数据孤岛等等障碍,才能让AI在业务端跑起来。这些都需要懂业务的行业人士和算法人员来共同探讨、磨合,去建立符合产业需求的技术管道。
只有一个充分考虑不同产业地带客观环境与具体诉求的“交通网络”,才能驱动AI正在走到产业那边去。
靠近价值:AutoML产业带的兴起
对于企业来说,应该如何考量和适时使用AutoML来提升“AI产能”呢?
从企业视角出发,我们认为有三个关键要素是需要注意的:
1.是否具有AutoML落地的配套服务能力。
每个厂商期待的自动化、智能化是不一样的,企业在选择AutoML平台时需要考察其服务能力与背景。
吕俊宽认为,对于企业来说,如何帮助自己提高业务价值是关键,但不是每家企业都能像互联网巨头一样能够让AI与业务深度耦合,所以需要AI厂商有强大的服务能力支撑企业客户兑现AI的价值。对于AI企业来说,想要服务好企业,对产业服务的重视会直接决定其技术上的投入程度,对产业迫切需要的能力亦需要快速迭代;同时应当深入了解客户的业务场景,帮助其提升关键的业务指标和表现。有的业务适合上云、有的适合产品化服务,AI规模化应用后如何解决计算成本上升问题,是否需要自建AI系统等等,这些需要在不同选项里找到平衡点。
Gartner的AutoML白皮书也指出,顶尖的AutoML算法相当于AI应用构建的“引擎”。而AI应用的开发是一项非常复杂的精细化工程,涉及诸多环节。假如没有一套完整的AI开发工具,各个环节就会变成彼此割裂、互不兼容的“孤岛”,不仅导致科学家在开发过程中疲于奔命,也会让AI规模化变成“泡影”。只有打造基于AutoML算法“引擎”的“自动化工厂”,实现全面产品化,才能真正推动AI产业化落地。
擅长于个人C端市场的谷歌在AutoML上的投入程度和研发频率相对于其他子业务(如DeepMind)就要少的多,更重视极客和工程师思维;国内如百度在推广EasyDL时,也十分重视对开发者和企业的帮助,和服务体系的打造,支持初中生、中年个体户、电网企业等零门槛用上AI;第四范式的策略则更加细致,根据不同技术成熟度的企业,提供不同应用的AI产品和方法论,让AI产品得以更好使用和落地。例如,面对想要快速验证AI效果、快速落地的客户,可以选择Sage HyperCycle ML,某金融企业就用这种方式让毫无AI模型构建经验的金融企业在几小时内完成建模工作;而面对体量大、场景多的客户,第四范式也可通过先知等平台化产品,让客户自主、规模化、低门槛落地AI应用,同时,也嵌入了相应的AI服务支撑体系。
2.如何以较低的成本得到较好的效果。
如果说“AI民主化”是让更多人了解和感受到AI和AutoML能做什么,那么“AI工程化”则要求AI规模化落地的同时,还能够带来更系统性的业务价值。
第四范式副总裁、主任科学家涂威威告诉我们,企业在使用AutoML时有三个考量点:业务收益和效果、成本支出、解决问题的范围,只有这三点都满足企业端的要求,才能让AutoML切实有效地帮助AI加速规模化应用进程。
比如算法上需要提升效果,给业务带来实际增长点,让模型面对各种真实复杂情况都能快速识别,而非只是停留在实验室阶段;
许多企业也会面临一个问题,就是在线下效果好,而部署到真实环境中,效果大打折扣。这就需要注重线上线下数据一致性的问题,并做出相应的优化;
成本方面,AI如何跟现有业务结合、如何部署到环境中去,计算资源怎么解决,都是需要去考虑的。AutoML在帮助AI规模化落地的同时,也带来了巨大的算力消耗,如果采用业界常用的GPU甚至是TPU,绝大多数的企业都是负担不起的。因此,为了让AI更好的规模化,还需要软硬件协同优化,让部署AI的成本变成“可负担”。
3.是否具有扩展性。
我们知道,技术产品和架构总是会不断迭代更新的,如果需要全盘推倒重来,无疑会给企业带来没有必要的损失,这也让很多企业对AutoML等新型生产力工具望而却步。
这就需要AutoML平台和厂商在一开始就考虑到技术的扩展性并进行应对。
比如百度EasyDL就借助百度大脑的全栈AI能力实现底层技术的全面部署与融合;第四范式通过技术解决模型的自学习问题,让动态模型可以根据业务变化而进化,进行自动化迭代。同时,第四范式还将AutoML相关架构、技术抽象成了操作系统,这就从底层核心将技术框架稳定下来,让各项数据和应用可以被标准化管理,后续运维也可以通过系统层来应对变化,从而让企业可以建立更长期的AI战略,不会因为技术变化而让业务受到波动。
当企业、技术、平台等等都汇聚在一起,形成了完整的AutoML产业带,生态也就开始真正建立起来,最终拉开一个恢弘的产业智能时代大幕。
从这一刻,写下未来
如果说是煤工业的崛起,带领人类穿越了漫长的工业童年时代,开始了一个史无前例的时代,那么随着国家战略的推动和产业需求的全面爆发,AutoML带来的产业智能红利是否会像煤炭一样,引发一场新的产业革命?
AI的产业大考暴露了人才短缺、成本高昂等问题,又推动了AutoML这样解决方法的产生,由此带来的AI民主化和工程化浪潮,正在将全社会带入智能变革的疆域。
其中最值得注目的,是中国企业表现出了对科技前所未有的饥饿感,依靠技术来找寻业务增长点,急切地寻找技术场景和落地,这些积极的做法都让AI的红利更早、更快地生长在这片土地上。