数据要素产业
拿下机器学习公有云服务中国市场份额第一的AI开发平台,到底做对了什么?
机器之心原创
作者:张倩
从 0 到 29%,华为云 ModelArts 为何走得又快又稳?
近日,国际权威研究机构 IDC(国际数据公司)最新发布的《中国 AI 云服务市场(2020 上半年)跟踪》报告显示,华为云一站式 AI 开发平台 ModelArts 位居机器学习公有云服务中国市场份额第一位,高达 29%。
报告指出:华为在国内市场具有先天的认知优势,开发者对于华为的技术、产品、品牌有着天然的认知和信赖。其中,华为云一站式 AI 开发平台 ModelArts 在行业用户中的主动提及率非常高。可以见得,在 ModelArts 平台学习 AI 技术已经成为越来越多开发者的偏爱,ModelArts 也正逐渐成为行业 AI 落地的首眩
数据来源:IDC《中国 AI 云服务市场半年度研究报告,2020H1》
众所周知,市场份额是产品是否好用的一个忠实反应。对于用户来说,「好用」的标准非常简单,即你的产品到底有没有解决我的问题?比如能否实现降本增效,产品是否安全可控等等。
作为一站式 AI 开发平台,华为云 ModelArts 的用户所关注的问题也在这一范畴之内。具体来说,他们会关心:这个平台上手门槛高不高?成本、效率高不高?我的数据隐私能得到保护吗?我的模型我自己能把关吗?
接下来,我们就从这些问题入手,看看市场份额第一的华为云 ModelArts 有没有解决这些问题。
开发者和企业所看中的,
华为云 ModelArts 都满足了吗?
1. 门槛、成本和效率
一位从传统 IT 转向 AI 软件研发的技术总监曾表示,在早期的研发阶段,他们遇到了不少棘手的问题,比如从数据收集、处理,模型训练、管理到发布,AI 开发基本都处于一种「乡间作坊」的工作模式。这种工作方式不仅效率低下,而且不利于新人的培养,让人才培训成本居高不下。同时,模型上线后的工作性能受物理硬件的限制,横向扩展耗时耗力,资源利用率也无法有效保障。
这位技术总监提到的问题主要体现在门槛、成本和效率几个方面。在门槛方面,推动 AI 发展的核心四要素算法、算力、数据和知识,每一个都存在门槛。在成本方面,传统的「乡间作坊」工作模式开发流程冗长,涉及的人员较多,人力、物力成本居高不下;在效率方面,这种工作模式容易重复造轮子,资源复用率低。
在种种困境下,华为云 ModelArts 走进了这些开发团队的视野。
为什么是 ModelArts?
在自然语言处理领域,BERT 的问世是一个里程碑事件。它让整个社区尝到了「预训练」的甜头:只需要简单的迁移策略,就能让模型在下游任务中获得良好的性能,使该领域由原来的手工调参、依靠机器学习专家的阶段,进入到大规模、可复制的大工业生产的阶段。这一经验同样可以复制到其他领域,华为云 ModelArts 的通用预训练模型架构EI-Backbone 就是这一路径的开拓者之一。
EI-Backbone 通过整合算法模型、算力、数据和知识,可以进行模型选择自动设计、参数配置自动调优,在分钟级内完成模型训练,无需依仗专家经验就能大幅提升模型精度,显著降低 AI 使用门槛,缩短开发流程,提升开发性能。该架构提供了一种「预训练模型 + 小样本微调」的高效训练模式,能够让开发者基于行业小样本数据训练高精度模型。这在医疗等优质数据稀缺的场景中尤其有用。以医疗影像分割为例,过去需要成百上千例标注数据才能进行的训练,在 EI-Backbone 的加持下,只需要几十例甚至十几例标注数据即可完成,节省标注成本高达 90% 以上。
效率的提升和成本的节约还体现在算力方面。华为全联接大会 2020 发布的最新版华为云 ModelArts 3.0 在集群规模、任务数量以及分布式训练各个环节做了针对性优化,并支持弹性训练。弹性训练指的是华为云 ModelArts 提供的两种模式:一是 Turbo 模式,可以充分利用空闲资源加速已有训练作业,训练速度可提升 10 倍以上,并且不影响模型的收敛精度;二是经济模式,可以通过最大化资源利用率给开发者提供极致的性价比,在大多数典型场景下可以提升性价比 30% 以上。这种降本增效的成果在实际的业务场景中是非常可观的,无论是对 AI 开发者的低成本快速上手的需求,还是对行业 AI 智能转型升级来说,无疑都是最合适的选择。
2. 对数据的掌控
AI 模型性能的提升离不开大量的多源数据。如果企业只用自己有限、单一来源的数据进行训练,得到的模型可能不够准确,或泛化性较差。在此背景下,各个数据拥有方不可避免地要进行合作。
但与之矛盾的是,很多行业的数据涉及用户隐私、行业机密等问题,数据拥有者不愿或不能将数据上传至一个数据中心进行模型训练,从而形成了一个个的「烟囱」或「孤岛」。
华为云 ModelArts 的用户大多是这种类型,他们身处医疗、政务、金融等安全、隐私性要求极高的领域,因此必须对自己数据的流向进行严格把控,做到数据不出库。
数据不能出库,但模型的参数可以,这就是华为云 ModelArts 提供的联邦学习解决思路。在华为云 ModelArts 3.0 下,用户可以各自利用本地数据训练模型,不交换数据本身,只用加密方式交换更新的模型参数,实现云边协同训练。此外,华为云 ModelArts 3.0 不仅支持横向联邦学习,处理对齐的数据,还支持纵向联邦学习,可以轻松处理训练样本 ID 重叠多的数据。
对于使用华为云 ModelArts 实现行业 AI 落地的用户来说,引入联邦学习不仅解决了数据隐私问题,还节约了数据方面的成本。众所周知,医疗、制药等领域的数据标注难度非常大,需要领域专家的介入,因此成本非常高。通过联邦学习,各个数据拥有方都可以在这一技术的保护下实现数据价值的交换,显著降低成本。
3. 对模型的掌控
模型从实验室走向生产环境是一个令人揪心的过程。开发者和企业会担心这个模型精度不够高、性能不够好、可解释性差、可信度低等问题。在这些都没弄清楚之前,没有人敢大规模部署这款模型。
华为云 ModelArts 的成功之处在于,它在一定程度上缓解了这种「不透明」所带来的顾虑,将自动评估、诊断之后得到的模型精度、性能、可解释性、可信度等信息展示在一块「面板」上,让用户直观地看到自己模型的基本情况。
而且,这种评估是非常精细的,仅精度方面就有准确率、精确率、召回率、F1 值、混淆矩阵、ROC 曲线、数据敏感度分析等多项指标。这些指标可以帮助用户进行有针对性的调优,让用户做到「心中有数」,放心部署。
哪些行业已经用上了华为云 ModelArts?
当前,华为云 ModelArts 已经在金融、医疗、药物研发、自动驾驶等多个领域得到了广泛应用。
在金融领域,华为云 ModelArts 已经用于金融票据 OCR 识别。由于金融票据格式多样,差别细微,需要 AI 专家进行长时间的票据 AI 训练,因此业界识别准确率普遍不够精准。针对票据模型开发训练数据标注、模型训练、调优和部署上的诸多难点,华为云 ModelArts 通过数据集分类、自动学习、迁移学习等方法,让初级 AI 开发者无需调参等操作,轻松操作数据标注工具,完成部署。
在医疗领域,去年 11 月份,放射学领域国际顶级期刊《Radiology》发表了华为云 EI 创新孵化 lab、华中科技大学电信学院、华中科技大学同济医学院附属协和医院放射科联合团队的最新研究成果:运用华为云 ModelArts 开发的一套基于 CTA 影像的脑动脉瘤检测算法。该算法灵敏度高达 97.5%,帮助医生临床诊断灵敏度提升约 10 个百分点,漏诊率降低了 5 个百分点,同时有效缩短了医生的诊断时间。
在药物研发领域,2020 年,华为云 EI 与中国科学院上海药物研究所签署联合创新合作协议,将华为自研的 FedAMP 算法和 AutoGenome 算法应用到药物研发的 AI 任务中,精准预测药物水溶解性、心脏毒性和激酶活性。中国科学院院士、中国科学院上海药物研究所研究员蒋华良联合华为云发布基于 ModelArts 平台的药物联邦学习服务,以解决研发数据高壁垒、高成本以及高机密的问题。实践证明,通过华为云 EI 联邦学习训练后的模型,准确度远超传统的联邦学习和深度学习算法。
回顾过去的一年,华为云 ModelArts 在抗击疫情方面也发挥了重要作用,其参与的联合科研团队在 2020 年 2 月份就筛选出了五种可能有效的新冠抗病毒药物。此外,华为云还依托 AI 腾集群服务和 ModelArts 推出了 AI+CT 医学影像分析服务,运用计算机视觉与医学影像分析技术对患者肺部 CT 多发磨玻璃密度影(GGO)以及肺实变进行分割以及量化评价,并结合临床信息和实验室结果,辅助医生更高效、精准地区分早期、进展期与重症期,助力疫情防控工作。
技术赋能行业离不开一个低门槛、高效率同时又安全、可靠的工具。华为云 ModelArts 这类 AI 开发新工具的出现是实现技术普惠的重要条件,让「学 AI,用 ModelArts」成为开发者群体的新风尚,亦将让行业 AI 落地开拓者们亲手触碰到未来。