数据要素产业
AI人年度必看的222页报告!九大要点解读,中国AI论文引用首超美国
智东西(公众号:zhidxcom)
编译 |智东西编辑部
编辑 |漠影
智东西3月4日消息,斯坦福大学刚刚发布一份222页的《2021年度AI指数报告》,从跨越十年的时间维度,对人工智能技术和产业的发展进行了分析解读。
这是人工智能学术人和产业人每年必看的一份报告。自2017年以来,斯坦福大学连续4年推出AI指数报告,每一份都以包罗万象、数据详实而广受好评。
《2021年度AI指数报告》涉及人工智能的学术研究、技术趋势、落地领域、国家政策、区域差异、求学就业、伦理等众多方面,麦肯锡、谷歌、OpenAI等机构和企业都对这份观点鲜明的报告提供了支持。
这份报告既揭示了当前人工智能产业现状和发展的9个真相,也是洞察未来十年人工智能发展的一个窗口。
我们将报告九大要点总结如下:
1、人工智能在医药研发方面的投资显著增长,其中药物、癌症、分子、药物研发在2020年获得的投资数额最多,总共超138亿美元,比2019年增长4.5倍。
2、产业在持续巨变,2019年,有65%的北美人工智能博士毕业生选择进入产业,而在2010年只有44.4%。
3、AI生成一切:人工智能能生成文本、音频和视频,很多情况下人类难辨真伪。
4、面临种族挑战:2019年45%的美国最新人工智能博士毕业生为白人,2.4%为非洲裔,3.2%为西班牙裔。
5、中国在人工智能期刊被引频次首次超过美国。在刊登数量上,早在2004年,中国在人工智能期刊的总发表数量上短暂超过美国,然后在2017年重新占据领先地位。
6、美国大多数人工智能博士毕业生来自海外,但他们将留在美国。2019年,美国新一届AI博士中海外学生占比上升,达到64.3%,比2018年上涨4.3%。在外国毕业生中,81.8%的人留在美国,8.6%的人在美国以外找工作。
7、智能监控技术更便捷、廉价、应用广泛。图像分类、人脸识别、视频分析和语音识别等智能监控所需技术在2020年取得重大进展。
8、AI伦理缺乏基准和共识。尽管一些团体组织正在一些领域制定一系列AI伦理规范,但仍然缺乏可以衡量评估的标准。此外,公民认为AI伦理比产业发展更重要。
9、人工智能得到美国国会的关注。第116届国会是历史上最关注人工智能的国会会议,提到人工智能的次数是115届的三倍多。
人工智能是当下中国新型基础设施建设的一大重点,睁眼看世界,我们发现人工智能技术在全球也是科技发展的主旋律。如何在“第四次工业革命”浪潮中找准自身的位置,把握竞争优势?我们可以从这份斯坦福大学222页的《2021年度AI指数报告》中找到参考。
一、AI学术:中国论文引用频次首超美国
2019~2020年,人工智能期刊出版数量增长34.5%,增速远高于2018~2019年的19.6%。
▲人工智能期刊出版数量逐年增长
在每个主要国家和地区,同行评议的人工智能论文来自学术机构的比例最高。但第二主要的发起者有所不同:在美国,企业附属研究占全部出版物的19.2%,而在中国和欧盟以政府为主,分别达到15.6%和17.2%。
到2020年,中国在世界人工智能期刊上的引用频次首次超过美国。早在2004年,中国在人工智能期刊的总发表数量上短暂超过美国,然后在2017年重新占据领先地位。然而,在过去十年里,美国被引用的人工智能会议论文一直明显多于中国。
▲中国在世界人工智能期刊上的引用频次首次超过美国
为应对COVID-19,大多数大型人工智能会议都以虚拟方式举行,因此出席人数显著增加。2020年,参加九场主要人工智能会议的人数几乎翻了一番。
在过去六年中,arXiv上与人工智能相关的出版物数量增长了六倍多,从2015年的5478份增至2020年的34736份。
▲arXiv上与人工智能相关的出版物数量增长了六倍多
2019年,人工智能论文占全球所有同行评议科学论文的3.8%,高于2011年的1.3%。
二、AI技术:以假乱真,破圈解题
AI能生成一切。AI系统现在可以合成文本、音频和图像,而且水平足够高,人类难以辨别真伪。比如图像合成技术能“深度伪造”,将人脸叠加大到照片或电影上其他人脸上。这也促使研究者探索深度伪造技术检测技术,让计算机能很好区分不同的输出。
计算机视觉(CV)趋于产业化。CV技术在过去十年中取得了巨大的进步并走向产业化,在一些大基准上性能开始趋缓,同时企业正以前所未有的速度投入越来越多的计算资源来训练CV系统。
如训练一个现代图像识别系统,根据斯坦福DAWNBench团队进行的测试,2017年10月需要耗1100美元去做的事,现在只用花7.43美元,成本节省为原来的1/150。
▲训练一个现代图像识别系统成本大大降低
自然语言处理(NLP)超越了其评估指标。谷歌、微软均在其搜索引擎中部署了BERT语言模型,OpenAI等公司也开发了其他大型语言模型,NLP进步飞速以至于开始超越测试它们的基准。
机器联合推理视觉和文本数据。视觉问答(VQA)挑战要求给一张图和一个自然语言问题,机器能提供准确的自然语言答案,自2015年首次发布以来,该算法准确率增长了近40%,最高达到76.4%,接近人类80.8%的准确率基线。
▲视觉问答(VQA)挑战算法准确率攀升
机器学习正在改变医疗保健和生物学的游戏。随着机器学习的采用,医疗保健和生物学行业的格局发生了实质性的变化。DeepMind的深度学习模型AlphaFold突破了长达数十年的蛋白质折叠生物学挑战。
疫情期间,AI初创公司PostEra用基于机器学习的技术在48小时内设计化学合成路线,以加速新冠病毒相关药物的发现,人类化学家要花三到四个星期才能完成同样的任务。
▲过去的14年里一些最佳团队的GDT得分的中间值,表明机器学习提升了药品研发效率
三、AI应用:“AI+药物”最吸金,美国招聘数首次下滑
2020年全球AI领域总投资(包括私人投资、公开募股、并购和少数股权)较2019年增长了40%,达到679亿美元。
▲2020年全球AI领域总投资快速增长
其中,2020年“药物、癌症、分子、药物发现”领域获得的AI私人投资最多,超过138亿美元,是2019年的4.5倍。
其次是“自动驾驶汽车、舰队、自动驾驶、道路”(45亿美元),以及“学生、课程、教育技术、英语”(41亿美元)。
▲各领域2019年和2020年AI投资情况
AI领域更多的私人投资正流向更少的初创企业。尽管受疫情影响,2020年民间AI投资比2019年增长9.3%,增幅高于2019年的5.7%,不过新投资企业数量连续第三年下降。
美国仍然是私人投资主要发生地,2020年美国私人投资超过236亿美元,其次是中国(99亿美元)和英国(19亿美元)。
▲美国仍然是AI领域私人投资主要发生地
麦肯锡的一项调查显示,尽管越来越多的人呼吁解决与使用AI相关伦理问题,但解决这些问题的努力有限。例如,AI领域的公平问题仍然很少受到企业的关注。此外,与2019年相比,2020年将个人或个人隐私风险视为相关风险的公司更少,且正采取措施减轻这些特定风险的受访者比例没有变化。
尽管疫情造成了经济低迷,但在麦肯锡的一项调查中,有50%的受访者表示,新冠肺炎病毒对他们在AI的投资没有影响,有27%受访者表示其投资有所增加。不到1/4的企业减少了对AI的投资。
▲50%的受访者表示新冠肺炎病毒对他们在AI的投资没有影响
2020年样本国家的AI招聘数继续增长。2016年至2020年,巴西、印度、加拿大、新加坡、南非是AI招聘增长最快的国家。在分析的14个国家中,2020年的AI招聘率平均比2016年高2.2倍。
从2019年到2020年,美国AI招聘职位的份额出现下降,这是六年来的首次下降。从2019年至2020年,美国发布的AI工作岗位总数也减少了8.2%,从2019年的32.5万个减少到2020年的30.1万个。
印度、美国、中国、德国、加拿大在所有样本国家中的AI技能渗透率排名前五;教育、金融、硬件&网络、制造、软件&IT是过去5年全球AI技能普及率最高的5个行业。
2020年调查表明,企业最可能采用的AI技能因行业而异。
▲2020年调查中部分行业最可能采用的AI技能
四、AI求学就业:65.7%的AI博士生选择投身产业大潮
在过去四年里,世界顶级大学加大了对人工智能教育的投资,本科需要构建或部署AI模型相关技能的课程数量分别增加了102.9%,研究生增加了41.7%。
越来越多人工智能博士选择走出学校,进入产业。在过去10年里,选择产业工作的新一届AI博士的比例增加了48%,从2010年的44.4%增至2019年的65.7%。相比之下,新一届人工智能博士进入学术界的比例下降了44%,从2010年的42.1%下降到2019年的23.7%。
▲越来越多人工智能博士选择进入产业
在美国授予的计算机科学博士总体中,人工智能相关博士在2010年占比例达14.2%,2019年上升到约23%。与此同时,其他计算机科学博士的热门程度有所下降,包括网络、软件工程和编程语言。与2010年相比,编程类专业的博士学位都有所减少,而人工智能和机器人、视觉专业的博士学位则大幅增加。
▲人工智能相关博士大幅增多
在经历两年增长后,北美大学的人工智能教职员工从2018年的42人降至2019年的33人,其中28人是终身教职员工,5人是非终身教职员工。卡耐基梅隆大学的人工智能教师在2004年至2019年离职人数最多达到16人,其次是佐治亚理工学院的14人和华盛顿大学的12人。
2019年,北美新一届AI博士中国际学生的比例继续上升,达到64.3%,比2018年上升4.3%。在外国毕业生中,81.8%的人留在美国,8.6%的人在美国以外的地方找工作。
▲81.8%的北美新一届AI博士选择留在美国
在欧盟,绝大多数专业的人工智能学术课程都是硕士水平的课程;到目前为止,机器人和自动化是专业学士和硕士项目中最经常教授的课程,而机器学习(ML)在专业短期课程中占主导地位。
五、AI国家政策:32个国家已发布国家AI战略
未来几十年,AI有望成为塑造全球竞争格局的一大要素,或将为早期采用的国家带来显著的经济、战略优势。
迄今为止,许多国家、地区的政府及相关机构制定了以发展AI为目标的政策,致力于在最大限度地发挥AI潜力的同时解决其社会和道德问题。
本章介绍了AI政策的全貌,并追踪了各地方、各国、国际社会为促进和管理AI技术所做的努力。
1、32个国家已发布国家AI战略
自从加拿大在2017年发布了世界上首个国家AI战略、截至2020年12月,全球已有30多个国家和地区发布了类似的文件。
具体来说,有32个国家已经发表了国家AI战略,有22个国家的相关战略正在开发中。
▲深蓝已发表国家AI战略的国家;浅蓝正在开发国家AI战略的国家
2、国际倡导多边AI战略
考虑到发展AI技术所面临机遇和挑战的规模之大,目前各国家、地区政府之间正倡导国际层面上的互助,制定多边AI战略。
许多国家求助于国际组织,致力于制定全球AI规范;其他国家则参与到相关的伙伴关系或双边协定中。在讨论的议题中,AI的伦理问题或AI当前和未来应用带来的伦理挑战,是政府间努力的一个特别重点领域。
2020年,“全球人工智能伙伴关系(GPAI)”和经济合作与发展组织(OECD)AI政策观察站和AI专家网络的启动,促进了政府间在支持所有人发展AI方面的共同努力。
3、美国2021有望拨款15亿美元搞AI研发
2019年9月,白宫国家科学技术委员发布了一份报告,试图计算所有公共部门用于AI研发的资金总额,这是该数据首次公布。要注意的是,出于国家安全考虑,这些数据将不包括国防部和情报部门进行的投资。
根据上述报告,2020财年,除国防部和情报部门拨款以外,美国共有9.74亿美元拨款被用于AI研发。如果记入国会拨款和转移(congressional appropriations and transfers),这一数字有望达到11亿美元。
2021财年,联邦民事机构的在AI研发方面的预算为15亿美元,几乎是其总预算的55%。
▲联邦民事机构的在AI研发方面的预算为15亿美元
尽管国防部的AI研发预算没有官方明细,彭博社分析了该部门用于研究、开发、测试和评估的公开预算请求,以揭示该部门在人工智能研发方面的开支。
对305个未分类的国防部研发项目的分析结果显示,2021财政年度美国用于AI研发的军事预算总额为50亿美元。这一预算额度与2020财年制定的财政规划相符,但考虑到预算规划与实际颁布的预算可能存在出入,一旦国会拨款,2021财年度国防部AI研发项目的实际资金水平可能会大幅上升。
▲2021财年度国防部AI研发项目的实际资金水平可能会大幅上升
4、国家政府、智囊团、公民社会、技术咨询行业为AI决策制定议程
随着AI受重视程度加深,政府、私营公司、技术组织民间社会越来越重视提出与AI相关的政策或倡议。
根据彭博社和麦肯锡公司统计的数据,第116届国会成为美国建国以来最关注AI的一届国会。本届国会在立法、委员会报告和国会研究服务(CRS)报告中提到人工智能的次数,是第115届国会的三倍之多。
▲十年间国会文件提及AI的次数
在一个国家或货币联盟中,中央银行在执行货币和货币政策方面发挥着关键作用。
通过将AI技术整合到运营过程中,中央银行可以依靠大数据分析来帮助进行预测、风险管理和金融监管。
数据显示在过去10年间,16家中央银行提及AI的次数显著增加,在2019年高达1020次,2020年提及次数减少则可归因于新冠疫情肆虐。
国家和政府以外的AI政策措施方面,对42个知名组织的分析显示,其发布AI相关文件的时间主要集中在2019、2020年。
2019、2020年的综合数据表明,创新和技术、国际事务和国际安全、工业和监管是上述组织提出的AI政策文件的主要关注点。
六、AI的多样性困局:北美白人AI博士占比近一半
尽管AI技术确有极大可能对社会造成影响,但构建AI系统的人群并不能完全代表AI系统所服务的人群。
目前,AI系统构建过程中,仍然存在男性工作人员多于女性、缺乏多样性等问题,有可能加剧AI系统的不平等、缩小AI系统服务的人群等。
具体来说,种族、民族、性别认同、性取向等各方面的多样性问题均亟待重视。本章节介绍了AI劳动力和学术界(AI workforce and academia)的多样性统计。
1、北美计算机科学女性教师比例不到18%
十多年来,AI领域的女博士毕业生、获得终身教职的计算机科学(CS)女教师的比例一直很低。根据计算研究协会(CRA)进行的一项的年度调查,平均来看,北美AI博士项目的女性毕业生在所有博士毕业生中占比不到18%。
一项AI指数调查显示,在世界各地的几所大学中,女性教师仅占计算机科学终身教职的约16%。
▲女性教师仅占计算机科学终身教职的约16%
2、2019年AI博士获得者中白人占比45%
CRA的调查显示,2019年,在新取得学位且常住美国的AI博士中,45%是白人(非西班牙裔),22.4%是亚洲人,3.2%是西班牙人,2.4%是非洲裔美国人。
▲2019年新取得学位且常住美国的AI博士中,45%是白人
过去10年中,新取得学位的非西班牙裔白人计算机科学博士的比例几乎没有发生变化,平均为62.7%。
相比之下,同期非洲裔黑人计算机科学博士和西班牙裔博士的占比明显较低,分别为约3.1%、3.3%。
▲十年间不同种族研究者取得AI领域博士职位人数变化
3、AI领域黑人研讨会与会者增多
参加AI领域黑人研讨会(Black in AI workshops)的人数显著增加。近些年来,这些研讨会由神经信息处理系统大会(NeurIPS)合作举办。
2019年,与会者数目和提交的论文数量是2017年的2.6倍,被接受的论文数量是2017年的2.1倍。
4、40%受访酷儿研究者曾受歧视
2020年,由Queer in AI(AI领域酷儿社区组织)进行了一项成员调查,共计收到100份回复。其中约31.5%的受访者认为是自己是同性恋;按照人数排列,其次是双性恋、酷儿和女同性恋等;女性逆性别者和男性逆性别者分别占总数的5%和2.5%。
▲受访100人中,31.5%的人认为自己是同性恋者
几乎一半的受访者表示,AI领域缺乏包容性是其成为AI/ML领域酷儿实践者的障碍。超过40%的受访者表示,他们在工作场合或学校中,曾因酷儿身份受到过歧视或骚扰。
七、AI道德:五年来117份AI道德相关文件被出版
随着人工智能驱动的创新在人们生活中变得越来越普遍,人工智能应用程序的道德挑战也越来越明显,并受到密切关注。
如前几章所述,使用各种人工智能技术可能会带来不少负面影响,如隐私侵犯,基于性别、种族、性取向或性别认同的歧视,以及不透明决策等问题。
因此,为了解决现有的道德挑战,则需要在人工智能被部署之前建立负责任、公平的创新。
本章将探讨随着人工智能应用的兴起而出现的伦理问题。
首先,人工智能指数团队审视了最近大量记录人工智能原则和框架的文件,以及媒体如何报道人工智能相关的道德问题。接下来,再回顾人工智能会议上发表的伦理相关研究,以及世界各地大学的计算机科学系提供什么样的伦理课程。
他们惊讶地发现,关于人工智能伦理领域话题的数据太少了。
尽管在这一领域,许多团体正在制定一系列定性或规范性的文件,但该领域通常缺乏基准,无法用来衡量或评估关于技术发展的更广泛社会讨论与技术本身发展之间的关系。
在“技术性能”一章中提到的一个数据点,是美国国家标准与技术研究所(National Institute of Standards and Technology)对人脸识别性能的研究,其重点是偏见。弄清楚如何创建更多的定量数据对研究界来说是一个挑战,但却也是一个有价值的问题。
政策制定者敏锐地意识到与人工智能有关的伦理问题,但他们更倾向于管理自己可以衡量的东西,因此找到将定性论证转化为定量数据的方法是这个过程中的一个重要步骤。
这一部分主要强调两个部分:
一是自2015年以来,在提交给人工智能会议的论文里,包含伦理相关关键词的论文数量有所增长,但在主要人工智能会议上,符合伦理相关关键词的论文平均数量多年来一直较低。
二是涉及五个新闻话题,得到了最多关注的分别是2020年伦理使用人工智能相关欧盟委员会(European Commission)发布《人工智能白皮书》,谷歌的解雇伦理研究员Timnit Gepu,联合国成立的人工智能伦理委员会,梵蒂冈的人工智能伦理计划,IBM退出人脸识别业务。
1、人工智能原理与框架
自2015年以来,政府、私人公司、政府间组织和研究/专业组织一直在制定规范文件,以制定管理人工智能应用的伦理挑战的方法。
这些文件主要包括原则、指导方针等,为解决各种组织中开发、部署和管理人工智能的关注和评估策略提供框架。从这些人工智能原则和框架中产生的一些常见主题包括隐私、问责制、透明度和可解释性。
《人工智能原则》的出版表明,组织正在关注并建立人工智能治理的愿景。但即便如此,所谓的伦理原则的扩散也遭到了伦理研究者和人权从业者的批评,他们反对不准确地使用与伦理相关的术语。
同时,批评者还指出,那些伦理原则还缺乏制度框架,在大多数情况下没有约束力。
这些原则的模糊和抽象本质并不能为如何实施与人工智能相关的伦理准则提供指导。
波士顿人工智能伦理实验室的研究人员创建了一个ToolBox,用来跟踪不断增长的人工智能原则。
2015年至2020年,共有117份涉及人工智能原则的文件被出版。数据显示,研究和专业机构是最早推出人工智能原则文件的机构之一。而在所有组织类型中,私营企业发布的有关人工智能原则的出版物数量最多。
▲私营企业发布的有关人工智能原则的出版物数量最多
截至2020年,欧洲和中亚的出版物数量最多(52份),其次是北美(41份)、东亚和太平洋地区(14份)。在推出道德准则方面,包括IBM、谷歌和FaceBook在内的科技公司,以及英国、欧盟和澳大利亚的政府机构,都在2018年集中发布。
▲截至2020年,欧洲和中亚的出版物数量最多(52份)
2、全球新闻媒体
新闻媒体是如何报道人工智能技术道德使用的话题的?
本部分分析了来自Netbase Quid的数据。Netbase Quid在LexisNexis的新闻数据库中搜索讨论人工智能伦理的文章,分析了2020年6万个英语新闻来源和超过50万个博客。
此次搜索发现了3047篇与人工智能技术相关的文章,包括“人权”、“人类价值”、“责任”、“人类控制”、“公平”、“歧视”或“非歧视”、“透明度”、“可解释性”、“安全和保障”、“问责制”和“隐私”等词条。
Netbase Quid基于语言相似性,将由此产生的媒体叙事分为七个大主题。
其中,在2020年最受关注的新闻话题排名中,与人工智能伦理指导和框架相关的文章位列第一(21%),其次是研究和教育(20%),以及面部识别(20%)。
▲与人工智能伦理指导和框架相关的文章位列第一
2020年最受关注的与人工智能道德使用相关的五个新闻话题是:
1、欧洲委员会发表《人工智能白皮书》(5.9%)
2、 谷歌解雇伦理研究员Timnit Gepu (3.5%)
3、联合国人工智能伦理委员会(2.7%)
4、梵蒂冈的人工智能伦理计划(2.6%)
5、IBM退出面部识别业务(2.5%)
3、人工智能会议上的道德规范
研究人员正在撰写更多直接关注人工智能伦理的论文,从2015年到2020年,该领域提交的论文数量增加了一倍多。
为了衡量伦理在人工智能研究中的作用,来自巴西愉港市(Porto Alegre)南大河联邦大学(Federal University of Rio Grande do Sul)的研究人员在领先的人工智能、机器学习和机器人会议的论文标题中搜索与伦理相关的术语。
结果显示,自2015年以来,提交给AI会议的论文中带有伦理相关关键词的论文数量显著增加。
▲自2015年以来,AI会议中AI伦理相关文章增加
研究人员进一步分析六个主要人工智能会议中所有出版物的平均关键字匹配数。尽管在前一张图表中提到的次数越来越多,但在主要人工智能会议上,符合伦理相关关键词的论文标题的平均数量,在多年里一直是较低的水平。
▲在主要人工智能会议上AI伦理相关文章却较低
不过,人工智能会议正在发生变化。从2020年开始,伦理话题被更紧密地纳入会议议程。
例如,全球最大的人工智能研究会议之一神经信息处理系统(Neural Information Processing Systems, NeurIPS)大会,在2020年首次要求研究人员在工作的同时,提交“更广泛的影响”声明,这推动了伦理问题与技术工作的更深层次融合。
此外,最近越来越多的会议和研讨会特别专注于负责任的人工智能,包括由人工智能促进协会主办的新人工智能、伦理和社会会议,以及由计算机器协会主办的公平、责任和透明会议。
4、高等教育机构的道德教育
这部分主要介绍了一项对全球顶尖大学计算机科学系或学院的调查,以评估高等教育机构的人工智能教育状况。
调查的部分内容是询问计算机系或大学是否提供学习人工智能和计算机科学道德方面的机会。在完成调查的16所大学中,有13所报告了某种类型的相关课程。
其中,在18个院系中,有11个院系报告将举办关于人工智能伦理的主题活动或小组讨论,其中7个院系在CS或其他院系开设人工智能伦理的独立课程。一些大学也提供一般计算机科学领域的伦理课程,包括独立的计算机伦理课程或嵌入计算机科学课程中的伦理模块。
▲调查中,有11个院系报告将举办关于人工智能伦理的主题活动或小组讨论
结语:十年,人工智能竞速赛高潮来临
通过解读斯坦福大学这份数据详实的人工智能指数报告,我们看到了全球人工智能技术在学术、科研、政府等各个层面受重识的程度,也看到人工智能自身快速发展中的喜与忧。但报告对AI产业及大公司的研究仍有不足,需要我们补充思考。
我国人工智能技术研发在全球的影响力显著提高,又拥有全球最丰富的应用落地场景,但AI伦理、人才培养等问题仍需重识。全球正在迎来人工智能竞速赛高潮,竞赛的维度也从早期的学术成果为主转向以产业导向的全维多面向的竞争。