数据要素产业

人工智能正在自然科学领域立足发展｜“职业指南人工智能”增刊

12-06 08:47

原文作者：Jack Leeming

涉及人工智能的跨学科合作项目不断增长，从中汲取的经验使得这些合作更为高效。

气候变化对巴西境内大西洋海岸线的影响，是圣保罗大学机械智能中心的研究重点。来源：Antonello Veneri/AFP via Getty

人工智能（AI）正在日益成为其他科学技术领域研究人员的得力工具，并不断促成跨学科的合作。斯坦福大学在2021一份为AI相关数据生成索引的报告中指出，涉及AI的期刊出版物数量于2019年到2020年之间增长了34.5%；而在2018至2019年此增长率仅为19.6%（参见go.nature. com/3mdt2yq）。2019年，人工智能类出版物占全球所有经同行评审科学类出版物的3.8%，相较2011年的1.3%有所提升。

五位涉足人工智能领域的研究人员描述了这些合作的斐然成果，以及在期刊出版的过程之外，AI技术是如何提供帮助以打破学科间的壁垒。

FABIO COZMAN：期望管理

Fabio Cozman，圣保罗大学人工智能中心（C4AI）主任。来源：Inst. for Advanced Studies/Univ. of S?o Paulo

我在巴西圣保罗大学领导人工智能中心（C4AI），我们的主要目标是开展对社会和行业有直接影响的机械智能研究。中心有五个核心项目，其中之一旨在改善巴西的本土语言葡萄牙语的自然语言处理及翻译，使计算机化的语音工具能更好地翻译、转录和理解葡萄牙语使用者的所言所语。另一个被称为蓝色亚马逊大脑（Blue Amazonia Brain）的项目则致力于研究气候变化、生物多样性和矿物资源对巴西境内大西洋海岸线及沿岸居民的影响。中心在2020年10月成立，从国际商业机器公司（IBM）、圣保罗研究基金会（S?o Paulo Research Foundation）和圣保罗大学分别获得每年约200万、200万和400万巴西雷亚尔的科研经费（200万巴西雷亚尔约折合38万美元）。此外，巴西政府也提供进一步的财政支持。

我们的中心合作广泛，但合作者对计算机科学可以实现的目标常常有许多不同的期望。AI从业者应当让学科合作者充分了解人工智能的能力所及，以解决现实与期望不符的问题。另外，人们对研究成果也意见不一。例如，自然科学领域的相关研究人员通常将期刊论文视为传播科研的最佳方式，而根据我的个人经验，人工智能领域的研究人员则更重视学术会议。

在合作中所遇到的另一种挑战是有些研究人员只是想要一个“程序员”。这类研究人员应当更主动分享他们的知识和问题，而不是想着“来个人给我编程”。学术合作真正需要的是能协力解决问题、回答问题的伙伴关系。

AI技术发展极快，计算机和工程领域从业人员已经感觉到他们得去解决现实世界的问题，只是埋头做自己的事，对我们来说已经不太令人满足了。我们正在追逐趋势，所有主要的AI实验室和研究中心都在积极投入到现实生活、应用性的问题之中。在此，我建议那些希望和AI专家合作的研究人员要首先做好期望管理：你是否只是想找一个 “擅长电脑的人” 帮你做数据分析，还是你真的有更深层次的问题需要解答，而AI可以帮得上忙？

另外，了解一些相关的背景知识和操作经验会对合作双方都大有裨益。

PHIALA SHANAHAN：携手同行

Phiala Shanahan，剑桥麻省理工学院理论物理学家。来源：Phiala Shanahan

我和谷歌的AI研究部门 DeepMind 一直保持合作，这一合作始于我几年前在以色列参加的一场会议。当时，我和我的学生在展示一些我们在麻省理工学院（MIT）开展的研究项目，其中一些借助了DeepMind高级研究员 Danilo Jimenez Rezende 的构想。他的研究包括复杂数据的建模，例如医学影像、视频、3D场景的几何模型，以及复杂物理系统。他在机器学习领域的一些关键成果已经被我们应用于研究基础物理的问题中了。

经过交谈，我们达成了长期合作。这项合作的成员包括数位 DeepMind 员工和我的部分博士后及博士学生。过去几年，我们写了四、五篇学术论文，也做了不少创新工作，并且使用机器学习模型来提升既定物理计算的速度。我们的最终目标是，有朝一日，我们能进行靠现有算法和资源不可能做到的研究。

“平等”是我们合作成功的一大诀窍。我的团队在AI领域的投入程度与DeepMind团队不相上下，而他们也对物理方面的工作了然于心。正是因为双方都可以对项目的这两方面有所助力，我们的合作才能进展得如此平稳顺畅、妙趣横生。

我也曾参加过缺乏效率的合作项目，当时的做法是“一组负责物理，一组负责计算机”，两边推进到中间碰头。结果两个组的工作都是孤岛式的，一直要克服学科语言障碍。我觉得这样的合作互动性不够。

在实践中，我们与DeepMind的这种更紧密、更平等的合作关系，体现在双方组员每周进行的会谈上。此外，我们在合作平台 Slack 上也有联合频道以供组员对话。我个人则会在工作日与参加项目的组员更频繁地会面。

SIMON OLSSON：发现问题

Simon Olsson，瑞典查尔姆斯理工大学应用人工智能学科助理教授。来源：Silvia Preite

我的实验室从去年十月开始试图开发机器学习方法，以解决自然科学中的计算问题。例如，目前我们正在与英瑞合资的阿斯利康公（AstraZeneca）发展药物设计方法。该公司在哥德堡设有一个研究中心，靠近我的大学。此外，我们还在研究如何将实验数据整合到蛋白质结构和动力学的机器学习模型当中。

我们使用已发表的自然科学论文和数据来训练算法，而非让算法自己解决问题。例如，如果你想弄清楚蛋白质如何折叠，或某一药物与该蛋白的相互作用，那么使用的计算机模型既考虑到有关该蛋白质的相关文献，也考虑到决定该蛋白质运作方式的物理与化学规律，可能会更有帮助。

如果你拥有计算机科学的背景，并且想在学习自然科学的同时尝试AI科学，可以试着先确定感兴趣的领域，并找到你想解决的问题。比如说，我一开始是在研究分子动力学和分子设计时被吸引的，在这个领域中，分子及其相互作用需要在电脑中进行模拟，这通常是为了发现药物。人工智能有潜力去解决以往自然科学中不可能的问题，因为这些问题的计算量都很庞大。

如果你没有计算机科学的背景，那么学会编程并理解机器学习的基础理论很重要。learnpython.org 是一个绝佳的起步网站，它提供编程语言Python的交互式教程。其他美国网课平台Coursera和视频网站YouTube也提供在线教程。当然你也可以在自己的大学里上机器学习或数据科学的课程。

此外，想要融会贯通人工智能编程的知识基础，意味这你需要理解应用统计学，并了解机器学习的算法是如何运行的，这包括他们处理数据的一些方式以及人工智能是如何从经验中“学习”的。掌握这些概念是重要的第一步。

我认为，要认识到机器学习和人工智能的用处，得问自己：“这些方法将如何帮助我们改进，在根本上推动科学发展？”

我建议对人工智能感兴趣的人通过一些简单的尝试来学习编程，比如将工作中的日常琐事自动化不论是发送模板化的电子邮件，或将数据录入到电子表格。如果一项重复性的任务非常无聊，人会很有动力把它自动化。熟练之后，你可以用更加复杂的任务挑战自己。

ROMAN LIPSKI：我的机器学习缪斯

Roman Lipski，使用AI作为创作灵感来源的艺术家。来源：Hans Georg Gaul

2016年4月，我开始在柏林艺术大学的美术学院给难民授课。在那里，我遇到了数据科学家 Florian Dohman。我们开始在合作中尝试用人工智能探索艺术。在那之前，我见过谷歌的数据科学家使用AI创作的图片。那些图像由重复的元素构成，好像恐怖故事一样，比如长着1000只眼睛或1000只脚的怪奇动物。

起初我有点天真，以为我们马上就能绘制出有史以来最棒的图片。我知道人工智能潜力非凡，但我本人并不会使用AI技术。一开始，Florian和我选用了由德国图宾根大学的科学家创建的开源算法，该算法使用机器学习来识别形状和颜色。为了贯彻自己的艺术操守，我们决定仅使用我自己的作品来训练算法。我们拍下了我职业生涯中创作的每一幅画，创建了一个小型数据组来训练该算法，然后让它自行原创作品。

结果也是惨不忍睹，我得到的画作和我在谷歌工程师那里看到的图像非常相似同样充斥着重复的形状和颜色，没有加入任何新的东西。从艺术的角度讲，它们仅仅是噱头而已。

由此，我们决定创建一个新的数据集。新的数据集使用了重复的图形，灵感来自Andy Warhol的坎贝尔汤罐（Campbell’s Soup Cans），我在自己的画中也使用过这一主题。这些图形来自我在2016年3月游览过的、非常简单的洛杉矶街景。我用不同的颜色和纹理重复绘画过这一场景很多次。

在我们将那组图像数字化之后，我开始意识到这次的艺术并非面向人类，而是由机器“观看”和处理。我和机器之间真正的沟通开始了。

这一次，当我们要求算法创新并绘制图片时，结果人惊叹。尽管不是每张画作都完美，但我们获得了成千上万的优秀成果，有着不同的艺术风格和真正的艺术品质，其中有些形式是我自己都无法创作出来的。

在遇到Florian的前一年，我其实已经遭遇了彻底的艺术危机，我觉得我的世界里能用绘画讲的故事都已经画完了。如今，通过AI技术，我又开始绘画。但这并不是单纯把算法生成的内容打印出来，我用这些输出结果作为灵感来创作自己的原创作品。现在，我也在鼓励其他人使用该算法来创作，作为一个名为Unfinished的社区艺术项目的一部分，帮助他们使用AI工具来体验我的创意历程，并创作出他们自己的画作。

我给大家的建议是，不要被AI设备所吓倒。尝试使用它们，正如使用任何其他工具，它们也有自己的优点和缺点。但对我来说，AI让我的职业生涯变得更好。

SIDDHARTH MISHRA-SHARMA：

良师益友

Siddharth Mishra-Sharma，麻省理工学院粒子物理学博士后研究员。来源：Jaan Altosaar

我在剑桥大学攻读本科学位时，曾在实验粒子物理和天体物理领域做过一些实习工作。其中包括在瑞士日内瓦附近的欧洲核子研究组织（CERN）实验室度过的几个夏天。在普林斯顿大学攻读粒子物理学博士期间，我涉足了机器学习，在目前任职的麻省理工学院则回到了机器学习领域。AI工具对物理学是很好的补充。我们和来自粒子对撞机或天体望远镜的庞大数据打交道，它们常常产生拍字节（千万亿字节）的数据。

假设你拥有一组通过追踪恒星在我们星系的运动而产生的庞大数据，其中，暗物质可以对恒星运动产生各种有趣的影响。比如将恒星稍微拉向这边或另一边，或者扭曲来自恒星的光。这些影响往往很难察觉，所以很难单独分析1000多亿颗恒星。最终，这类问题就会演变成大数据问题。机器学习的方法可以帮助我们识别其中的潜在模式，并且进一步扩展以处理庞大的数据集合。

同时，因为有大量不同类型的天文数据集可用从单个星系的图像，到我们银河系的地图，没有哪种机器学习方法能单独有效地寻找暗物质的影响。当我们在天体物理领域应用机器学习理论，我们将做出整体性的调整，以在新的场景中使用既有算法。例如，如果某一机器学习的方法擅长区分猫和狗的图像，那它也可以在进行调整后适用于区分不同星系的图像。

如今，物理学家和其他自然科学从业者的需求还可以为机器学习方法的发展提供信息。我不再直接处理来自对撞机或望远镜的海量数据了，我一部分的日常工作转变为，为解决某种问题或进行某种观察，寻找特定的机器学习方法。如果不存在合适的方法，那就试着自己创建一个。在这样的工作环境中，物理学和机器学习之间的信息流动是双向的。这两个学科之间正在互相交流渗透，我很高兴自己能参与其中。

最后，我鼓励人们去寻找潜在的导师并大胆提出：“这里有个有趣的问题，我想你的方法是绝佳的解决之道。”通常，对方会很乐于调整他们的方法来适应你的需求，或向你提供建议。他们往往会很乐于思考你提出的问题。

Jack Leeming负责本文的采访。为控制文章长度、保证行文清晰度，以上采访均经过编辑。

原文以AI and its growing foothold in the natural sciences为标题发布在2021年10月14日出版的《自然》增刊“职业指南人工智能”上。

nature

更多>数据要素产业相关信息

最新发布

点击排行

Select Language

AI社区

今日排行

本月搜索

Dataset Category

数据要素产业

人工智能正在自然科学领域立足发展｜“职业指南人工智能”增刊