数据要素产业
无监督机器学习帮助识别新型有利于锂离子低障碍传导的无机晶体
要合成一种新的化学物质,研究人员需要基于他们对化学结构和化学键的了解提出可能产生新的化合物的元素组合假设,然后通过大量实验对假设进行验证以求幸运女神的眷顾。
哪怕有大量已知的化合物合成研究数据,对可能形成孤立化学物质的元素组合进行决策性的筛选也是一件耗时耗力的事情。
利物浦大学 Andrij Vasylenko 等人组成的研究团队则利用已训练的无监督机器学习模型来指导研究人员对化学元素组合的选择。
该模型可以识别无机晶体材料元素组合之间复杂的相似性,通过对用来勘探合成材料的含两个阴离子的季相场进行优先级排序来指导实验中对于锂固体电解质的识别。
这种机器学习与传统实验相结合的工作方法令研究人员发现了一种新的缺陷填充的纤锌矿结构 Li3.3SnS3.3Cl0.7,并在该化合物的六方密堆积中发现了可以低屏障运输锂离子的通道。该研究于九月二十一日发表在Nature Communications上。
合成新的无机晶体化合物的艰巨性
在固态材料化学中,有关经实验证实的稳定晶体化合物的信息是海量的。举个例子,仅无机晶体结构数据库(Inorganic Crystal Structure Database,ICSD)中就有 20 多万条有关稳定的晶体化合物的记载。
无论从动力学还是热力学的角度考虑,决定这些化合物稳定性的因素都是繁杂的。这些繁杂的因素说明对构成无机晶体化合物的组成元素而言其化学键的相互作用是多样的。为了决定在诸多未知的相场中选择哪些来进行研究,记住成千上万个稳定晶体化合物的例子对研究者而言相当困难。
从相场层面考虑无监督机器学习模型的搭建
利物浦大学 Andrij Vasylenko 等人组成的研究团队汇总了 ICSD 中所报道的有关相的信息(详见文末该团队使用的 ICSD 数据链接)以定义那些包含合成孤立晶体化合物的相场,从而指导合成元素的选择。不同于之前机器学习对个体材料层面的关注,该团队训练了一个神经网络模型对准备进一步研究的新的相场进行优先级排序。该排序取决于它们的元素组合与那些已知的能使材料具备稳定性的化学物质有多相似。
每个相场都由四个元素组成,每个元素又有 37 个化学特征(比如原子质量,价,离子半径等),所以每个相场都可以被描述成一个 37*4=148 维度的向量。该向量的高维度特征会造成训练数据的稀疏分布,因而该团队采用了 VAE(variational auto encoder)维度削减法。该方法基于无监督神经网络算法对高维度非线性相似性的量化。
图 | VAE 模型训练步骤训练过程中 VAE 模型通过对神经网络的权重和偏倚进行微调以使重构误差最小化;该误差即图中Step 2 原始 148 维度的四元相场向量 p 与解码(维度削减)后的向量p′(Step 4)之间的欧几里得距离(来源:Nature Communications)
该团队的训练数据集只包含 ICSD 中已被证实的四元化合物的相场,所以他们希望训练出的模型能倾向于识别最有可能合成四元化合物的相常该模型会对相场候选者的重构误差(reconstruction error)进行排序,误差越小,排序越高。
平均来讲,该团队的模型能够在验证数据集中有效重构 79.8% 的相常合成化学家因而可以通过该排序对正序前几位的候选化合物进行进一步的实验探究 (详见文末 VAE 模型代码的链接)。
进一步实验确定化合物并探索锂离子的传导
VAE 模型首先帮该团队从候选元素组合中锁定了 Li-Sn-S-Cl 场,基于此该团队用探针结构计算锁定了该场的一个区域进行合成探究。
接着他们用晶体结构预测(Crystal Structure Prediction)和盆地跳跃(Basin Hopping)优化算法对 Li-Sn-S-Cl 场的 244 个化合物进行能量图景探索,从而锁定了 Li3.3SnS3.3Cl0.7。
紧接着,该团队使用了 Rietveld 细化粉末同步加速器X射线衍射和中子粉末衍射从而确定了 Li3.3SnS3.3Cl0.7 具有缺陷填充的纤锌矿结构。
(来源:Nature Communications)
之后该团队对锂离子在该化合物中的传导性和动力学特质进行了探索并锁定了三个可能的衍射通道。
这三个衍射通道分别具有一维,二维和三维的特质。通过对比在同一相的三个通道的单粒子势(One Particle Potential)值,该团队发现一维通道(一维通道的单粒子势值详见图 2d 绿色线,黑色线为二维通道 OPP)最有利于近液态锂离子的传导行为。
-End-