倪军研究组在构建通用的机器学习模型框架用于材料性质的预测取得进展

 

        受高通量第一性原理计算和高通量实验的驱动,机器学习用来研究材料的性质成为重要的新工具。对于运用到材料设计上的机器学习模型来说,关键的问题是如何将组分和结构信息映射到一个固定长度的向量上,这个向量也被称为材料特征向量。然而为了得到好的性能,必须找到合适的特征向量。人工构造的特征向量具有很大的任意性,很难解释为什么要选择这些量而不是其它的量。此外,如果事先对要预测的物理性质没有先验知识的话,寻找合适的特征量本身是很困难的,特别是对于实验数据来说,准确的晶体结构参数往往无法确知。此外,对于涉及掺杂的材料,它们本身就可能没有一致的晶体结构。

        最近,物理系倪军教授的研究组针对准确晶体结构数据缺乏的材料,提出了原子表卷积神经网络模型来预测材料的物理性质。这种模型只涉及化合物组分(只需要区分组分中的元素符号),不需要根据任何先验的物理背景知识来手动构建特征向量,而是从训练中自动学习所需的特征。利用该模型,对半导体材料的带隙进行了预测,精度超过了标准DFT计算。通过数据增强的方法,模型不仅能够准确预测超导体的超导转变温度,还能够区别超导体和非超导体。利用该模型,从现有数据库中筛选出了20种未被研究过的可能具有高超导转变温度超导材料。该模型对材料性质和高通量材料筛选提供了预测手段。  


图 1. ATCNN-II加入了9,399非超导体进行训练,使得该模型可区分非超导体和超导体; 模型对非超导体分类失误率为2.2%,对超导体分类失误率为8.9%


        目前,相关成果以“Atom Table Convolutional Neural Networks for an Accurate Prediction of Compounds Properties”为题发表在8月8日的npj Computational Materials  5, 84 (2019)。物理系博士生曾树明为文章的第一作者。该研究工作得到了国家自然科学基金和科技部的资助。  

        文章链接:https://www.nature.com/articles/s41524-019-0223-y