导读:
近日,复旦大学未来信息创新学院张浩副教授团队提出了全新深度学习框架VQCrystal,以离散的隐变量为基础,成功克服了当前晶体生成与逆向设计中的关键瓶颈,实现了对晶体结构的高效编码、生成与优化。该研究不仅在三维晶体材料的自动化发现中取得突破,还将此方法成功推广至二维材料设计,为材料科学领域带来了强大的新范式和工具。相关成果以题为Massive discovery of crystal structures across dimensionalities by leveraging vector quantization论文,在线发表于Nature合作期刊npj Computational Materials。
研究背景:
近年来,计算方法在新型功能晶体材料的发现中展现出巨大潜力,但要在海量的材料空间中高效、精准地生成并筛选出性能优异的晶体样本,依然面临严峻挑战。晶体生成与逆向设计作为材料发现的关键步骤,长期受限于复杂结构难以建模、优化路径不明确等瓶颈,阻碍了新材料筛选效率与质量的提升。为解决上述问题,深度生成模型逐渐成为推动材料设计智能化的重要工具。尽管已有方法在三维晶体生成中取得一定进展,但在结构的物理真实性、稳定性与可控性方面仍有提升空间,尤其是在二维材料设计、逆向结构优化等任务中,传统方法存在泛化能力弱、生成样本可解释性差等局限。
在此背景下,复旦大学信息科学与工程学院张浩副教授团队构建了全新的深度学习框架VQCrystal,通过引入分层向量量化–变分自编码器(VQ-VAE)架构,将复杂晶体结构编码到离散隐变量空间,实现了晶体结构的高效生成与优化。该方法从全局对称性与局部原子排列两个层面精准建模结构特征,并结合遗传算法与机器学习结构松弛流程,实现性能目标驱动的晶体结构优化,显著提升了材料生成的物理可靠性与筛选效率。该研究在三维半导体材料与二维材料设计中均展现出优异性能,在多个公开测试集上显著优于现有主流方法,为大规模晶体材料发现提供了强有力的技术支撑,并为材料科学的自动化发展开辟了新路径。
创新研究:
独特的分层向量量化–变分自编码器(VQ-VAE)架构
该架构将复杂的晶体结构信息映射到一个离散的、更易于解释和优化的隐变量空间中,同时在“全局”与“局部”两个层面分别提取晶体的关键特征(如图1所示)。在全局层面,模型借助SE(3)等变图神
经网络(CSPNet)和图卷积网络(GCN),有效捕捉晶胞的整体对称性、周期性和拓扑特征,形成全局隐变量。在局部层面,则通过Transformer模型来精确获取原子的精细排列、化学成分和相对位置信息,形成局部隐变量。这种分层设计使得模型能够同时兼顾晶体的宏观结构与微观细节,为后续的生成和优化奠定了坚实基础。
图1 VQCrystal模型的架构。
高效的采样与优化流程以实现定向设计
图 2 VQCrystal的采样流程。
该流程首先固定一个已知晶体的局部隐变量(即原子种类和大致排布),然后利用遗传算法在全局隐变量空间中进行演化搜索,以寻找能够解码出具有目标性质(如低形成能)的全局结构信息,最后结合OpenLAM机器学习结构松弛方法对生成的候选晶体进行物理力场下的结构优化,极大地提升了生成样本的物理真实性和稳定性(如图2所示)。
离散隐空间在晶体生成任务中的高可解释性
该研究通过主成分分析(PCA)和聚类分析,揭示了VQCrystal学习到的隐空间具有高度的组织性(如图3所示)。全局隐变量空间不仅能清晰地按照总能量进行平滑过渡(颜色由暖色调的高能量区向冷色调的低能量区变化),还能将不同空间群(Space Group)的晶体有效地区分开来,形成了边界清晰的簇。这证明模型自发地学习到了晶体学中的基本对称性知识。同时,该图也直观地展示了基因算法的优化过程:随着迭代次数的增加,种群的整体能量显著下降,最终收敛到能量极低的稳定区域,表明优化算法在结构良好的隐空间中能够高效地工作。
图 3 模型可解释性分析。
总结:
该研究提出的VQCrystal框架,不仅在三维与二维晶体生成任务中表现出卓越性能,还突破性地解决了材料逆向设计中的关键瓶颈,为未来可调型材料的高效探索提供了全新技术路径。其方法具备良好的泛化能力与可拓展性,未来有望广泛应用于热电、光电、量子材料等领域的结构设计与性能优化任务。
复旦大学本科生生邱子杰和金罗智杰是论文共同第一作者,复旦大学张浩副教授与岑剡高级工程师为论文通讯作者,复旦大学孙思琦青年研究员、梅永丰教授,与本科生杜子健、毛冠尧和研究生陈虹玉为论文做出了重要贡献。本研究获国家重点研发计划和上海市自然科学基金的项目资助。
文章链接:https://doi.org/10.1038/s41524-025-01613-6