支持向量决策树

图3|从 SVM 中得到的决策树。椭圆表示决策节点,矩形代表反应结果容器,三角形代表被切除的子树。箭头上的数字对应于决策属性的测试值。每个反应结果容器(矩形)对应一个特定的反应结果值(“3”或“4”,如图所示)。括号中的数字是正确地分配给该容器的反应的数量(任何被错误分类的反应都用正斜杠标识)。分数值表示反应具有不确定的结果,这是由决策树的较高位置的属性值缺失导致的。那些包含了大多数成功反应的容器被分为三个不同的组(分别用绿色,蓝色和红色阴影标示)。每个彩色子树定义了一组有助于单晶形成的特定反应参数。通过审查这些条件,可以得出相应的化学假设,这些假设分别对应于低、中和高极化胺。来源:Nature 533, 73–76
算法生成的假设及其化学三维结构模型

图4|对从模型中产生的三个假设及每个假设结构的图示。单晶形成所需的实验条件很大程度上取决于胺属性。小的、低极化的胺需要不存在与之竞争的 Na+ 离子,也需要较长的反应时间,以避免无机砌块沉淀。球形、低投影尺寸的胺则需要包含 VOSO4 等试剂的 V4+ ,因为它们不能直接从常见的 V5+ 前体中产生 V4+。长的三胺和四胺要求草酸盐反应物,以改变无机次级砌块的电荷密度。这三个假设分别对应于图 3 中的绿色、蓝色和红色子树。
我们的机器学习方法使我们能够利用包含历史反应的化学信息,并阐明支配反应结果的因素。机器学习模型对先前未经测试的有机胺的预测准确率,超过了依靠多年来形成的化学直觉所实现的准确率。此外,我们的方法以可验证的假设形式揭示了支配反应结果的化学原理,它能更成功地制造新化合物,也能产生有用的化学信息,这代表了试探性反应的革新性进步。
AI 真能发现神奇材料吗?
计算材料科学还是一门新兴的学科,其主要推动着就是上文提到的加州大学伯克利分校的材料科学家 Gerbrand Ceder 。受人类基因组计划的启发,Ceder 想到了使用高通量数据驱动的方法进行材料发现。Ceder 认为,人类基因组本身并非能作为疾病治疗的方案,但却可以为医学提供研发疾病治疗方案的海量基本定量数据——材料科学是不是也能借鉴遗传科学的方法,用“材料基因组”(该词为 Ceder 所创)编码各种化合物呢,就像 DNA 碱基对编码蛋白质等各种生物材料一样?
2003 年,Ceder 研究组创建了一个量子力学计算数据库,用于预测金属合金最有可能形成的晶体结构,因为这是发明新材料的基础。在过去,即使使用用超级计算机也需要通过多次反复长期大量试错找到合金的基态。但在 Ceder 研究组 2003 年发表的一篇论文中,他们描述了一种捷径:研究人员首先计算出一些常见二元合金晶体结构的能量,建立小型数据库,然后设计了一种机器学习算法,这种算法可以从上述数据库中提取模式,继而预测出新合金基态的可能值。结果表明,Ceder 研究组设计的这种机器学习算法表现良好,大大缩减了计算时间。
2006年,Ceder 在 MIT 开始了 Materials Genome Project,用改进后的机器学习算法预测能用作电动车电池的锂材料。2010年,该计划的数据库里已经包含了2万种计算机预测的化合物。另一方面,Ceder 研究组成员 Stefano Curtarolo 在 2006 年去了杜克大学并在那里建立了自己的实验室——Center for Materials Genomics,专门研究金属合金,Curtarolo 研究组与其他两家研究机构合作,逐渐改进 2003 年的机器学习算法并拓展数据库,构建了 AFLOW 系统,能计算已知的晶体结构并且自动预测新的晶体结构。
2011年6月,白宫宣布斥资几亿美元进行 Materials Genome Initiative(MGI),由此开始计算材料科学这门学科成为主流。如今,除了 Ceder 的 Materials Project,还有原 Ceder 研究组成员、现杜克大学材料科学家 Stefano Curtarolo 的数据库 AFLOWlib,以及西北大学材料研究者 Chris Wolverton 在 Ceder 思路启发下,用自己研发的算法和模型建立的数据库 Open Quantum Materials Database(OQMD)。
这3大数据库都含有从材料科学界广泛使用的无机晶体结构数据库中提取的5万种材料,这些都是曾经被制造出来的固体,但其导电性和磁性尚未被彻底研究。其不同之处在于:Ceder 的 Materials Project 侧重沸石、锂电池相关以及金属有机骨架结构材料,并以较高的标准衡量是否将计算机预测的材料纳入数据库;Curtarolo 的 AFLOWlib 是最大的数据库,包含 100 多万种材料和几十万种假想材料,但相应的里面也不乏只能存在一瞬间的材料;Wolverton 的 OQMD 有大约 40 万种假想材料,其中钙钛矿相关的尤其丰富,此外正如名字中 Open 那样,用户可以下载整个数据库。
目前这3大数据库都在用各自的方法不断补充数据、完善算法,但离理想还有很大距离。当前的机器学习算法相对擅长预测某种晶体是否稳定,但在预测吸光性和导电性时则会出现很大误差。不过,Materials Project 已经发现了几种有望超越现有锂离子电池阴极材料性能的材料,以及有可能提高太阳能电池能量转化率的金属氧化物。都柏林三一学院的研究人员使用 AFLOWlib 预测了 20 种可用于制作传感器或计算机存储器的磁性材料,并且成功合成了其中的两种,同时经实验证明其磁性与预测非常接近,相关论文已经在 Nature 发表。

电池网微信












