今天为大家介绍的是耶拿大学的研究人员一直在开发一种名为 的深度学习系统,其用于自动识别科学文献中的化学结构图。该系统能将分子图像转化为一种名为 的标准化化学符号。虽然 目前在训练阶段的表现不如传统方法,但研究人员相信,如果训练时间更长,它的准确率也能达到类似水平。 的效果取决于输入数据的表示方式, 和 可能比普通 更好。研究表明,如果使用 5000 万到 1 亿个结构的更大训练数据集,就能实现准确预测。
引言
从化学文献中识别化学结构图,即光学化学实体识别(OCER),对于提取化学信息和填充开放存取数据库至关重要。现有的 OCER 软件系统(如 Kekulé、 和 )涉及扫描、字符识别、图表编译和后处理等步骤。这些步骤都需要细致的调整,而增加新功能更是耗费大量人力物力。
受基于深度神经网络的 Zero 取得成功的启发,研究人员认识到将深度学习用于 OCER 的潜力。他们意识到,与过去依赖有限的人类注释示例的方法不同,他们可以从生成器或开放化学数据集创建的大量化学结构来源中生成训练数据。
其他针对 OCER 的深度学习尝试,如 Schrö 小组的工作,成功地从位图中提取了机器可读的化学结构,但缺乏可公开复制的软件。 方法提出了一种涉及图像分割和图构建算法的模块化方法。
在此背景下,研究人员介绍了他们在化学图像识别深度学习()方面取得的进展。这种深度学习方法的灵感来自 “展示-讲述”(show-and-tell)网络,可将出版物中的分子图像转换为 符号。与其他一些方法不同, 不假定图像中存在键或元素符号。该研究报告的初步结果表明,只要有足够的训练时间, 就能达到与传统方法相当的性能。
训练用于化学图像识别的深度神经网络
作者的方法被称为 “化学图像识别深度学习”(),目前的训练阶段还无法与现有的传统光学化学实体识别(OCER)方法相媲美。不过,作者提供的证据表明,只要有足够的训练数据,作者的方法就能达到类似的检测水平,而不需要典型 OCER 工作流程中复杂的工程步骤。
作者的核心理念是调整最初为标注普通照片而设计的示意深度神经网络。作者对其进行了重新训练,使其能够在呈现化学结构的位图图像时生成 标记序列。作者没有从文献中抽象出化学结构图作为训练数据,而是利用了结构图生成器(SDG),如化学开发工具包(CDK)中的结构图生成器。这样,作者就可以生成无限量的训练数据。作者可以修改这些数据,通过应用模糊和添加噪声等技术来模拟化学文献中不同的图像质量。 是 CDK SDG 的输入结构源。
作者为所使用的 数据制定了特定的编辑规则,包括分子量低于 1500 道尔顿、特定元素、有限键等要求和其他限制。作者使用 CDK SDG 从化学图中创建分子位图图像,确保为深度学习模型提供高质量的二维描述。作者的模型采用了基于 2.0 的自动编码器网络,该网络基于 Xu 等人在图像标题生成方面的研究成果和注意力机制。该模型由一个编码器网络(CNN)和一个解码器网络(带有 GRU 和全连接层的 RNN)组成,并采用了 等人的软注意力机制。
of the
对于文本数据,作者使用 字符串,将其编码为常规 、 和 等不同格式,以评估数据表示对学习成功率的影响。作者发现, 优于常规 ,因此作者的模型继续使用 。总之,作者的 方法仍处于早期阶段,目前正在使用深度学习训练识别化学结构。虽然目前的性能还无法与传统方法相提并论,但作者相信,只要有充足的训练数据,作者的方法无需复杂的工程设计就能达到传统方法的准确度。
训练过程和模型评估
作者使用 文本数据和相应的化学图位图对模型进行了训练。训练过程包括读取文本文件,使用标记化器对 进行标记化,并存储唯一标记。使用未修改的 V3 模型将位图图像转换为特征向量,并将这些向量保存为 NumPy 数组。
模型的准确性使用 相似性分数进行评估,该分数以所有分数的平均值和 分数达到 1.0 的计数来计算。 系数之所以有效,是因为它能够在完全识别之前就衡量识别率的提高,而且与严格的结构同构相似,特别是在使用 指纹时。
为了确定最佳超参数,作者最初在小型数据集上训练了多个模型。在探索了超参数空间后,作者确定了一些参数,如批量大小为 640 张图像,在 299×299 画布上描绘的图像的嵌入维度大小为 600,学习率为 0.0005 的亚当优化器,以及用于计算损失的稀疏分类交叉熵。对模型进行了 25 次历时训练,在测试集上进行评估之前,允许收敛。
训练在内部服务器上进行,服务器配备了英伟达™(®)Tesla V100 图形卡、384 GB 内存和两个英特尔(R)至强(R)Gold 6230 CPU。虽然训练本身是在 GPU 上进行的,但最初的数据集准备工作却是 CPU 密集型的。
训练时间随着数据量的增加而增加(参见表 1 和图 4)。模型性能通过独立的测试数据集进行评估。在稿件准备过程中,并行训练实验显示,超过 2 或 3 个 GPU 后,扩展效果就会降低。
time spent on each epoch with size
数据量增加时的训练进度指标
a) 随着训练数据量的增加,学习 语法的效果明显增强。有效和无效 预测的百分比总和达到 100%。数据集索引如表 1 所示。
b) 随着训练数据集的扩大,学习效果的改善体现在平均谷本相似度得分(右侧显示为橙色)和有效 预测的谷本相似度得分达到 1.0 的结构百分比(左侧显示为蓝色)上。数据集索引与表 1 相对应。
c)采用线性外推法预测更多数据可达到的准确度。这种外推法旨在让作者了解要达到接近完美的结构预测准确性所需的训练数据数量级。值得注意的是,虽然所描述的线性增长表明了数据量的趋势,但随着训练集规模的增加,实际进展最终会过渡到饱和曲线。
结论
本研究介绍了初步研究结果,展示了该深度神经网络高效提取机器可读结构表征的潜力。这种方法在数百万个示例上进行训练,对问题的具体假设要求极低。数据表示极大地影响了训练的成功率, 超过了 ,而且有迹象表明 优于 。在 600 万张训练图像中, 和 的平均 相似度得分分别为 0.53 和 0.78。
如果将这些结果推广到更大的训练数据集上,就能在 5000 万到 1 亿个结构中实现准确预测。尽管需要付出大量努力,但在单个 GPU 上几个月的时间内就能完成这样的训练。作者的工作以开源软件和数据为基础,向公众开放。
目前,作者正通过使用更大的训练集、并行化和强大的硬件来推进工作。作者计划在即将发表的研究论文中分享全面的成果。
参考资料:Rajan, et al. “: Deep For Image “, of 12.1 (2020): 65.
———END———
限 时 特 惠: 本站每日持续更新海量各大内部创业教程,永久会员只需99元,全站资源免费下载 点击查看详情
站 长 微 信: hs105011