17.12.2012 Views

Chemical Database: A Case of Data Grid Application

Chemical Database: A Case of Data Grid Application

Chemical Database: A Case of Data Grid Application

SHOW MORE
SHOW LESS

Create successful ePaper yourself

Turn your PDF publications into a flip-book with our unique Google optimized e-Paper software.

化学主题数据库:数据网格技术的应用范例 137<br />

化学主题数据库:数据网格技术的应用范例<br />

赵月红 1 徐俊波 1 温浩 1 陈维明 2 戴静芳 2 李英勇 2 许禄 3 章文军<br />

(1. 中国科学院过程工程研究所 北京 1 00190;2. 中国科学院上海有机化学研究所 上海 200032 ;<br />

3. 中国科学院长春应用化学研究所 长春 130022)<br />

摘 要 实现异地异构化学数据资源整合,消除信息孤岛,是化学数据库的一个重要发展方<br />

向。基于化合物标识信息具有联系不同分支学科数据的天然属性,设计开发了以化合物标识信息<br />

为核心的化学数据资源整合方案,利用中国科学院计算机网络信息中心开发的数据网格核心服务,<br />

开发了基于 Web 服务(动态网页/Web Service)的化学数据网格及其门户,实现了异地异构化学<br />

数据资源的集成检索和发布。结果表明,基于化合物标识信息的数据整合策略,化学数据网格可<br />

以满足异地异构化学数据资源整合的需要,并能保证对原有工作的继承。基于 Web Service 技术<br />

的数据访问方式可以进一步扩展到分布式化学应用资源的访问共享,进而实现异地异构数据与应<br />

用的集成,构成化学化工研究协同工作的基础网络平台。<br />

关键词 化学数据网格;化合物标识;数据整合<br />

1. 引言<br />

在化学数据积累、加工和使用的历史进程中,计算机和网络技术的出现和迅猛发展,极<br />

大地促进了化学数据资源的建设和化学数据使用方式的转变。在化学学科,不仅形成了丰富<br />

的、涵盖各分支学科的数据资源,而且化学数据库已成为科研人员获取化学数据的主要渠道。<br />

同时,学数据库也逐渐凸显出使用中的不足和更深入的需求,表现为:<br />

(1)一个科学技术问题通常具有综合性和跨学科的特点,单一专业的数据库不足以支撑<br />

科学研究对数据的要求;<br />

(2)由不同机构在不同时期开发的数据库具有突出的异地异构特点。<br />

显然,这种点状数据存储和服务方式割裂了化学各分支学科数据的内在联系。用户查询<br />

同一化合物的数据时,不得不在各专业数据库之间跳转,跨库数据的二次利用就更加困难。<br />

解决不同化学数据库之间数据资源的共享整合问题,消除信息孤岛,成为化学数据库的一个<br />

重要发展方向,也自然而然地成为化学主题数据库建设的初衷。<br />

随着近年来网格技术的逐步成熟,网格技术已经成为实现透明访问异地异构数据和计算<br />

资源的有效方法 [1-3] 。出现了 Condor、Globus、Glue 等成熟的网格开发框架和中间件,基于<br />

Web Service 的数据网格开发技术 [4-5] 也日益受到重视。在化学领域,不仅逐渐建立了基于单<br />

本文得到中国科学院信息化专项项目、国家科技基础条件平台项目资助。<br />

3 1


146 科学数据库与信息技术论文集<br />

一检索入口覆盖多个分支学科的 Web 化学数据服务系统(如 NIST Chemistry WebBook、<br />

ChemSpider、PubChem 等 [6] ),也出现了面向数据密集型应用的示范性网格,如英国的组合化<br />

学网格项目 CombeChem [7] 、欧盟基于 UNICORE [8] 开发的化学数据网格,并有多种数据网格<br />

应用出现 [9] 。<br />

中国科学院科学数据库经过 30 年的建设,在化学领域形成了针对化学化工特点的、面向<br />

不同分支学科的专业数据库群 [10] 。各专业数据库由不同的建库单位开发和维护,在数据内容<br />

上具有不同的学科侧重。因此,“面向科技创新与应用,进一步加强化学科学数据资源的规<br />

范化建设,重点建设适应化学化工研究和应用要求的数据库群,建立以化合物唯一标识信息<br />

为内在联系的数据资源集成和共享体系,提升为科技创新和可持续发展提供化学数据集成服<br />

务的能力”,这已成为化学主题数据库的建设目标。<br />

2. 化学主题数据库建设的科学基础和实现方案<br />

2.1 数据资源和数据整合的科学基础<br />

中国科学院科学数据库专家委员会曾给出我国化学数据资源状况的分析报告 [10] 。报告指<br />

出,我国化学数据库主要分布在有机化学、物理化学、分析化学与光谱学、环境化学、天然<br />

产物与药物化学、应用化学 6 个分支学科,分别由中国科学院过程工程研究所、上海有机化<br />

学研究所、长春应用化学研究所开发和维护,并各自独立对外提供数据服务。这些数据库各<br />

有学科侧重,数据组成要素复杂。此外,数据组织表达需要专业知识的支持,如何克服这些<br />

困难是数据整合方案需要着重考虑的问题。<br />

对化合物的表征和标识是化学的基本问题之一,这个问题的本质是一个化合物区别于其<br />

他化合物的标志问题。由此产生的化合物标识信息是化学各分支学科共同使用的基本信息。<br />

化合物标识信息的作用不仅在于对化合物的标记与识别,而且使化学各分支学科从不同<br />

的方面,对同一化合物的不同性质进行描述成为可能。化合物标识信息的这个作用也体现出<br />

化学各分支学科内在的、科学的和必然的逻辑联系。<br />

因此,基于化合物标识信息具有联系不同分支学科数据的天然属性,将其作为联系异地<br />

异构化学数据资源的基本线索,并由此构建化学数据网格,进行化学领域数据资源的整合,<br />

是一个有充分坚实的科学基础的构想。<br />

显然,这个构想能够得以实现的关键在于选取合适的化合物标识。实际上,化学学科中<br />

已有多种可供使用的化合物标识体系,如化合物名称、分子式、MOL 文件、CAS 登录号(CAS<br />

RN)、InChI、InChIKey、SMILES 等常用标识 [11] 。对于一个化合物而言,化合物名称、分子<br />

式和 SMILES 码对化合物的表述不具有唯一性,MOL 文件和 InChI 的标识较长、匹配困难,<br />

都不能认为是用于异地异构数据整合的合适选择。CAS RN(最大 10 个数字)和 InChIKey<br />

(标准 InChIKey 含 27 个字符)适于网络传输和基于 Web 的检索,是目前广泛应用的化合物<br />

标识。由于几乎所有的化学数据库都支持 CAS RN 检索,InChIKey 的应用范围也在不断扩大,


化学主题数据库:数据网格技术的应用范例 147<br />

所以可以认为这两种标识信息能够满足化学数据资源整合的要求 [7, 12] 。<br />

事实上,美国化学文摘社、美国 MDL 公司 CrossFire 等大型化学数据库系统都有采用这<br />

种集成策略的成功先例。<br />

2.2 数据整合的方案设计<br />

化学主题数据库方案设计的关键在于选取合适的化合物标识,并设计合适的数据访问方<br />

法,以保证数据访问的效率和可靠性。<br />

化学主题数据库的数据资源大都具有化合物 CAS RN,但并不完备。各数据库一般通过<br />

各自定义的化合物 ID,实现化合物数据的组织访问。为弥补目前各数据库中 CAS RN 不完备<br />

的问题,化学主题数据库将 InChIKey 和上海有机化学研究所化合物登录号 SRN 作为 CAS RN<br />

的补充。各数据库增加了全部三种或部分唯一标识,以及本地化合物 ID 的映射表后,可在<br />

不改变成员数据库现有数据结构和数据访问程序的情况下,实现化学数据的跨平台访问共享。<br />

这种数据整合方案的优势在于有效地控制了技术难度和工作量。化学主题数据库中心节<br />

点则需要建立包含完整化合物标识信息的化合物基本信息库,作为化合物检索后台。目前,<br />

化学主题数据库中心节点基本信息库的化合物数量已达到约 50 万种,基本覆盖了当前各成员<br />

数据库包含的化合物,可以满足化学主题数据库运行的需要。<br />

此外,由于各成员数据库已经开发了具有学科特色的独立运行的数据库及其应用,专业<br />

数据覆盖也较完整,所以数据整合时需要考虑保留原有专业数据库的独立性。<br />

数据资源目录具有数据资源浏览和学科特色突出的特点,因此,除基于化合物标识的数<br />

据整合外,化学主题数据库在方案设计中还考虑了基于数据资源目录的数据整合。<br />

(1)基于化合物标识的数据整合:以化合物(唯一标识)为根节点,根据化合物数据的<br />

学科分类和数据组织习惯建立各级节点(数据访问服务 URI),并据此建立相应的化合物数据<br />

查询服务,用户从化合物(唯一标识)出发可访问到各级节点。<br />

(2)基于数据资源目录的数据整合:以数据资源目录为根节点,根据各分支学科的数据<br />

资源和服务建立各级节点,对现有的数据资源和服务进行整合,提供目录浏览式服务,并为<br />

构建数据访问服务 URI 提供支持。其中,各数据资源的维护及服务由各专业数据库独立进行,<br />

以保持数据服务的专业性。<br />

以上两种数据整合方式的结合,可以遍历所有数据资源。如果用户需要某个化合物的全<br />

面信息,可从化合物数据查询出发,获得化合物的唯一标识,调用相关数据服务就可获得来<br />

自不同专业数据库的数据。如果用户有明确的数据需求,并且对相关数据资源多有了解,那<br />

么可通过数据目录直接访问相应的专业数据库。用户还可进一步将检索获得的数据构成临时<br />

数据表(component list),作为参数传给数据资源目录中的相关服务,从而实现共享化学计算<br />

服务的集成。<br />

图 1 和图 2 所示分别为基于化合物标识和基于数据资源目录的数据整合方案示意图,图<br />

3 所示为化学数据及应用服务整合框架示意图。


148 科学数据库与信息技术论文集<br />

图 1 基于化合物标识的数据整合方案<br />

图 2 基于数据资源目录的数据整合方案


3. 化学主题数据库的设计实现<br />

化学主题数据库:数据网格技术的应用范例 149<br />

图 3 化学数据及应用服务整合框架示意图<br />

与常见数据网格相似,化学主题数据库的核心功能由化学数据服务资源、数据网格核心<br />

服务、化学数据网格服务和网格门户构成。化学主题数据库的基本框架如图 4 所示,其中:<br />

(1)化学数据服务资源:指由成员数据库提供的数据资源和应用服务(包括 Web 服务<br />

及 Web Service),是化学数据网格的底层和基础,为上层应用提供支持。由各成员数据库提<br />

供底层资源服务的方式成功地解决了专业数据组织及数据显示问题。<br />

(2)数据网格核心服务:指数据资源注册、管理、访问监控及单点登录等数据网格的基<br />

础核心功能,采用中国科学院计算机网络信息中心(CNIC)开发的科学数据库数据资源注册、<br />

元数据管理、数据库访问监控及单点登录等相关数据网格核心功能服务 [13-15] 。<br />

(3)化学数据网格服务:数据网格当前的基本服务为基于化合物唯一标识的数据访问及<br />

整合、数据应用服务和数据可视化,是化学主题数据库开发的重点。<br />

(4)化学数据网格门户:指基于化学数据网格服务构建相关的 Web 用户访问界面,主<br />

要包括数据检索与展示、数据资源列表及应用服务的输入输出。<br />

3.1 数据访问与整合<br />

对于基于数据资源目录的数据整合,重点是对化学数据和应用服务资源进行收集、整理,<br />

在 Web 服务页面中按学科分类的原则对数据和应用服务资源进行组织。<br />

对于基于化合物标识的数据整合,本文设计开发了面向数据内容发布的基于 Web 服务的


150 科学数据库与信息技术论文集<br />

图 4 化学主题数据库及基本框架<br />

数据访问,以及面向数据操作的基于 Web Service 的数据交换两种访问方式,以满足不同应<br />

用对数据的不同需求。在此基础上,设计开发了网格门户——化学主题数据库。<br />

数据内容访问是指通过调用动态网页实现的一种数据共享方式。当用户发出数据访问请<br />

求(调用数据访问服务 URI)时,动态网页执行相应的业务处理,将请求的化合物信息以网<br />

页的形式返回,嵌入网格门户网页中,以实现数据内容的共享。由于动态网页是目前各化学<br />

数据库采用的主要数据访问方式,所以只需要增加用户身份验证及化合物标识映射功能,就<br />

可满足数据整合的需要,技术难度小,并且有利于现有工作的继承。<br />

数据交换是指通过调用 Web Service 实现的一种数据访问方式。当用户发出数据访问请<br />

求(调用数据访问服务 Web Service)时,Web Service 执行相应的业务处理,将请求的化合<br />

物信息以 XML 格式返回,调用方解析 XML 数据后,可将数据应用到具体应用中。由于 Web<br />

Service 技术及 XML 良好的跨平台和互操作性,这将成为化学主题数据库底层资源服务未来<br />

采用的主要方式。<br />

图 5 所示为基于化合物标识的数据访问、整合的基本流程 [16-17] 。<br />

(1)身份验证:采用单点登录,化学主题数据库与中国科学院计算机网络信息中心使用<br />

同一用户库,并由中国科学院计算机网络信息中心提供用户注册和管理功能。用户访问时,<br />

将中国科学院计算机网络信息中心提供的用户 ID 作为数据访问参数,授权由具体数据服务<br />

方确定。<br />

(2)参数解析:参数解析包括 Verb 参数解析和化合物标识信息解析两部分。Verb 参数<br />

解析是在读取 Verb 参数后,在数据服务名称列表中查询是否存在该访问,否则返回错误信息。<br />

化合物标识信息解析是根据标识信息的构建规范,将解析得到的独立 ID 及 ID 类型作为服务<br />

调用的参数,执行服务。如果解析失败,则返回错误信息。<br />

(3)调用动态网页/Web Service:语法格式为 http://url/service?,其中,[?]号前<br />

面为成员数据库的服务地址,并在资源注册系统(http://rsr.csdb.cn)中注册,以供用户检索<br />

和访问;[query]部分为参数名称和参数值,包括 Verb 参数(数据服务的具体名称)、ID 参数<br />

(化合物标识信息)。<br />

化学主题数据库采用数据内容共享方式,实现了分布式化学数据资源的内容集成,提供<br />

了化合物名称、分子式、分子结构三种化学数据检索方式。


化学主题数据库:数据网格技术的应用范例 151<br />

图 5 基于化合物标识的数据访问、整合的基本流程<br />

图 6 所示为化学数据网格门户的主要功能。图 7 所示为以“CH4N2O”(目标化合物 CAS<br />

RN: 127-07-01)为检索词的数据检索服务示例。<br />

图 6 化学数据网格门户的主要功能


152 科学数据库与信息技术论文集<br />

简单检索<br />

检索词:CH4N2O<br />

(a) 数据检索页面 (用户输入检索词进行查询)<br />

(b) 中间结果页面 (根据检索词查询的中间结果,从中进行 (c) 结果显示页面 (从分布式数据库访问目标化合物的<br />

目标化合物的定位) 相关数据并进行整合)<br />

图 7 化学主题数据库的数据检索服务示例<br />

对化学数据网格的测试结果显示,基于化合物标识的数据整合策略能够满足异地异构化<br />

学数据资源的统一数据发布和检索。各成员数据库只需要增加化合物标识解析功能及标识符<br />

映射表,并对现有数据服务页面进行样式修改,便可满足数据整合的要求,同时也能保证对<br />

原有工作的继承。<br />

3.2 化学数据的可视化<br />

除文字和数值数据外,化学数据还包括化学结构、谱图、相图等非文字、非数值数据或<br />

结构化的数组数据。这些类型的数据需采用专门的处理方法进行加工,并以图形方式将检索<br />

结果提供给用户,具有很强的专业知识要求。为了降低这方面数据整合和数据显示的难度,<br />

专业数据的可视化设计成为底层数据资源服务的一部分,由数据所有者提供,保证了专业的<br />

显示效果。<br />

化学数据网格门户需要的其他通用可视化功能,如分子结构和 COSMO 数据的三维显示<br />

均采用插件的形式实现。目前已有 JMOL [19] 、Marvin Beans [20] 、Cosmo Player [21] 、Cortona3D


化学主题数据库:数据网格技术的应用范例 153<br />

Viewer [22] 等多种商业或免费方案可供选择。化学数据网格选用 JMOL 和 Cosmo Player 插件实<br />

现化合物分子结构数据的可视化。图 7 (c)中也展示了化合物分子结构的显示效果。<br />

4. 化学主题数据库的进一步发展<br />

方面。<br />

化学主题数据库的开发和应用实践表明,化学主题数据库持续发展的重点应体现在以下<br />

1) 升数据整合的数量和水平<br />

增加化学主题数据库中的化合物数据量和专业覆盖面,新增化合物分子量化计算结果数<br />

据库、热化学反应数据库及稀土有机配合物数据库,继续对已建数据库进行纠错、更新以提<br />

高数据质量,进而提高数据访问服务的质量。<br />

此外,开发新增化合物在化学参考型数据库登录系统的自动登录系统,以实现 SRN 的自<br />

动获取,方便其他化学数据库构建化合物标识映射表,并依照化学主题数据库的有关规范加<br />

入主题库,这将是一种增加化合物数据量和专业覆盖面的有效方法。进一步,可根据用户反<br />

馈和专业应用的需求,开发用户自定义整合数据表达模板,以满足不同用户、不同应用对数<br />

据整合的定制需求。<br />

同时,扩大化学主题数据库中心节点基本信息库的化合物覆盖面,并保证其与各成员数<br />

据库化合物标识信息的更新同步,以提高检索的查全率,这将是化学主题数据库长期持续进<br />

行的一项数据积累工作。<br />

2) 升数据服务的能力和水平<br />

提升化学主题数据库的数据服务能力的努力方向是:从数据整合向数据服务整合进步,<br />

从满足数据获取需求向满足数据加工、应用需求进步。这是一个通过多个方面的工作方可实<br />

现的目标。<br />

(1) 开发面向化学化工研究的数据应用服务,包括化合物热力学属性分析、基于基团<br />

贡献法和 COSMO 数据的化合物物性估算以及稀土有机配合物数据的数据挖掘及应用等。<br />

(2) 建立数据应用开发的相关规范和共享机制,对以前大量开发的化学应用程序加以<br />

封装和共享,扩大数据应用的数量和覆盖范围。<br />

(3) 进行数据应用服务的整合,开发数据检索与应用服务的连接接口,以实现数据整<br />

合与应用的集成。<br />

(4) 规范数据访问服务及数据应用服务,形成一定规模的服务资源列表供用户调用,<br />

以实现在主题库门户通过服务调用构建满足用户不同需求的工作流,初步构成基于工作流的<br />

化学化工虚拟研究平台。<br />

参考文献<br />

[1] Malawski M, Szepieniec T, Roterman-Konieczna I. <strong>Grid</strong> Systems and Their <strong>Application</strong>s to Biomedical<br />

Science . Bio-alogoritms and Med-systems, 2006, 2(3): 43-46.<br />

[2] Foster I. Globus Toolkit Version 4: S<strong>of</strong>tware for Service-oriented Systems. Journal Computer Science &<br />

Technology, 2006, 21(4): 513-520.


154 科学数据库与信息技术论文集<br />

[3] Chervenak A, Foster I, Kesselman C, et al. The <strong>Data</strong> <strong>Grid</strong>: Towards Architecture for the Distributed<br />

Management and Analysis <strong>of</strong> Large Scientific <strong>Data</strong>sets. Journal <strong>of</strong> Network and Computer <strong>Application</strong>s, 2000,<br />

23: 187-200.<br />

[4] Ruggieri F. <strong>Grid</strong>: From HEP to e-Infrastructures. Bio-alogoritms and Med-systems, 2007, 3(5): 17-21.<br />

[5] Hey T, Trifethen A E. The UK e-Science Core Programme and the <strong>Grid</strong>. Future Generation Computer Systems,<br />

2002, 18: 1017-1031.<br />

[6] Wikipedia. <strong>Chemical</strong> <strong><strong>Data</strong>base</strong>. [2010-11-20]. http://en.wikipedia.org/wiki/<strong>Chemical</strong>_database.<br />

[7] Taylor K, Gledhill R, Essex J W, et al. A Semantic <strong>Data</strong>grid for Combinatorial Chemistry <strong>Grid</strong> Computing<br />

Workshop 2005. [2010-12-9]. http://eprints.ecs.soton.ac.uk/11778/1/semanticdatagrid.pdf.<br />

[8] Pytlinski J, Skorwider L, Huber V, et al. UNICORE: An Uniform Platform for Chemistry on the <strong>Grid</strong>.<br />

[2010-12-9]. http://citeseerx.ist.psu.edu/viewdoc/download?doi=10.1.1.85.7187&rep=rep1&type=pdf.<br />

[9] Baldridge K K, Greenberg J P. Management <strong>of</strong> Web and Associated <strong>Grid</strong> Technologies for Quantum<br />

Chemistry Computation//Sloot, et al. ICCS 2003, LNCS 2660. Springer-Verlag, 2003:111-121.<br />

[10] 中国科学院科学数据库专家委员会. 中国科学院科学数据库资源整合与持续发展研究报告. 2007.<br />

[11] Wikipedia. International <strong>Chemical</strong> Identifier. [2010-12-12].<br />

http://en.wikipedia.org/wiki/International_<strong>Chemical</strong>_Identifier.<br />

[12] 化学主题数据库项目组. 化合物标识-化合物 ID 索引规范. 2010.<br />

[13] 中国科学院计算机网络信息中心. 数据管理和共享平台——VisualDB 简介. [2010-12-10].<br />

http://vdb.csdb.cn/.<br />

[14] 中国科学院计算机网络信息中心. 中国科学院数据应用环境——标准规范. [2010-12-10].<br />

http://www2.csdb.cn/prohtml/0.compservice.standards/list-1.html.<br />

[15] 中国科学院计算机网络信息中心. 数据应用环境资源与服务注册系统. [2010-12-10].<br />

http://rsr.csdb.cn/rsl01001Action.do.<br />

[16] Apps A, MacIntyre R. Why OpenURL? D-Lib Magazine. [2010-5-20].<br />

http://www.dlib.org/dlib/may06/apps/05apps.html.<br />

[17] 中国科学院计算机网络信息中心. 数据跨域互操作技术规范. 2009.<br />

[18] Jmol. Jmol: An Open-source Java Viewer for <strong>Chemical</strong> Structures in 3D. [2010-12-10].<br />

http://jmol.sourceforge.net/.<br />

[19] ChemAxon. Marvin Beans. [2010-12-10]. http://www.chemaxon.com/download/marvin/.<br />

[20] National Institute <strong>of</strong> Standards and Technology. Download and Install the Cosmo Player VRML Plugin.<br />

[2010-12-10]. http://cic.nist.gov/vrml/cosmoplayer.html.<br />

[21] Cortona3D. Cortona3D Viewer. [2010-12-8]. http://www.cortona3d.com/Products/Cortona-3D-Viewer.aspx.


化学主题数据库:数据网格技术的应用范例 155<br />

<strong>Chemical</strong> <strong><strong>Data</strong>base</strong>: A <strong>Case</strong> <strong>of</strong> <strong>Data</strong> <strong>Grid</strong> <strong>Application</strong><br />

Zhao Yuehong 1 , Xu Junbo 1 , Wen Hao 1 , Chen Weiming 2 , Dai Jingfang 2 ,<br />

Li Yingyong 2 , Xu Lu 3 , Zhang Wenjun 3<br />

(1. Institute <strong>of</strong> Process Engineering, Chinese Academy <strong>of</strong> Sciences, Beijing 100190, China;<br />

2. Shanghai Institute <strong>of</strong> Organic Chemistry, Chinese Academy <strong>of</strong> Sciences, Shanghai 200032, China;<br />

3. Changchun Institute <strong>of</strong> Applied Chemistry, Chinese Academy <strong>of</strong> Sciences, Changchun 130022, China)<br />

Abstract Integration <strong>of</strong> distributed data sources is an important development <strong>of</strong> chemical database. The strategy<br />

<strong>of</strong> data integration is developed in this paper, based on the compound identifiers and their characteristic <strong>of</strong><br />

correlating data resources from different branches <strong>of</strong> chemistry. The distributed chemical data sources can be<br />

integrated and released by the Web service based chemical data grid, using the core service <strong>of</strong> data grid developed<br />

by the Computer Network Information Center, Chinese Academy <strong>of</strong> Sciences. The result <strong>of</strong> this work shows that the<br />

requirement <strong>of</strong> data integration can be fitted b y the chemical data grid with the compound identifier based data<br />

integration. The Web service based data access can further be used to the integration and sharing <strong>of</strong> distributed<br />

chemical data application, by which a platform for chemical research can also be developed.<br />

Key words chemical data grid; compound identifier; data integration

Hooray! Your file is uploaded and ready to be published.

Saved successfully!

Ooh no, something went wrong!