17.12.2012 Views

Chemical Database: A Case of Data Grid Application

Chemical Database: A Case of Data Grid Application

Chemical Database: A Case of Data Grid Application

SHOW MORE
SHOW LESS

Create successful ePaper yourself

Turn your PDF publications into a flip-book with our unique Google optimized e-Paper software.

化学主题数据库:数据网格技术的应用范例 147<br />

所以可以认为这两种标识信息能够满足化学数据资源整合的要求 [7, 12] 。<br />

事实上,美国化学文摘社、美国 MDL 公司 CrossFire 等大型化学数据库系统都有采用这<br />

种集成策略的成功先例。<br />

2.2 数据整合的方案设计<br />

化学主题数据库方案设计的关键在于选取合适的化合物标识,并设计合适的数据访问方<br />

法,以保证数据访问的效率和可靠性。<br />

化学主题数据库的数据资源大都具有化合物 CAS RN,但并不完备。各数据库一般通过<br />

各自定义的化合物 ID,实现化合物数据的组织访问。为弥补目前各数据库中 CAS RN 不完备<br />

的问题,化学主题数据库将 InChIKey 和上海有机化学研究所化合物登录号 SRN 作为 CAS RN<br />

的补充。各数据库增加了全部三种或部分唯一标识,以及本地化合物 ID 的映射表后,可在<br />

不改变成员数据库现有数据结构和数据访问程序的情况下,实现化学数据的跨平台访问共享。<br />

这种数据整合方案的优势在于有效地控制了技术难度和工作量。化学主题数据库中心节<br />

点则需要建立包含完整化合物标识信息的化合物基本信息库,作为化合物检索后台。目前,<br />

化学主题数据库中心节点基本信息库的化合物数量已达到约 50 万种,基本覆盖了当前各成员<br />

数据库包含的化合物,可以满足化学主题数据库运行的需要。<br />

此外,由于各成员数据库已经开发了具有学科特色的独立运行的数据库及其应用,专业<br />

数据覆盖也较完整,所以数据整合时需要考虑保留原有专业数据库的独立性。<br />

数据资源目录具有数据资源浏览和学科特色突出的特点,因此,除基于化合物标识的数<br />

据整合外,化学主题数据库在方案设计中还考虑了基于数据资源目录的数据整合。<br />

(1)基于化合物标识的数据整合:以化合物(唯一标识)为根节点,根据化合物数据的<br />

学科分类和数据组织习惯建立各级节点(数据访问服务 URI),并据此建立相应的化合物数据<br />

查询服务,用户从化合物(唯一标识)出发可访问到各级节点。<br />

(2)基于数据资源目录的数据整合:以数据资源目录为根节点,根据各分支学科的数据<br />

资源和服务建立各级节点,对现有的数据资源和服务进行整合,提供目录浏览式服务,并为<br />

构建数据访问服务 URI 提供支持。其中,各数据资源的维护及服务由各专业数据库独立进行,<br />

以保持数据服务的专业性。<br />

以上两种数据整合方式的结合,可以遍历所有数据资源。如果用户需要某个化合物的全<br />

面信息,可从化合物数据查询出发,获得化合物的唯一标识,调用相关数据服务就可获得来<br />

自不同专业数据库的数据。如果用户有明确的数据需求,并且对相关数据资源多有了解,那<br />

么可通过数据目录直接访问相应的专业数据库。用户还可进一步将检索获得的数据构成临时<br />

数据表(component list),作为参数传给数据资源目录中的相关服务,从而实现共享化学计算<br />

服务的集成。<br />

图 1 和图 2 所示分别为基于化合物标识和基于数据资源目录的数据整合方案示意图,图<br />

3 所示为化学数据及应用服务整合框架示意图。

Hooray! Your file is uploaded and ready to be published.

Saved successfully!

Ooh no, something went wrong!