23.02.2015 Views

生成和管理元数据中使用的受控词表 - Dublin Core® Metadata Initiative

生成和管理元数据中使用的受控词表 - Dublin Core® Metadata Initiative

生成和管理元数据中使用的受控词表 - Dublin Core® Metadata Initiative

SHOW MORE
SHOW LESS

Create successful ePaper yourself

Turn your PDF publications into a flip-book with our unique Google optimized e-Paper software.

生 成 和 管 理 元 数 据 中 使 用 的 受 控<br />

词 表<br />

培 训 4<br />

DC2004, 上 海 图 书 馆<br />

2004 年 10 月 14 日<br />

Stuart A. Sutton & Joseph T. Tennis<br />

美 国 西 雅 图 华 盛 顿 大 学 信 息 学 院


培 训 目 的<br />

• 受 控 词 表 的 开 发 [Joe Tennis]<br />

– 开 发 应 考 虑 的 因 素<br />

– 开 发 的 技 术<br />

• 为 WEB 管 理 受 控 词 表 [Stuart Sutton]<br />

– 受 控 词 表 和 受 控 词 表 术 语 的 标 识<br />

– 受 控 词 表 声 明<br />

– 受 控 词 表 发 布


内 容<br />

• 定 义 : 我 们 讨 论 的 受 控 词 表 的 含 义<br />

• 问 题 : 在 开 发 、 生 成 、 使 用 和 管 理 词 表 中 存 在 哪 些<br />

问 题 ?<br />

• 词 表 生 成 : 如 何 生 成 受 控 词 表 ?<br />

– 生 成 一 个 全 新 的 受 控 词 表<br />

– 专 为 一 个 已 经 使 用 许 多 不 同 词 表 的 专 门 领 域 生 成 一 个<br />

有 用 的 受 控 词 表<br />

• 格 式 和 使 用 : 受 控 词 表 是 如 何 表 示 和 使 用 的 ?<br />

– 用 URI references 来 标 识 词 表 的 术 语<br />

– 用 人 工 可 读 的 字 串 来 表 示 词 表 中 的 概 念<br />

• 管 理 : 如 何 对 受 控 词 表 进 行 管 理 ?<br />

– 受 控 词 表 的 声 明 和 发 布<br />

– ( 受 控 词 表 ) 简 单 的 和 复 杂 的 登 记 注 册


问 题<br />

• 没 有 采 用 受 控 词 表 . 许 多 元 数 据 应 用 在 生 成 元 数 据<br />

的 值 时 没 有 采 用 受 控 词 表<br />

• 采 用 受 控 词 表 的 词 汇 , 但 是 没 有 标 识 . 即 使 采 用<br />

了 受 控 词 表 , 也 没 有 在 最 终 的 元 数 据 记 录 中 标 识<br />

出 来<br />

• 词 汇 不 能 公 开 访 问 . 即 使 元 数 据 记 录 中 标 识 了 受 控<br />

词 表 , 这 些 词 表 依 旧 不 能 被 人 / 机 进 行 访 问<br />

• 在 向 上 兼 容 (dumbing down) 转 化 过 程 中 词 表 标<br />

识 丢 失 . 复 杂 元 数 据 记 录 ( 如 限 定 DC ) 在 向 上 兼<br />

容 过 程 中 词 表 的 标 识 会 丢 失


定 义<br />

• 受 控 词 表 (CV): 元 数 据 属 性 明 确 取 值 的 一 个 有 限 集 合<br />

– 不 同 于 元 数 据 词 表 (metadata vocabulary), 元 数 据 词<br />

表 定 义 属 性 的 有 限 集 合 , 例 如 一 个 schema。<br />

– 在 元 数 据 声 明 “dc:subject=cybernetics” 中 , 我 们 只 关 心<br />

位 于 声 明 右 半 部 分 的 受 控 词 ( 例 如 编 码 体 系 scheme 或 取<br />

值 空 间 )<br />

• 不 仅 “subject” 这 一 元 素 有 受 控 词 !<br />

–DC 中 除 了 一 些 不 能 限 定 值 的 元 素 ( 如 dc:description )<br />

之 外 , 其 它 所 有 的 元 素 或 修 饰 词 均 可 以 采 用 受 控 词 表<br />

的 词 汇 来 提 高 准 确 性 和 加 强 属 性 的 含 义<br />

– 例 如 ,DCMI 词 表 中 采 用 的 dc:type 词 汇 表 是 一 个 受 控 词<br />


受 控 词 表 的 开 发


词 表 开 发<br />

• 词 表 开 发 的 两 种 类 型<br />

– 生 成 一 个 全 新 的 受 控 词 表<br />

– 专 为 一 个 已 经 使 用 许 多 不 同 词 表 的 专 门 领 域 生<br />

成 一 个 有 用 的 受 控 词 表


词 表 开 发<br />

• 生 成 一 个 全 新 的 受 控 词 表<br />

– 采 用 多 种 方 式 从 行 业 社 团 中 搜 集 信 息<br />

• 从 用 户 的 代 表 那 里 搜 集 信 息 ( 在 代 表 的 委 员 会 中 仔 细 审 查 想 法 )<br />

• 搜 集 行 业 的 信 息 和 信 息 需 求<br />

• 搜 集 用 户 的 查 询 搜 索 数 据<br />

– 构 建 词 表<br />

• 标 识 术 语<br />

• 标 识 术 语 之 间 的 关 系<br />

– 维 护 词 表<br />

• 保 持 词 表 的 当 前 性 (current) 和 有 效 性 !<br />

• 基 于 用 户 、 领 域 和 代 表 的 输 入 进 行 维 护


生 成 一 个 全 新 的 受 控 词 表<br />

• 从 行 业 中 搜 集 信 息 [1/3]<br />

– 代 表 代 替 用 户<br />

• 委 员 会 会 议<br />

• 词 表 草 案<br />

• 将 词 汇 表 交 与 委 员 会 审 核<br />

– 该 方 法 的 优 点<br />

• 快 捷 、 迅 速<br />

• 成 本 低<br />

– 该 方 法 的 缺 点<br />

• 没 有 真 正 用 户 的 数 据<br />

• 无 法 预 先 知 道 构 建 的 词 表 是 否 有 效


生 成 一 个 全 新 的 词 表<br />

• 从 行 业 中 搜 集 信 息 [2/3]<br />

– 行 业 的 信 息 需 求<br />

• 在 文 档 中 采 用 的 术 语 有 哪 些 ?<br />

– 例 如 web pages, journal articles, maps?<br />

• 行 业 的 构 架 方 式 ?<br />

– 信 息 的 生 成 者 、 利 用 者 和 存 储 者 是 谁 ?<br />

– 是 否 存 在 规 范 信 息 流 的 标 准 ( 如 教 育 标 准 )?<br />

– 有 无 关 于 信 息 流 的 基 本 理 念 ?( 需 要 抓 取 全 部 还 是 部 分 理<br />

念 ?)


生 成 一 个 全 新 的 词 表<br />

• 从 行 业 中 搜 集 信 息 [3/3]<br />

– 行 业 采 用 的 搜 索 术 语 有 哪 些 ?<br />

– 他 们 所 需 信 息 是 为 了 完 成 何 种 任 务 ?<br />

– 他 们 搜 索 信 息 的 习 惯 有 哪 些 ( 其 他 人 呢 )?-<br />

这 如 何 影 响 构 建 所 需 的 词 表 ?<br />

– 这 三 种 数 据 搜 集 活 动 都 有 助 于 构 建 术 语 和 术 语<br />

之 间 的 关 系 。


生 成 一 个 全 新 的 词 表<br />

• 构 造 词 表<br />

– 标 识 术 语<br />

• 把 同 义 词 放 在 一 起 , 消 除 同 形 词 的 歧 义<br />

• 任 何 非 正 式 术 语 都 辅 助 搜 索 ( 扩 展 指 向 正 式 术 语 的<br />

查 询 )<br />

– 标 识 术 语 之 间 的 关 系<br />

• 标 识 有 助 于 用 户 搜 索 和 检 索 的 术 语 之 间 的 关 系<br />

• 在 元 数 据 中 明 确 这 些 关 系 。.<br />

– 上 面 的 行 为 将 使 一 个 词 表 成 为 ” 受 控 ” 词 表


生 成 一 个 全 新 的 词 表<br />

• 维 护 词 表<br />

– 检 查 搜 索 日 志 … 查 找 搜 索 成 功 与 失 败 之 处<br />

– 对 于 搜 索 失 败 之 处 , 调 整 词 表<br />

– 如 需 要 , 添 加 新 的 术 语<br />

– 剔 除 不 需 要 的 术 语<br />

– 考 虑 用 新 添 的 术 语 作 为 查 询 扩 展


开 发 词 表<br />

• 为 一 个 已 经 使 用 许 多 不 同 词 表 的 专 门 领 域<br />

生 成 一 个 有 用 的 受 控 词 表<br />

– 合 并 词 表<br />

– 生 成 一 个 高 层 的 转 换 词 表<br />

– 生 成 一 个 全 新 的 词 表 , 并 把 全 新 词 表 中 的 术 语<br />

与 现 有 词 表 的 相 似 词 链 接 起 来


开 发 词 表<br />

• 以 上 三 个 想 法 都 不 理 想 。<br />

• 以 上 三 个 想 法 都 需 要 对 团 体 ( 或 领 域 ) 及<br />

词 表 的 使 用 和 用 户 有 精 确 的 了 解 。<br />

• 用 URIs 对 现 有 词 表 中 的 术 语 进 行 定 位<br />

(Addressing) 能 够 明 确 单 个 术 语 的 含 义 ,<br />

因 为 这 些 术 语 都 将 在 一 定 的 命 名 空 间 中 定<br />

义 。


开 发 词 表<br />

• 合 并 词 表<br />

– 为 了 协 助 搜 索 , 可 对 词 表 ( 术 语 和 术 语 之 间 关<br />

系 ) 进 行 合 并 。<br />

– 在 合 并 过 程 中 必 须 考 虑 每 一 个 词 表 的 结 构 。<br />

– 不 仅 要 考 虑 相 似 和 相 同 的 术 语 的 存 在 , 还 要 考<br />

虑 这 些 术 语 被 索 引 者 和 搜 索 者 使 用 时 的 具 体 含<br />

义 。


开 发 词 表<br />

• 生 成 一 个 高 层 的 转 换 词 表<br />

– 该 方 法 忽 略 了 现 有 词 表 的 大 部 分 关 系 结 构<br />

– 与 现 有 词 表 一 起 生 成 一 个 伞 状 结 构<br />

– 该 方 法 容 易 实 施 , 因 为 对 词 表 、 域 和 用 户 有 准<br />

确 的 认 识 和 理 解 , 但 是 由 于 对 搜 索 缺 乏 控 制 ,<br />

搜 索 效 果 将 有 一 定 的 不 足


开 发 词 表<br />

• 生 成 一 个 全 新 的 词 表 , 并 把 该 词 表 中 的 术<br />

语 与 现 有 词 表 的 术 语 进 行 链 接<br />

– 比 前 面 的 两 个 方 法 用 的 时 间 更 多 和 成 本 更 高 ,<br />

比 从 头 手 工 构 造 一 个 词 表 复 杂<br />

– 成 本 高 , 因 为 必 须 监 视 对 每 一 个 被 链 接 词 汇 的<br />

改 变 , 并 以 一 种 考 虑 周 全 的 方 式 把 这 些 改 变 添<br />

加 到 搜 索 查 询 扩 展 中 去 , 这 需 要 大 量 的 时 间 和<br />

精 力


支 持 词 表 发 现 和 使 用 的 体 系 结 构<br />

标 识 、 声 明 和 发 布 词 表


Web 化 (Webized) 受 控 词 表<br />

web 化 受 控 词 表 和 词 表 术 语 指 :<br />

– 对 受 控 词 表 和 词 表 术 语 进 行 唯 一 的 永 久 的 标 识<br />

用 URIs 来 标 识 names/tokens/identifiers<br />

– 用 模 式 (schema) 语 言 进 行 正 式 的 声 明<br />

用 XML 或 RDF/XML 表 示<br />

– 通 过 发 布 来 使 词 表 可 以 通 过 web 访 问<br />

通 过 web 访 问 注 册 来 发 布


词 表 术 语 的 标 识<br />

• 建 议 1: 必 须 为 所 有 的 web 化 的 受 控 词 表 术 语 分 配<br />

URI reference<br />

“web 体 系 结 构 的 最 基 本 的 条 件 … 就 是 有 统 一 资 源 标 识 符 。Web 上<br />

的 所 有 实 体 都 应 该 用 字 符 串 明 确 的 标 识 , 这 一 点 是 web 通 用 性<br />

的 核 心 ”<br />

Tim Berners-Lee, “Web Architecture from 50,000 Feet”<br />

<br />

–DCMI 抽 象 模 型 草 案 的 要 求<br />

“DC 抽 象 模 型 要 求 遵 守 该 模 型 的 所 有 术 语 , 无 论 是 元 素 、 元 素<br />

限 定 、 编 码 体 系 还 是 受 控 词 表 术 语 , 都 被 分 配 一 个 URI<br />

reference 来 标 识 该 术 语 ”<br />

Andy Powell, “Guidelines for assigning identifiers to metadata terms”<br />


词 表 术 语 URI 的 构 造<br />

• 目 标<br />

– 持 续 性 。URI 应 没 有 特 定 的 存 在 期 限 ( 永 久 存 在 ?)<br />

– 唯 一 性 。 根 据 定 义 ,URI 应 该 唯 一 定 义 一 个 实 体 ( 词<br />

表 、 词 表 术 语 、 词 表 或 词 表 术 语 的 不 同 版 本 )<br />

– 可 解 析 性 。 如 可 能 , 现 在 的 web 浏 览 器 应 应 能 够 解 析<br />

• URI reference 的 构 造<br />

–XML 命 名 空 间 的 URI reference<br />

E.g., http://purl.org/gem/GEMS/<br />

– 词 表 术 语 名 称<br />

E.g., Physics<br />

– 构 造 后 的 URI<br />

http://purl.org/gem/GEMS/Physics


持 续 的 URI Reference 策 略<br />

可 能 的 策 略 :<br />

– 采 用 特 定 项 目 的 URL<br />

如 , http://myproject.org/metadata/vocabs/color#Red<br />

• 持 续 性 值 得 怀 疑<br />

– 采 用 PURL<br />

E.g., http://purl.org/gem/educationLevel/Grade 2<br />

• 可 靠 的 持 续 性 的 中 间 形 态<br />

– 采 用 “info” URI<br />

E.g., info:ddc/22/eng//004.678<br />

• 持 续 的 标 识 但 是 info URIs 不 能 够 被 当 前 的 浏 览 器 识 别<br />

DCMI Working Draft: “Guidelines for assigning identifiers to metadata terms”<br />


词 表 术 语 声 明<br />

• 建 议 2: 对 所 有 受 控 词 表 的 数 据 都 进 行 声 明<br />

–“ 声 明 ” 一 个 术 语 就 是 通 过 schema 语 言 的 方 式 把 术 语 用<br />

计 算 机 可 处 理 的 方 式 表 示 出 来<br />

– 采 用 XML 和 RDF/XML<br />

– 词 表 的 版 本 之 间 和 词 表 中 术 语 的 版 本 之 间 的 关 系 也 要<br />

进 行 声 明<br />

• 一 个 正 在 研 究 和 探 索 的 领 域<br />

• 参 见 Guidance information for naming, versioning, evolution, and<br />

maintenance of element declarations and application profiles Draft<br />

CWA, July 2004<br />


词 表 管 理 信 息<br />

<br />

<br />

<br />

<br />

<br />

The DCMI Types namespace providing access to its content by means<br />

of an RDF Schema<br />

The <strong>Dublin</strong> Core <strong>Metadata</strong> <strong>Initiative</strong><br />

The <strong>Dublin</strong> Core Types namespace provides URIs for the entries of the<br />

DCMI Type Vocabulary. Entries are declared using RDF Schema language to support RDF applications.<br />

The Schema will be updated according to dc-usage decisions.<br />

English<br />

<br />

<br />

<br />

<br />

<br />

2000-07-11<br />

2002-05-22<br />

<br />

<br />

…<br />

…<br />


实 例 : 声 明<br />

•DCMI 类 型 词 表<br />

•GEM 教 育 层 次 词 汇 表


词 表 术 语 声 明<br />

<br />

<br />

Collection<br />

<br />

A collection is an aggregation of items. The term collection means<br />

that the resource is described as a group; its parts may be separately described<br />

and navigated.<br />

<br />

2000-07-11<br />

<br />

<br />

<br />

<br />

Dataset<br />

<br />

A dataset is information encoded in a defined structure<br />

(for example, lists, tables, and databases), intended to be useful for direct machine<br />

processing.<br />

<br />

2000-07-11<br />

<br />

<br />

<br />

...<br />

…<br />


XML 格 式 的 GEM 教 育 层 次 词 表<br />

<br />

<br />

<br />

GEM controlled vocabulary for designating the education level of the<br />

audience for a resource. Created in 1996 by the GEM Consortium.<br />

<br />

<br />

<br />

<br />

<br />

<br />

<br />

<br />

<br />

…<br />

<br />

<br />

<br />

<br />

<br />

<br />

<br />

<br />

<br />


实 例 :<br />

元 数 据 示 例<br />

• 杜 威 十 进 制 分 类 法 DDC<br />

•GEM 主 题 (Subject)


RDF 格 式 的 DDC 实 例<br />

<br />

<br />

<br />

<br />

<br />

930<br />

History of the ancient world (to ca. 499 A.D.)<br />

<br />

<br />

<br />


RDF 格 式 的 GEM 实 例 (Value URI)<br />

<br />

<br />

<br />

<br />

<br />

<br />


词 表 的 术 语 发 布<br />

• 建 议 3: 必 须 发 布 所 有 受 控 词 表 的 术 语<br />

–Web 可 寻 址 的 词 表 登 记 注 册<br />

– 登 记 注 册 复 杂 性 的 连 续 :<br />

• 从 简 单 的 、 人 可 读 的 HTML 页 面 的 词 表 和 词 表 术 语<br />

• 到 复 杂 的 人 可 读 页 面 和 被 声 明 的 计 算 机 可 寻 址 的 词 汇 表<br />

schemes<br />

– 登 记 注 册 实 例 :<br />

• 简 单 注 册 登 记 ⎯<br />

到 教 育 资 料 的 网 关 :<br />

<br />

• 复 杂 注 册 登 记 ⎯<br />

DCMI 注 册 登 记 :<br />


简 单 登 记 注 册 : GEM


GEM: Student Grouping 词 表


RDF 格 式 的 GEM: Student Grouping 词 表


复 杂 登 记 注 册 : DCMI


DCMI 类 型 词 表 (Type Vocabulary)


RDF 的 DCMI 类 型 词 表


DCMI 类 型 术 语 : “ 集 合 (Collection)”


RDF 格 式 的 DCMI 类 型 术 语 “ 集 合<br />

(Collection)” (RDF)


请 提 出 您 的 问 题 ?<br />

谢 谢 参 加 !<br />

Stuart A. Sutton<br />

sasutton@u.washington.edu<br />

Joseph Tennis<br />

jtennis@u.washington.edu

Hooray! Your file is uploaded and ready to be published.

Saved successfully!

Ooh no, something went wrong!