09.11.2014 Views

WEKA 3-5-5 Explorer 用户指南 - Read

WEKA 3-5-5 Explorer 用户指南 - Read

WEKA 3-5-5 Explorer 用户指南 - Read

SHOW MORE
SHOW LESS

Create successful ePaper yourself

Turn your PDF publications into a flip-book with our unique Google optimized e-Paper software.

<strong>WEKA</strong> 3-5-5 <strong>Explorer</strong> 用 户 指 南<br />

原 文 版 本 3.5.5<br />

翻 译 王 娜<br />

校 对 C6H5NO2<br />

Pentaho 中 文 讨 论 组<br />

QQ 群 :12635055<br />

论 坛 :http://www.bipub.org/bipub/index.asp<br />

http://bbs.wekacn.org/<br />

目 录<br />

1 启 动 <strong>WEKA</strong>......................................................................................................................................3<br />

2 <strong>WEKA</strong> <strong>Explorer</strong>...............................................................................................................................5<br />

2.1 标 签 页 .................................................................................................................................5<br />

2.2 状 态 栏 .................................................................................................................................5<br />

2.3 Log 按 钮 .............................................................................................................................5<br />

2.4 <strong>WEKA</strong> 状 态 图 标 ...............................................................................................................5<br />

3 预 处 理 ..............................................................................................................................................6<br />

3.1 载 入 数 据 .............................................................................................................................6<br />

3.2 当 前 关 系 .............................................................................................................................6<br />

3.3 处 理 属 性 .............................................................................................................................7<br />

3.4 使 用 筛 选 器 .........................................................................................................................7<br />

4 分 类 ................................................................................................................................................10<br />

4.1 选 择 分 类 器 .......................................................................................................................10<br />

4.2 测 试 选 项 ...........................................................................................................................10<br />

4.3 Class 属 性 ..........................................................................................................................11<br />

4.4 训 练 分 类 器 .......................................................................................................................11<br />

4.5 分 类 器 输 出 文 本 ...............................................................................................................11<br />

4.6 结 果 列 表 ...........................................................................................................................12<br />

5 聚 类 ................................................................................................................................................13<br />

5.1 选 择 聚 类 器 (Clusterer).................................................................................................13<br />

5.2 聚 类 模 式 ...........................................................................................................................13<br />

5.3 忽 略 属 性 ...........................................................................................................................13<br />

5.4 学 习 聚 类 ...........................................................................................................................14<br />

6 关 联 规 则 ........................................................................................................................................15<br />

6.1 设 定 ...................................................................................................................................15<br />

6.2 学 习 关 联 规 则 ...................................................................................................................15<br />

7 属 性 选 择 ........................................................................................................................................16<br />

7.1 搜 索 与 评 估 .......................................................................................................................16<br />

7.2 选 项 ...................................................................................................................................16<br />

7.3 执 行 选 择 ...........................................................................................................................16<br />

8 可 视 化 ............................................................................................................................................18


8.1 散 点 图 矩 阵 .......................................................................................................................18<br />

8.2 选 择 单 独 的 二 维 散 点 图 ...................................................................................................18<br />

8.3 选 择 实 例 ...........................................................................................................................19<br />

参 考 文 献 ................................................................................................................................................20


启 动 <strong>WEKA</strong><br />

<strong>WEKA</strong> 中 新 的 菜 单 驱 动 的 GUI 继 承 了 老 的 GUI 选 择 器 ( 类 weka.gui.GUIChooser)<br />

的 功 能 。 它 的 MDI(“ 多 文 档 界 面 ”) 外 观 , 让 所 有 打 开 的 窗 口 更 加 明 了 。<br />

这 个 菜 单 包 括 六 个 部 分 。<br />

1. Program<br />

• LogWindow 打 开 一 个 日 志 窗 口 , 记 录 输 出 到<br />

stdout 或 stderr 的 内 容 。 在 MS Windows 那 样 的<br />

环 境 中 ,<strong>WEKA</strong> 不 是 从 一 个 终 端 启 动 , 这 个 就 比 较 有<br />

用 。<br />

• Exit 关 闭 <strong>WEKA</strong>。<br />

2. Applications 列 出 <strong>WEKA</strong> 中 主 要 的 应 用 程 序 。<br />

• <strong>Explorer</strong> 使 用 <strong>WEKA</strong> 探 索 数 据 的 环 境 。( 本<br />

文 档 的 其 它 部 分 将 详 细 介 绍 这 个 环 境 )<br />

• Experimenter 运 行 算 法 试 验 、 管 理 算 法 方 案<br />

之 间 的 统 计 检 验 的 环 境 。<br />

• KnowledgeFlow 这 个 环 境 本 质 上 和 <strong>Explorer</strong><br />

所 支 持 的 功 能 是 一 样 的 , 但 是 它 有 一 个 可 以 拖 放<br />

的 界 面 。 它 有 一 个 优 势 , 就 是 支 持 增 量 学 习<br />

(incremental learning)。<br />

• SimpleCLI 提 供 了 一 个 简 单 的 命 令 行 界 面 , 从 而 可 以 在 没 有 自 带 命 令 行 的<br />

操 作 系 统 中 直 接 执 行 <strong>WEKA</strong> 命 令 。<br />

3. Tools 其 他 有 用 的 应 用 程 序 。<br />

• ArffViewer 一 个 MDI 应 用 程 序 , 使 用 电 子<br />

表 格 的 形 式 来 查 看 ARFF 文 件 。<br />

• SqlViewer 一 个 SQL 工 作 表 , 用 来 通 过<br />

JDBC 查 询 数 据 库 。<br />

• EnsembleLibrary 生 成 集 成 式 选 择<br />

(Ensemble Selection)[5] 所 需 设 置 的 界 面 。<br />

4. Visualization <strong>WEKA</strong> 中 数 据 可 视 化 的 方 法 。<br />

• Plot 作 出 数 据 集 的 二 维 散 点 图 。<br />

• ROC 显 示 预 先 保 存 的 ROC 曲 线 。


• TreeVisualizer 显 示 一 个 有 向 图 , 例 如 一 个 决 策 树 。<br />

• GraphVisualizer 显 示 XML、BIF 或 DOT 格 式 的 图 片 , 例 如 贝 叶 斯 网 络<br />

(Bayesian network)。<br />

• BoundaryVisualizer 允 许 在 二 维 空 间 中 对 分 类 器 的 决 策 边 界 进 行 可 视 化 。<br />

5. Windows 所 有 已 打 开 的 窗 口 都 列 在 这 里 。<br />

• Minimize 最 小 化 所 有 当 前 的 窗 口 。<br />

• Restore 还 原 所 有 最 小 化 过 的 窗 口 。<br />

6. Help <strong>WEKA</strong> 的 在 线 资 源 可 以 从 这 里 找 到 。<br />

• Weka homepage 打 开 一 个 浏 览 器 窗 口 , 显 示 <strong>WEKA</strong> 的 主 页 。<br />

• Online documentation 链 接 到 WekaDoc 维 基 文 档 [4]。<br />

• HOWTOs, code snippets, etc. 通 用 的 WekaWiki [3], 包 括 大 量 的 例 子 ,<br />

以 及 开 发 和 使 用 <strong>WEKA</strong> 的 基 本 知 识 (HOWTO)。<br />

• Weka on Sourceforge <strong>WEKA</strong> 项 目 在 Sourceforge.net 的 主 页 。<br />

• SystemInfo 列 出 一 些 关 于 Java/<strong>WEKA</strong> 环 境 的 信 息 , 例 如 CLASSPATH。<br />

• About 不 光 彩 的 “About” 窗 口 。<br />

如 果 从 终 端 启 动 <strong>WEKA</strong>, 会 有 一 些 文 字 在 终 端 窗 口 中 出 现 。 这 些 文 字 是 可 以 忽 略 的 ,<br />

除 非 某 些 东 西 出 错 了 —— 这 时 它 可 以 帮 助 找 到 错 误 的 原 因 。(LogWindow 也 可 以 显 示 那<br />

些 信 息 。)<br />

这 份 文 档 也 可 以 从 在 线 的 WekaDoc Wiki [4] 中 找 到 , 它 将 集 中 阐 述 如 何 使 用<br />

<strong>Explorer</strong>, 而 不 会 逐 个 解 释 <strong>WEKA</strong> 中 的 数 据 预 处 理 工 具 和 学 习 算 法 。 要 获 得 关 于 各 种 筛 选<br />

器 (filter) 和 学 习 算 法 的 更 多 信 息 , 可 参 考 Data Mining [2] 一 书 。


1 <strong>WEKA</strong> <strong>Explorer</strong><br />

1.1 标 签 页<br />

在 窗 口 的 顶 部 , 标 题 栏 下 是 一 排 标 签 。 当 <strong>Explorer</strong> 首 次 启 动 时 , 只 有 第 一 个 标 签 页 是<br />

活 动 的 ; 其 他 均 是 灰 色 的 。 这 是 因 为 在 探 索 数 据 之 前 , 必 须 先 打 开 一 个 数 据 集 ( 可 能 还 要<br />

对 它 进 行 预 处 理 )。<br />

所 有 的 标 签 页 如 下 所 示 :<br />

1. Preprocess. 选 择 和 修 改 要 处 理 的 数 据 。<br />

2. Classify. 训 练 和 测 试 关 于 分 类 或 回 归 的 学 习 方 案 。<br />

3. Cluster. 从 数 据 中 学 习 聚 类 。<br />

4. Associate. 从 数 据 中 学 习 关 联 规 则 。<br />

5. Select attributes. 选 择 数 据 中 最 相 关 的 属 性 。<br />

6. Visualize. 查 看 数 据 的 交 互 式 二 维 图 像 。<br />

这 些 标 签 被 激 活 后 , 点 击 它 们 可 以 在 不 同 的 标 签 页 面 上 进 行 切 换 , 而 每 一 个 页 面 上 可 以<br />

执 行 对 应 的 操 作 。 不 管 位 于 哪 个 页 面 , 窗 口 的 底 部 区 域 ( 包 括 状 态 栏 、log 按 钮 和 Weka 鸟 )<br />

仍 然 可 见 。<br />

1.2 状 态 栏<br />

状 态 (Status) 栏 出 现 在 窗 口 的 最 底 部 。 它 显 示 一 些 信 息 让 你 知 道 正 在 做 什 么 。 例 如 ,<br />

如 果 <strong>Explorer</strong> 正 忙 于 装 载 一 个 文 件 , 状 态 栏 就 会 有 通 知 。<br />

提 示 — 在 状 态 栏 中 的 任 意 位 置 右 击 鼠 标 将 会 出 现 一 个 小 菜 单 。 这 个 菜 单 给 了 你 两 个 选<br />

项 :<br />

1. Memory Information. 在 log 栏 中 显 示 <strong>WEKA</strong> 可 用 的 内 存 量 。<br />

2. Run garbage collector. 强 制 运 行 Java 垃 圾 回 收 器 , 搜 索 不 再 需 要 的 内 存 空 间<br />

并 将 之 释 放 , 从 而 可 为 新 任 务 分 配 更 多 的 内 存 。 注 意 即 使 不 强 制 运 行 , 垃 圾 回 收<br />

也 是 一 直 作 为 后 台 任 务 在 运 行 的 。<br />

1.3 Log 按 钮<br />

点 击 这 个 按 钮 , 会 出 现 一 个 单 独 的 窗 口 , 包 含 一 个 可 拖 动 的 文 本 区 域 。 文 本 的 每 一 行 被<br />

加 了 一 个 时 间 戳 , 显 示 了 它 进 入 日 志 (log) 的 时 间 , 一 旦 在 <strong>WEKA</strong> 中 执 行 某 种 操 作 时 ,<br />

该 日 志 就 会 记 录 发 生 了 什 么 。 对 于 使 用 命 令 行 或 者 SimpleCLI 的 人 , 日 志 也 将 完 整 地 记<br />

录 分 类 , 聚 类 , 特 征 提 取 等 任 务 的 设 置 字 符 , 使 得 它 们 可 被 复 制 / 粘 贴 到 其 它 地 方 。 但 关<br />

1<br />

于 数 据 集 和 class 属 性 的 选 项 仍 然 要 由 用 户 给 出 ( 例 如 , 分 类 器 (classifier) 的 –t, 或<br />

者 筛 选 器 的 –i 和 -o)<br />

1.4 <strong>WEKA</strong> 状 态 图 标<br />

状 态 栏 的 右 边 是 <strong>WEKA</strong> 状 态 图 标 。 当 不 运 行 任 何 进 程 时 ,<strong>WEKA</strong> 鸟 会 坐 下 并 打 一 个 小<br />

盹 。× 符 号 旁 的 数 字 显 示 了 正 运 行 的 并 发 进 程 的 数 量 。 当 系 统 空 闲 时 , 它 是 零 , 而 当 进 程<br />

的 数 量 增 长 时 , 它 也 会 增 长 。 任 意 进 程 启 动 后 , 小 鸟 会 站 起 来 并 到 处 活 动 。 如 果 它 仍 然 是<br />

站 着 的 , 但 是 很 长 时 间 内 不 动 , 那 么 它 生 病 了 : 某 个 地 方 出 错 了 ! 在 这 种 情 况 下 , 应 该 重<br />

新 启 动 <strong>WEKA</strong> <strong>Explorer</strong>。<br />

1<br />

在 分 类 或 回 归 任 务 中 ,class 属 性 是 默 认 的 目 标 变 量 。 注 意 这 与 下 文 中 的 分 类 型 属 性 不 是 一 个 概 念 — 译<br />

注 。


2 预 处 理<br />

2.1 载 入 数 据<br />

预 处 理 页 顶 部 的 前 4 个 按 钮 用 来 把 数 据 载 入 <strong>WEKA</strong>:<br />

1. Open file.... 打 开 一 个 对 话 框 , 允 许 你 浏 览 本 地 文 件 系 统 上 的 数 据 文 件 。<br />

2. Open URL.... 请 求 一 个 存 有 数 据 的 URL 地 址 。<br />

3. Open DB.... 从 数 据 库 中 读 取 数 据 ( 注 意 , 要 使 之 可 用 , 可 能 需 要 编 辑<br />

weka/experiment/ DatabaseUtils.props 中 的 文 件 )<br />

4. Generate.... 从 一 些 数 据 生 成 器 (DataGenerators) 中 生 成 人 造 数 据 。<br />

使 用 Open file... 按 钮 可 以 读 取 各 种 格 式 的 文 件 :<strong>WEKA</strong> 的 ARFF 格 式 ,CSV 格 式 ,<br />

2<br />

C4.5 格 式 , 或 者 序 列 化 的 实 例 格 式 。ARFF 文 件 通 常 扩 展 名 是 .arff,CSV 文 件 扩 展 名<br />

是 .csv,C4.5 文 件 扩 展 名 是 .data 和 .names , 序 列 化 的 实 例 对 象 扩 展 名 为 .bsi。<br />

2.2 当 前 关 系<br />

载 入 数 据 后 , 预 处 理 面 板 就 会 显 示 各 种 信 息 。Current relation 一 栏 (“current relation”<br />

指 目 前 装 载 的 数 据 , 可 理 解 为 数 据 库 术 语 中 单 独 的 关 系 表 ) 有 3 个 条 目 :<br />

1. Relation. 关 系 的 名 称 , 在 它 装 载 自 的 文 件 中 给 出 。 使 用 筛 选 器 ( 下 文 将 详 述 )<br />

将 修 改 关 系 的 名 称 。<br />

2<br />

只 有 本 段 文 字 中 的 “ 实 例 ” 是 JAVA 语 言 中 实 例 的 概 念 ; 而 后 文 中 的 “ 实 例 ” 都 将 指 数 据 集 中 的 记 录 —<br />

译 注 。


2. Instances. 数 据 中 的 实 例 ( 或 称 数 据 点 / 记 录 ) 的 个 数 。<br />

3. Attributes. 数 据 中 的 属 性 ( 或 称 特 征 ) 的 个 数 。<br />

2.3 处 理 属 性<br />

在 Current relation 一 栏 下 是 Attributes( 属 性 ) 栏 。 有 四 个 按 钮 , 其 下 是 当 前 关<br />

系 中 的 属 性 列 表 。 该 列 表 有 3 列 :<br />

1. No.. 一 个 数 字 , 用 来 标 识 数 据 文 件 中 指 定 的 各 属 性 的 顺 序 。<br />

2. 选 择 框 . 允 许 勾 选 关 系 中 呈 现 的 各 属 性 。<br />

3. Name. 数 据 文 件 中 声 明 的 各 属 性 的 名 称 。<br />

当 点 击 属 性 列 表 中 的 不 同 行 时 , 右 边 Selected attribute 一 栏 的 内 容 随 之 改 变 。 这<br />

一 栏 给 出 了 列 表 中 当 前 高 亮 显 示 的 属 性 的 一 些 描 述 :<br />

1. Name. 属 性 的 名 称 , 和 属 性 列 表 中 给 出 的 相 同 。<br />

2. Type. 属 性 的 类 型 , 最 常 见 的 是 分 类 型 (Nominal) 和 数 值 型 (Numeric)。<br />

3. Missing. 数 据 中 该 属 性 缺 失 ( 或 者 未 指 定 ) 的 实 例 的 数 量 ( 及 百 分 比 )。<br />

4. Distinct. 数 据 中 该 属 性 包 含 的 不 同 值 的 数 目 。<br />

5. Unique. 唯 一 地 拥 有 某 值 的 实 例 的 数 目 ( 及 百 分 比 ), 这 些 实 例 每 个 的 取 值 都 和<br />

别 的 不 一 样 。<br />

在 这 些 统 计 量 的 下 面 是 一 个 列 表 , 根 据 属 性 的 不 同 类 型 , 它 显 示 了 关 于 这 个 属 性 中 储 存<br />

的 值 的 更 多 信 息 。 如 果 属 性 是 分 类 型 的 , 列 表 将 包 含 该 属 性 的 每 个 可 能 值 以 及 取 那 个 值 的<br />

实 例 的 数 目 。 如 果 属 性 是 数 值 型 的 , 列 表 将 给 出 四 个 统 计 量 来 描 述 数 据 取 值 的 分 布 — 最 小<br />

值 、 最 大 值 、 平 均 值 和 标 准 差 。 在 这 些 统 计 量 的 下 方 , 有 一 个 彩 色 的 直 方 图 , 根 据 直 方 图<br />

上 方 一 栏 所 选 择 的 class 属 性 来 着 色 。( 在 点 击 时 , 该 栏 将 显 示 一 个 可 供 选 择 的 下 拉 列 表 。)<br />

注 意 仅 有 分 类 型 的 class 属 性 才 会 让 直 方 图 出 现 彩 色 。 最 后 , 若 点 击 Visualize All 按 钮 ,<br />

将 在 一 个 单 独 的 窗 口 中 显 示 数 据 集 中 所 有 属 性 的 直 方 图 。<br />

回 到 属 性 列 表 , 开 始 时 所 有 的 选 择 框 都 是 没 有 被 勾 选 的 。 可 通 过 逐 个 点 击 来 勾 选 / 取 消 。<br />

以 上 的 4 个 按 钮 也 可 用 于 改 变 选 择 :<br />

1. All. 所 有 选 择 框 都 被 勾 选 。<br />

2. None. 所 有 选 择 框 被 取 消 ( 没 有 勾 选 )。<br />

3. Invert. 已 勾 选 的 选 择 框 都 被 取 消 , 反 之 亦 然 。<br />

4. Pattern. 让 用 户 基 于 Perl 5 正 则 表 达 式 来 选 择 属 性 。 例 如 , 用 *_id 选 择 所 有 名<br />

称 以 _id 结 束 的 属 性 。<br />

选 中 了 想 要 的 属 性 后 , 可 通 过 点 击 属 性 列 表 下 的 Remove 按 钮 删 除 他 们 。 注 意 可 通<br />

过 点 击 位 于 Preprocess 面 板 的 右 上 角 的 Edit 按 钮 旁 的 Undo 按 钮 来 取 消 操 作 。<br />

2.4 使 用 筛 选 器 3<br />

在 预 处 理 阶 段 , 可 以 定 义 筛 选 器 来 以 各 种 方 式 对 数 据 进 行 变 换 。Filter 一 栏 用 于 对 各<br />

种 筛 选 器 进 行 必 要 的 设 置 。Filter 一 栏 的 左 边 是 一 个 Choose 按 钮 。 点 击 这 个 按 钮 就 可<br />

选 择 <strong>WEKA</strong> 中 的 某 个 筛 选 器 。 选 定 一 个 筛 选 器 后 , 它 的 名 字 和 选 项 会 显 示 在 Choose 按<br />

钮 旁 边 的 文 本 框 中 。 用 鼠 标 左 键 点 击 这 个 框 , 将 出 现 一 个 GenericObjectEditor( 通 用 对 象<br />

编 辑 器 ) 对 话 框 。 用 鼠 标 右 键 ( 或 Alt+Shift+ 左 键 ) 点 击 将 出 现 一 个 菜 单 , 你 可 从 中 选 择 ,<br />

要 么 在 GenericObjectEditor 对 话 框 中 显 示 相 关 属 性 , 要 么 将 当 前 的 设 置 字 符 复 制 到 剪 贴<br />

板 。<br />

3<br />

筛 选 器 的 英 文 原 文 是 filter, 与 数 据 库 术 语 中 的 筛 选 有 关 。 但 是 <strong>WEKA</strong> 中 的 filter 不 仅 能 提 供 筛 选 功 能 ,<br />

还 涵 盖 了 其 他 各 种 数 据 变 换 。— 译 注 。


GenericObjectEditor 对 话 框<br />

GenericObjectEditor 对 话 框 可 以 用 来 配 置 一 个 筛 选 器 。 同 样 的 对 话 框 也 用 于 配 置 其 他<br />

对 象 , 例 如 分 类 器 (classifier) 和 聚 类 器 (clusterers)( 见 下 文 )。 窗 口 中 的 字 段 反 映 了 可<br />

用 的 选 项 。 点 击 它 们 中 间 的 一 个 便 可 改 变 filter 的 设 置 。 例 如 , 某 项 设 置 可 能 是 一 串 文 本<br />

字 符 , 这 时 将 字 符 串 输 入 相 应 的 文 本 框 中 即 可 。 或 者 它 可 能 会 给 出 一 个 下 拉 框 , 列 出 可 供<br />

选 择 的 几 个 状 态 。 也 可 能 是 其 他 一 些 操 作 , 根 据 所 需 的 信 息 而 有 所 区 别 。 如 果 把 将 鼠 标 指<br />

针 停 留 在 某 个 字 段 上 , 会 出 现 一 个 小 提 示 来 给 出 相 应 选 项 的 信 息 。 而 有 关 该 筛 选 器 和 它 的<br />

选 项 的 更 多 信 息 可 通 过 点 击 GenericObjectEditor 窗 口 顶 部 About 面 板 中 的 More 按<br />

钮 来 获 得 。<br />

除 了 More 按 钮 , 某 些 对 象 也 会 在 关 于 栏 中 显 示 一 些 有 关 其 功 能 的 简 短 描 述 。 点 击<br />

More 按 钮 , 会 出 现 一 个 窗 口 来 描 述 了 不 同 的 选 项 分 别 起 什 么 作 用 。 有 的 还 另 外 一 个<br />

Capabilities 按 钮 , 它 能 列 出 该 对 象 可 处 理 的 属 性 和 class 属 性 的 类 型 。<br />

GenericObjectEditor 对 话 框 的 底 部 有 4 个 按 钮 。 前 两 个 Open... 和 Save... 允 许 存 储<br />

对 该 对 象 的 配 置 , 以 备 将 来 之 用 。Cancel 按 钮 用 于 直 接 退 出 , 任 何 已 作 出 的 改 变 都 将 被<br />

忽 略 。 当 前 选 择 的 对 象 和 设 置 令 人 满 意 后 , 点 击 OK 返 回 到 主 <strong>Explorer</strong> 窗 口 。


应 用 筛 选 器<br />

选 择 并 配 置 好 一 个 筛 选 器 后 , 就 可 通 过 点 击 Preprocess 面 板 的 Filter 拦 右 边 的<br />

Apply 按 钮 将 之 应 用 于 数 据 集 上 。 然 后 Preprocess 面 板 将 显 示 转 换 过 的 数 据 。 可 点 击<br />

Undo 按 钮 取 消 改 变 。 你 也 可 使 用 Edit... 按 钮 在 一 个 数 据 集 编 辑 器 中 手 动 修 改 你 的 数<br />

据 。 最 后 , 点 击 Preprocess 面 板 右 上 角 的 Save... 按 钮 将 用 同 样 的 格 式 保 存 当 前 的 关 系 ,<br />

以 备 将 来 使 用 。<br />

注 意 : 一 些 筛 选 器 会 依 据 是 否 设 置 了 class 属 性 来 做 出 不 同 的 动 作 。( 点 击 直 方 图 上<br />

方 那 一 栏 时 , 会 出 现 一 个 可 供 选 择 的 下 拉 列 表 。) 特 别 的 ,“supervised filters”( 监 督<br />

式 筛 选 器 ) 需 要 设 置 一 个 class 属 性 , 而 某 些 “unsupervised attribute filters”( 非 监 督<br />

式 属 性 筛 选 器 ) 将 忽 略 class 属 性 。 注 意 也 可 以 将 Class 设 成 None, 这 时 没 有 设 置 class<br />

属 性 。


4<br />

3 分 类<br />

3.1 选 择 分 类 器<br />

在 classify 页 面 的 顶 部 是 Classifier 栏 。 这 一 栏 中 有 一 个 文 本 框 , 给 出 了 分 类 器 的 名<br />

称 和 它 的 选 项 。 左 键 点 击 文 本 框 会 打 开 一 个 GenericObjectEditor, 可 以 像 配 置 筛 选 器 那 样<br />

配 置 当 前 的 分 类 器 。 右 键 ( 或 Alt+Shift+ 左 键 ) 点 击 也 可 以 复 制 设 置 字 符 到 剪 贴 板 , 或 者 在<br />

GenericObjectEditor 中 显 示 相 关 属 性 。Choose 按 钮 用 来 选 择 <strong>WEKA</strong> 中 可 用 的 分 类 器 。<br />

3.2 测 试 选 项<br />

应 用 选 定 的 分 类 器 后 得 到 的 结 果 会 根 据 Test Option 一 栏 中 的 选 择 来 进 行 测 试 。 共 有<br />

四 种 测 试 模 式 :<br />

1. Using training set. 根 据 分 类 器 在 用 来 训 练 的 实 例 上 的 预 测 效 果 来 评 价 它 。<br />

2. Supplied test set. 从 文 件 载 入 的 一 组 实 例 , 根 据 分 类 器 在 这 组 实 例 上 的 预 测 效<br />

果 来 评 价 它 。 点 击 Set… 按 钮 将 打 开 一 个 对 话 框 来 选 择 用 来 测 试 的 文 件 。<br />

3. Cross-validation. 使 用 交 叉 验 证 来 评 价 分 类 器 , 所 用 的 折 数 填 在 Folds 文 本 框<br />

中 。<br />

4 <strong>WEKA</strong> 中 的 分 类 和 回 归 都 放 入 了 classify 页 面 中 , 相 应 的 工 具 都 叫 做 分 类 器 (classifier)。 参 考 4.3 节 。


4. Percentage split. 从 数 据 集 中 按 一 定 百 分 比 取 出 部 分 数 据 放 在 一 边 作 测 试 用 , 根<br />

据 分 类 器 这 些 实 例 上 预 测 效 果 来 评 价 它 。 取 出 的 数 据 量 由 % 一 栏 中 的 值 决 定 。<br />

注 意 : 不 管 使 用 哪 种 测 试 方 法 , 得 到 的 模 型 总 是 从 所 有 训 练 数 据 中 构 建 的 。 点 击 More<br />

options 按 钮 可 以 设 置 更 多 的 测 试 选 项 :<br />

1. Output model. 输 出 基 于 整 个 训 练 集 的 分 类 模 型 , 从 而 模 型 可 以 被 查 看 , 可 视 化<br />

等 。 该 选 项 默 认 诗 选 中 的 。<br />

2. Output per-class stats. 输 出 每 个 class 的 准 确 度 / 反 馈 率 (precision/recall)<br />

和 正 确 / 错 误 (true/false) 的 统 计 量 。 该 选 项 也 是 默 认 选 中 的<br />

3. Output evaluation measures. 输 出 熵 估 计 度 量 。 该 选 项 默 认 没 有 选 中 。<br />

4. Output confusion matrix. 输 出 分 类 器 预 测 结 果 的 混 淆 矩 阵 。 该 选 项 默 认 选 中 。<br />

5. Store predictions for visualization. 记 录 分 类 器 的 预 测 结 果 使 得 它 们 能 被 可<br />

视 化 表 示 。<br />

6. Output predictions. 输 出 测 试 数 据 的 预 测 结 果 。 注 意 在 交 叉 验 证 时 , 实 例 的 编<br />

号 不 代 表 它 在 数 据 集 中 的 位 置 。<br />

7. Cost-sensitive evaluation. 误 差 将 根 据 一 个 价 值 矩 阵 来 估 计 。Set… 按 钮 用 来<br />

指 定 价 值 矩 阵 。<br />

8. Random seed for xval / % Split. 指 定 一 个 随 即 种 子 , 当 出 于 评 价 的 目 的 需 要<br />

分 割 数 据 时 , 它 用 来 随 机 化 数 据 。<br />

3.3 Class 属 性<br />

<strong>WEKA</strong> 中 的 分 类 器 被 设 计 成 经 过 训 练 后 可 以 预 测 一 个 class 属 性 , 也 就 是 预 测 的 目<br />

标 。 有 的 分 类 器 只 可 用 来 学 习 分 类 型 的 class 属 性 ; 有 的 则 只 可 用 来 学 习 数 值 型 的 class<br />

属 性 ( 回 归 问 题 ); 还 有 的 两 者 都 可 以 学 习 。<br />

默 认 的 , 数 据 集 中 的 最 后 一 个 属 性 被 看 作 class 属 性 。 如 果 想 训 练 一 个 分 类 器 , 让 它<br />

预 测 一 个 不 同 的 属 性 , 点 击 Test options 栏 下 方 的 那 一 栏 , 会 出 现 一 个 属 性 的 下 拉 列 表<br />

以 供 选 择 。<br />

3.4 训 练 分 类 器<br />

分 类 器 , 测 试 选 项 和 class 属 性 都 设 置 好 后 , 点 击 Start 按 钮 就 可 以 开 始 学 习 过 程 。<br />

分 类 器 忙 于 训 练 时 , 下 方 的 小 鸟 会 动 来 动 去 。 可 以 通 过 点 击 Stop 按 钮 , 在 任 意 时 刻 停 止<br />

训 练 过 程 。<br />

训 练 完 成 后 , 会 发 生 几 件 事 。 右 边 的 Classifier output 区 域 会 被 填 充 一 些 文 本 , 描 述 训<br />

练 和 测 试 的 结 果 。 在 Result list 栏 中 会 出 现 一 个 新 的 条 目 。 接 下 来 我 们 会 观 察 这 个 结 果<br />

列 表 , 但 我 们 先 来 研 究 输 出 的 文 本 。<br />

3.5 分 类 器 输 出 文 本<br />

Classifier output 区 域 的 文 本 有 一 个 滚 动 条 以 便 浏 览 结 果 。 按 住 Alt 和 Shift 键 ,<br />

在 这 个 区 域 点 击 鼠 标 左 键 , 会 出 现 一 个 对 话 框 , 让 你 用 各 种 格 式 ( 目 前 可 用 JPEG 和 EPS)<br />

保 存 输 出 的 结 果 。 当 然 , 可 以 通 过 放 大 <strong>Explorer</strong> 窗 口 来 获 得 更 大 的 显 示 区 域 。 输 出 结 果<br />

可 分 为 几 个 部 分 :<br />

1. Run information. 给 出 了 学 习 算 法 各 选 项 的 一 个 列 表 。 包 括 了 学 习 过 程 中 涉 及<br />

到 的 关 系 名 称 , 属 性 , 实 例 和 测 试 模 式 。<br />

2. Classifier model (full training set). 用 文 本 表 示 的 基 于 整 个 训 练 集 的 分 类 模<br />

型 。<br />

所 选 测 试 模 式 的 结 果 可 以 分 解 为 以 下 几 个 部 分 :<br />

3. Summary. 一 列 统 计 量 , 描 述 了 在 指 定 测 试 模 式 下 , 分 类 器 预 测 class 属 性 的 准<br />

确 程 度 。


4. Detailed Accuracy By Class. 更 详 细 地 给 出 了 关 于 每 一 类 的 预 测 准 确 度 的 描<br />

述 。<br />

5. Confusion Matrix. 给 出 了 预 测 结 果 中 每 个 类 的 实 例 数 。 其 中 矩 阵 的 行 是 实 际 的<br />

类 , 矩 阵 的 列 是 预 测 得 到 的 类 , 矩 阵 元 素 就 是 相 应 测 试 样 本 的 个 数 。<br />

3.6 结 果 列 表<br />

在 训 练 了 若 干 分 类 器 之 后 , 结 果 列 表 中 也 就 包 含 了 若 干 个 条 目 。 左 键 点 击 这 些 条 目 可<br />

以 在 生 成 的 结 果 之 间 进 行 切 换 浏 览 。 右 键 点 击 某 个 条 目 则 会 弹 出 一 个 菜 单 , 包 括 如 下 的 选<br />

项 :<br />

1. View in main window. 在 主 窗 口 中 显 示 输 出 该 结 果 ( 就 象 左 击 该 条 目 一 样 )。<br />

2. View in separate window. 打 开 一 个 独 立 的 新 窗 口 来 显 示 结 果 。<br />

3. Save result buffer. 弹 出 一 个 对 话 框 , 使 得 输 出 结 果 的 文 本 可 以 保 存 成 一 个 文 本<br />

文 件 。<br />

4. Load model. 从 一 个 二 进 制 文 件 中 载 入 以 前 训 练 得 到 的 模 型 对 象 。<br />

5. Save model. 把 模 型 对 象 保 存 到 一 个 二 进 制 文 件 中 。 对 象 是 以 Java“ 序 列 化 ”<br />

的 形 式 保 存 的 。<br />

6. Re-evaluate model on current test set. 通 过 Supplied test set 选 项 下 的<br />

Set 按 钮 指 定 一 个 数 据 集 , 已 建 立 的 分 类 模 型 将 在 这 个 数 据 集 上 测 试 它 的 表 现 。<br />

7. Visualize classifier errors. 弹 出 一 个 可 视 化 窗 口 , 把 分 类 结 果 做 成 一 个 散 点 图 。<br />

其 中 正 确 分 类 的 结 果 用 叉 表 示 , 分 错 的 结 果 用 方 框 表 示 。<br />

8. Visualize tree or Visualize graph. 如 果 可 能 的 话 , 把 分 类 模 型 的 结 构 用 图 形 来<br />

表 示 ( 例 如 决 策 树 (decision tree) 和 贝 叶 斯 网 络 (Bayesian network) 模 型 )。<br />

图 形 可 视 化 选 项 只 有 在 贝 叶 斯 网 络 模 型 建 好 之 后 才 会 出 现 。 在 浏 览 决 策 树 图 形 时 ,<br />

可 以 在 空 白 处 右 击 鼠 标 弹 出 一 个 菜 单 , 也 可 以 拖 动 鼠 标 来 拖 动 决 策 树 , 还 可 以 在<br />

节 点 上 单 击 鼠 标 查 看 它 对 应 的 训 练 实 例 。Ctrl 键 + 左 键 点 击 会 缩 小 图 形 ,Shift 键 +<br />

拖 曳 会 得 到 一 个 方 框 并 放 大 其 中 的 图 形 。 这 个 图 形 可 视 化 工 具 本 身 应 该 能 够 解 释<br />

它 的 作 用 。<br />

9. Visualize margin curve. 创 建 一 个 散 点 图 来 显 示 预 测 边 际 值 。 这 个 边 际 值 的 定<br />

义 为 : 预 测 为 真 实 值 的 概 率 与 预 测 为 真 实 值 之 外 其 它 某 类 的 最 高 概 率 之 差 。 例 如 ,<br />

提 升 式 (boosting) 算 法 可 以 通 过 增 加 训 练 数 据 上 的 边 际 值 来 使 得 它 在 测 试 数 据 上<br />

表 现 得 更 好 。<br />

10. Visualize threshold curve. 生 成 一 个 散 点 图 , 以 演 示 预 测 时 改 变 各 类 之 间 的 阀<br />

值 后 取 得 的 平 衡 。 例 如 说 , 默 认 的 阀 值 是 0.5, 那 么 一 个 实 例 要 预 测 成 为 “positive”,<br />

它 是 “positive” 的 预 测 概 率 必 须 大 于 0.5。 这 个 曲 线 可 以 用 来 在 ROC 曲 线 分 析 中<br />

演 示 准 确 度 / 反 馈 率 之 间 的 平 衡 ( 正 确 的 positive 率 对 错 误 的 positive 率 ), 也<br />

可 用 于 其 它 类 型 的 曲 线 。<br />

11. Visualize cost curve. 生 成 一 个 散 点 图 , 如 [1] 中 所 描 述 的 那 样 , 给 出 期 望 价<br />

值 (expected cost) 的 一 个 显 式 表 达 。<br />

在 特 定 的 情 况 下 某 些 选 项 不 适 用 时 , 它 们 会 变 成 灰 色 。


4 聚 类<br />

4.1 选 择 聚 类 器 (Clusterer)<br />

现 在 我 们 应 该 熟 悉 选 择 和 配 置 对 象 的 过 程 了 。 点 击 列 在 窗 口 顶 部 的 Clusterer 栏 中 的<br />

聚 类 算 法 , 将 弹 出 一 个 用 来 选 择 新 聚 类 算 法 的 GenericObjectEditor 对 话 框 。<br />

4.2 聚 类 模 式<br />

Cluster Mode 一 栏 用 来 决 定 依 据 什 么 来 聚 类 以 及 如 何 评 价 聚 类 的 结 果 。 前 三 个 选 项<br />

和 分 类 的 情 形 是 一 样 的 :Use training set、 Supplied test set 和 Percentage split<br />

( 见 4.1 节 )—— 区 别 在 于 现 在 的 数 据 是 要 聚 集 到 某 个 类 中 , 而 不 是 预 测 为 某 个 指 定 的 类<br />

别 。 第 四 个 模 式 ,Classes to clusters evaluation, 是 要 比 较 所 得 到 的 聚 类 与 在 数 据 中<br />

预 先 给 出 的 类 别 吻 合 得 怎 样 。 和 Classify 面 板 一 样 , 下 方 的 下 拉 框 是 用 来 选 择 作 为 类 别<br />

的 属 性 的 。<br />

在 Cluster mode 之 外 , 有 一 个 Store clusters for visualization 的 勾 选 框 , 该 框 决 定<br />

了 在 训 练 完 算 法 后 可 否 对 数 据 进 行 可 视 化 。 对 于 非 常 大 的 数 据 集 , 内 存 可 能 成 为 瓶 颈 时 ,<br />

不 勾 选 这 一 栏 应 该 会 有 所 帮 助 。<br />

4.3 忽 略 属 性<br />

在 对 一 个 数 据 集 聚 类 时 , 经 常 遇 到 某 些 属 性 应 该 被 忽 略 的 情 况 。Ignore attributes 可<br />

以 弹 出 一 个 小 窗 口 , 选 择 哪 些 是 需 要 忽 略 的 属 性 。 点 击 窗 口 中 单 个 属 性 将 使 它 高 亮 显 示 ,<br />

按 住 SHIFT 键 可 以 连 续 的 选 择 一 串 属 性 , 按 住 CTRL 键 可 以 决 定 各 个 属 性 被 选 与 否 。 点<br />

击 Cancel 按 钮 取 消 所 作 的 选 择 。 点 击 Select 按 钮 决 定 接 受 所 作 的 选 择 。 下 一 次 聚 类<br />

算 法 运 行 时 , 被 选 的 属 性 将 被 忽 略 。


4.4 学 习 聚 类<br />

Cluster 面 板 就 像 Classify 面 板 那 样 , 有 一 个 Start/Stop 按 钮 , 一 个 结 果 文 本 的 区<br />

域 和 一 个 结 果 列 表 。 它 们 的 用 法 都 和 分 类 时 的 一 样 。 右 键 点 击 结 果 列 表 中 的 一 个 条 目 将 弹<br />

出 一 个 相 似 的 菜 单 , 只 是 它 仅 显 示 两 个 可 视 化 选 项 :Visualize cluster assignments 和<br />

Visualize tree。 后 者 在 它 不 可 用 时 会 变 灰 。


5 关 联 规 则<br />

5.1 设 定<br />

这 个 面 板 包 含 了 学 习 关 联 规 则 的 方 案 。 这 里 的 学 习 器 也 可 以 跟 其 它 面 板 的 聚 类 器 , 筛<br />

选 器 和 分 类 器 一 样 选 择 和 配 置 。<br />

5.2 学 习 关 联 规 则<br />

为 关 联 规 则 学 习 器 设 置 好 合 适 的 参 数 后 , 点 击 Start 按 钮 。 完 成 后 右 键 点 击 结 果 列 表<br />

中 的 条 目 可 以 查 看 或 保 存 结 果 。


6 属 性 选 择<br />

6.1 搜 索 与 评 估<br />

属 性 选 择 是 说 搜 索 数 据 集 中 全 部 属 性 的 所 有 可 能 组 合 , 找 出 预 测 效 果 最 好 的 那 一 组 属<br />

性 。 为 实 现 这 一 目 标 , 必 须 设 定 两 个 东 西 : 属 性 评 估 器 (evaluator) 和 搜 索 策 略 。 评 估 器<br />

决 定 了 怎 样 给 一 组 属 性 安 排 一 个 表 示 它 们 好 坏 的 值 。 搜 索 策 略 决 定 了 要 怎 样 进 行 搜 索 。<br />

6.2 选 项<br />

Attribute Selection Mode 一 栏 有 两 个 选 项 。<br />

1. Use full training set. 使 用 训 练 数 据 的 全 体 好 决 定 一 组 属 性 的 好 坏 。<br />

2. Cross-validation. 一 组 属 性 的 好 坏 通 过 一 个 交 叉 验 证 过 程 来 决 定 。Fold 和<br />

Seed 分 别 给 出 了 交 叉 验 证 的 折 数 和 打 乱 数 据 时 的 随 机 种 子 。<br />

和 Classify 部 分 (4.1 节 ) 一 样 , 有 一 个 下 拉 框 来 指 定 class 属 性 。<br />

6.3 执 行 选 择<br />

点 击 Start 按 钮 开 始 执 行 属 性 选 择 过 程 。 它 完 成 后 , 结 果 会 输 出 到 结 果 区 域 中 , 同 时<br />

结 果 列 表 中 会 增 加 一 个 条 目 。 在 结 果 列 表 上 右 击 , 会 给 出 若 干 选 项 。 其 中 前 面 三 个 (View<br />

in main window,View in separate window 和 Save result buffe) 和 分 类 面 板 中<br />

是 一 样 的 。 还 可 以 可 视 化 精 简 过 的 数 据 集 (Visualize reduced data), 或 者 , 如 果 使 用<br />

过 主 成 分 分 析 那 样 的 属 性 变 换 工 具 , 则 能 可 视 化 变 换 过 的 数 据 集 (Visualize transformed<br />

data)。 精 简 过 / 变 换 过 的 数 据 能 够 通 过 Save reduced data... 或 Save transformed<br />

data... 选 项 来 保 存 。<br />

如 果 想 在 精 简 / 变 换 训 练 集 的 同 时 进 行 测 试 , 而 又 不 使 用 在 分 类 器 面 板 中 的


AttributeSelectedClassifier, 那 么 最 好 在 命 令 行 或 者 SimpleCLI 中 使 用 批 量 模 式 (“-b”)<br />

的 AttributeSelection 筛 选 器 ( 这 是 一 个 supervised attribute filter)。 这 一 批 量 模 式 允 许<br />

指 定 额 外 的 输 入 和 输 出 文 件 对 ( 选 项 –r 和 -s), 处 理 它 们 的 筛 选 器 的 设 置 是 由 训 练 文 件<br />

( 由 –i 和 –o 选 项 给 出 ) 决 定 的 。<br />

下 面 是 Unix/Linux bash 中 的 一 个 例 子 :<br />

注 意 :<br />

• 每 一 样 末 尾 的 反 斜 线 告 诉 bash 命 令 还 没 有 结 束 。 使 用 SimpleCLI 时 必 须 把 命 令<br />

写 在 同 一 行 而 不 能 使 用 反 斜 线 。<br />

• 这 里 假 设 <strong>WEKA</strong> 已 经 在 CLASSPATH 中 了 , 否 则 还 要 加 上 -classpath 选 项 。<br />

• 整 个 筛 选 器 的 设 置 会 在 日 志 中 输 出 , 就 像 运 行 正 规 的 属 性 选 择 时 的 设 置 一 样 。


7 可 视 化<br />

<strong>WEKA</strong> 的 可 视 化 页 面 可 以 对 当 前 的 关 系 作 二 维 散 点 图 式 的 可 视 化 浏 览 。<br />

7.1 散 点 图 矩 阵<br />

选 择 了 Visualize 面 板 后 , 会 为 所 有 的 属 性 给 出 一 个 散 点 图 矩 阵 , 它 们 会 根 据 所 选 的<br />

class 属 性 来 着 色 。 在 这 里 可 以 改 变 每 个 二 维 散 点 图 的 大 小 , 改 变 各 点 的 大 小 , 以 及 随 机<br />

地 抖 动 (jitter) 数 据 ( 使 得 被 隐 藏 的 点 显 示 出 来 )。 也 可 以 改 变 用 来 着 色 的 属 性 , 可 以 只<br />

选 择 一 组 属 性 的 子 集 放 在 散 点 图 矩 阵 中 , 还 可 以 取 出 数 据 的 一 个 子 样 本 。 注 意 这 些 改 变 只<br />

有 在 点 击 了 Update 了 按 钮 之 后 才 会 生 效 。<br />

7.2 选 择 单 独 的 二 维 散 点 图<br />

在 散 点 图 矩 阵 的 一 个 元 素 上 点 击 后 , 会 弹 出 一 个 单 独 的 窗 口 对 所 选 的 散 点 图 进 行 可 视<br />

化 。( 前 面 我 们 描 述 了 如 何 在 单 独 的 窗 口 中 对 某 个 特 定 的 结 果 进 行 可 视 化 —— 例 如 分 类 误<br />

差 —— 这 里 用 了 相 同 的 可 视 化 控 件 。)<br />

数 据 点 散 布 在 窗 口 的 主 要 区 域 里 。 上 方 是 两 个 下 拉 框 选 择 用 来 选 择 打 点 的 坐 标 轴 。 左<br />

边 是 用 作 x 轴 的 属 性 ; 右 边 是 用 作 y 轴 的 属 性 。<br />

在 x 轴 选 择 器 旁 边 是 一 个 下 拉 框 用 来 选 择 着 色 的 方 案 。 它 可 以 根 据 所 选 的 属 性 给 点 着<br />

色 。 在 打 点 区 域 的 下 方 , 有 图 例 来 说 明 每 种 颜 色 代 表 的 是 什 么 值 。 如 果 这 些 值 是 离 散 的 ,<br />

可 以 通 过 点 击 它 们 所 弹 出 的 新 窗 口 来 修 改 颜 色 。<br />

打 点 区 域 的 右 边 有 一 些 水 平 横 条 。 每 一 条 代 表 着 一 个 属 性 , 其 中 的 点 代 表 了 属 性 值 的<br />

分 布 。 这 些 点 随 机 的 在 竖 直 方 向 散 开 , 使 得 点 的 密 集 程 度 能 被 看 出 来 。 在 这 些 横 条 上 点 击<br />

可 以 改 变 主 图 所 用 的 坐 标 轴 。 左 键 点 击 改 变 x 轴 的 属 性 ; 右 键 点 击 改 变 y 轴 的 。 横 条 旁


边 的 “X” 和 “Y” 代 表 了 当 前 的 轴 用 的 那 个 属 性 (“B” 则 说 明 x 轴 和 y 轴 都 是 它 )。<br />

属 性 横 条 的 上 方 是 一 个 标 着 Jitter 的 游 标 。 它 能 随 机 地 使 得 散 点 图 中 各 点 的 位 置 发 生<br />

偏 移 , 也 就 是 抖 动 。 把 它 拖 动 到 右 边 可 以 增 加 抖 动 的 幅 度 , 这 对 识 别 点 的 密 集 程 度 很 有 用 。<br />

如 果 不 使 用 这 样 的 抖 动 , 几 万 个 点 放 在 一 起 和 单 独 的 一 个 点 看 起 来 会 没 有 区 别 。<br />

7.3 选 择 实 例<br />

很 多 时 候 利 用 可 视 化 工 具 选 出 一 个 数 据 的 子 集 是 有 帮 助 的 。( 例 如 在 classify 面 板 的<br />

UserClassifier( 自 定 义 分 类 器 ), 可 以 通 过 交 互 式 的 选 取 实 例 来 构 建 一 个 分 类 器 。)<br />

在 y 轴 选 择 按 钮 的 下 方 是 一 个 下 拉 按 钮 , 它 决 定 选 取 实 例 的 方 法 。 可 以 通 过 以 下 四 种<br />

方 式 选 取 数 据 点 :<br />

1. Select Instance. 点 击 各 数 据 点 会 打 开 一 个 窗 口 列 出 它 的 属 性 值 , 如 果 点 击 处 的<br />

点 超 过 一 个 , 则 更 多 组 的 属 性 值 也 会 列 出 来 。<br />

2. Rectangle. 通 过 拖 动 创 建 一 个 矩 形 , 选 取 其 中 的 点 。<br />

3. Polygon. 创 建 一 个 形 式 自 由 的 多 边 形 并 选 取 其 中 的 点 。 左 键 点 击 添 加 多 边 形 的 顶<br />

点 , 右 键 点 击 完 成 顶 点 设 置 。 起 始 点 和 最 终 点 会 自 动 连 接 起 来 因 此 多 边 形 总 是 闭<br />

合 的 。<br />

4. Polyline. 可 以 创 建 一 条 折 线 把 它 两 边 的 点 区 分 开 。 左 键 添 加 折 线 顶 点 , 右 键 结 束<br />

设 置 。 折 线 总 是 打 开 的 ( 与 闭 合 的 多 边 形 相 反 )。<br />

使 用 Rectangle,Polygon 或 Polyline 选 取 了 散 点 图 的 一 个 区 域 后 , 该 区 域 会 变<br />

成 灰 色 。 这 时 点 击 Submit 按 钮 会 移 除 落 在 灰 色 区 域 之 外 的 所 有 实 例 。 点 击 Clear 按 钮<br />

会 清 除 所 选 区 域 而 不 对 图 形 产 生 任 何 影 响 。<br />

如 果 所 有 的 点 都 被 从 图 中 移 除 , 则 Submit 按 钮 会 变 成 Reset 按 钮 。 这 个 按 钮 能 使<br />

前 面 所 做 的 移 除 都 被 取 消 , 图 形 回 到 所 有 点 都 在 的 初 始 状 态 。 最 后 , 点 击 Save 按 钮 可<br />

把 当 前 能 看 到 的 实 例 保 存 到 一 个 新 的 ARFF 文 件 中 。


参 考 文 献

Hooray! Your file is uploaded and ready to be published.

Saved successfully!

Ooh no, something went wrong!