17.05.2014 Views

PDFlib TET 4.1

PDFlib TET 4.1

PDFlib TET 4.1

SHOW MORE
SHOW LESS

Create successful ePaper yourself

Turn your PDF publications into a flip-book with our unique Google optimized e-Paper software.

3 <strong>PDFlib</strong> <strong>TET</strong> <strong>4.1</strong>, 2012-02 <strong>PDFlib</strong> GmbH www.pdflib.com<br />

PDF からテキストの 抽 出 に 挑 戦 *<br />

ハイフンの 除 去<br />

<strong>TET</strong> は、 複 数 行 にわたるハイフネーションされた 単 語 を 検 出 してハ<br />

イフンを 除 去 し、 部 分 どうしを 結 合 して 単 語 を 復 元 します。これは、<br />

文 書 内 で 単 語 がハイフンで 分 割 されていても 単 語 が 正 しく 検 索 にか<br />

かるようにするための 重 要 な 処 理 です。ハイフンと 異 なるダッシュ<br />

は 除 去 しないよう 区 別 して 扱 われます。<br />

ハイフンは 除 去 されますが、ダッシュは 温 存 されます<br />

他 製 品 による 抽 出 結 果 :「Inttrroduccttiion」<br />

<strong>TET</strong> による 抽 出 結 果 :「Introduction」<br />

他 製 品 による 抽 出 結 果 :「Midi-Pyr´en´ees」<br />

<strong>TET</strong> による 抽 出 結 果 :「Midi-Pyrénées」<br />

他 製 品 による 抽 出 結 果 :「 e rst photographs」<br />

<strong>TET</strong> による 抽 出 結 果 :「The first photographs」<br />

影 付 き・ 太 字 テキストの 検 出<br />

電 子 文 書 では 影 付 きテキストがよく 使 われますが、これは、 同 じ<br />

テキストを 少 しずらして 複 数 回 ページ 上 に 配 置 することで 影 付 き 効<br />

果 を 得 ています。 同 様 に 太 字 テキストもたいていは、 同 じテキスト<br />

を 複 数 個 重 ねることで 太 字 に 見 せかけています。その 結 果 、 影 付<br />

きや 太 字 の 箇 所 のキャラクタは、 文 書 内 に 複 数 個 含 まれています。<br />

<strong>TET</strong> の 影 付 き 検 出 アルゴリズム( 特 許 取 得 済 )は、 重 複 したテキ<br />

ストを 特 定 して 除 去 することで、 余 分 なテキスト 抽 出 を 防 止 します。<br />

他 のソフトウェアでは、 影 付 きや 太 字 は 重 複 して 抽 出 されてしまい<br />

ますが、<strong>TET</strong> では 重 複 が 正 しく 除 去 されます。 単 語 全 体 が 重 複 して<br />

いるなら 検 索 エンジンでヒットしますが、 例 のように 文 字 毎 に 重 複<br />

してるケースでは 検 索 結 果 に 含 まれないことになります。<br />

アクセント 付 きキャラクタ<br />

多 くの 言 語 では、アクセント 等 の 発 音 区 別 記 号 を 他 キャラクタのそ<br />

ばに 配 して 合 成 キャラクタを 形 成 します。TeX に 代 表 される 特 定 の<br />

組 版 ソフトウェアではベースキャラクタとアクセントの 2 つのキャラ<br />

クタを 別 々に 出 力 し、 合 成 キャラクタを 作 るものがあります。たと<br />

えばキャラクタ ä を 作 るには、まず 文 字 a をページ 上 に 配 置 し、そ<br />

の 頭 に 分 音 記 号 ¨を 配 置 します。<strong>TET</strong> はこうした 状 況 を 検 出 し、2<br />

つのキャラクタを 再 合 成 して 適 切 な 合 成 キャラクタを 復 元 します。<br />

合 字<br />

合 字 は、 複 数 のキャラクタを 1 つのグリフに 合 体 したものです。よ<br />

く 見 られる 合 字 は fi・fl・ffi ですが、ほかにも Th・sp・ct・st 等 あま<br />

り 目 にしない 合 字 が 数 多 くあります。 電 子 文 書 からテキストを 抽 出<br />

する 際 には、 合 字 を 分 析 してキャラクタ 列 に 分 解 することで、 適 切<br />

なテキスト 処 理 を 可 能 にする 必 要 があります。<strong>TET</strong> は 合 字 を 検 出 し、<br />

適 切 な 複 数 キャラクタとして 出 力 します。<br />

ドロップキャップ<br />

ドロップキャップは、 一 番 初 めの 段 落 の 一 文 字 目 を 大 きな 文 字 で<br />

表 現 したものです。ドロップキャップは 段 落 の 開 始 を 強 調 したいと<br />

きによく 使 います。ドロップキャップを 適 切 に 扱 わないと、 単 語 の<br />

一 文 字 目 とそれ 以 降 の 文 字 を 別 々の 単 語 として 抽 出 してしまうでしょ<br />

う。<br />

他 製 品 による 抽 出 結 果 :「S」と「tellen」の 2 単 語<br />

<strong>TET</strong> による 抽 出 結 果 :「Stellen」の 1 単 語<br />

* 本 機 能 は、 主 に 欧 文 処 理 を 対 象 としており、 日 本 語 処 理 については 制 限 が<br />

あります。

Hooray! Your file is uploaded and ready to be published.

Saved successfully!

Ooh no, something went wrong!