17.05.2014 Views

PDFlib TET 4.1

PDFlib TET 4.1

PDFlib TET 4.1

SHOW MORE
SHOW LESS

You also want an ePaper? Increase the reach of your titles

YUMPU automatically turns print PDFs into web optimized ePapers that Google loves.

4 <strong>PDFlib</strong> <strong>TET</strong> <strong>4.1</strong>, 2012-02 <strong>PDFlib</strong> GmbH www.pdflib.com<br />

テキストの 抽 出 に 挑 戦 *<br />

他 製 品 では 使 い 物 にならないゴミを 抽 出 しますが、<strong>TET</strong> ではテキス<br />

トを 抽 出 します<br />

Acrobat でページ 内 容 を 表 示 できない 場 合 でも、<strong>TET</strong> なら 正 確 に<br />

文 字 を 抽 出 します<br />

<strong>TET</strong> は 左 向 きのテキストと 右 向 きのテキストが 混 在 している 場 合 で<br />

も、 正 しい 順 序 に 並 び 替 えます<br />

他 製 品 による 抽 出 結 果 : 細 切 れの 画 像 133 個<br />

<strong>TET</strong> による 抽 出 結 果 : 大 きな 画 像 1 つ<br />

Unicode マッピング<br />

Unicode マッピングは PDF からテキストを 抽 出 するための 基 礎 で<br />

あり、グリフごとに 対 応 する Unicode 値 を 割 り 当 てなければなりま<br />

せん。PDF は 様 々なフォントやエンコーディングをサポートしてお<br />

り、 中 には 適 切 な Unicode を 割 り 当 てるための 情 報 を 持 たないも<br />

のもあるため、Unicode マッピングは 複 雑 な 作 業 です。 最 悪 の 場 合 、<br />

PDF 文 書 から 使 い 物 にならないテキストしか 抽 出 できず、 十 分 な<br />

情 報 が 得 られない 場 合 もあります。<br />

<strong>TET</strong> の 特 許 技 術 である Unicode マッピングアルゴリズムは Unicode<br />

値 を 決 定 するための 情 報 すべてを 使 うような 数 珠 つなぎのアルゴリ<br />

ズムを 実 装 しています。 問 題 を 抱 える 多 くの 文 書 に 対 して、 他 の 製<br />

品 が 使 い 物 にならないゴミしか 抽 出 できない 場 合 でも、<strong>TET</strong> は 適<br />

切 な Unicode テキストを 抽 出 します。<br />

破 損 した PDF<br />

変 換 エラーなどによって、PDF が 破 損 する 場 合 があります。<strong>TET</strong> の<br />

修 復 モードは PDF の 破 損 の 多 くを 復 元 します。PDF の 破 損 が 激 し<br />

く、Acrobat で 表 示 できないような 極 端 なケースにおいても、<strong>TET</strong><br />

はページ 内 容 を 抽 出 します。<br />

アラビア 語 やヘブライ 語 による 双 方 向 テキスト<br />

PDF は 論 理 的 なテキストをエンコードせずに、 単 純 にグリフとして<br />

内 包 しています。アラビア 語 やヘブライ 語 で 書 かれたテキストは 右<br />

から 左 に 進 みます。また、 数 字 や 欧 米 言 語 の 名 前 といった 右 から<br />

左 に 進 むテキストが 挿 入 される「bidirectinal」と 呼 ばれる 状 態 に<br />

なることもあり、 両 方 向 に 解 釈 しなければなりません。また 他 の 課<br />

題 として、アラビア 語 の 文 字 は 文 脈 によって 最 大 4 つの 形 をとるこ<br />

とがあげられます。このような 文 字 に 対 しては、 対 応 する 標 準 形 ( 独<br />

立 形 )に 正 規 化 する 必 要 があります。<br />

画 像 抽 出 に 挑 戦<br />

色 空 間 と 圧 縮<br />

PDF 内 のラスタ 画 像 データは、11 の 色 空 間 と 9 の 圧 縮 フィルタの<br />

任 意 の 組 み 合 わせでエンコードされている 可 能 性 がありますが、<br />

JPEG や TIFF など 一 般 的 な 画 像 ファイル 形 式 は、それらのサブセッ<br />

トしかサポートしていません。<strong>TET</strong> の 画 像 抽 出 は PDF 画 像 の 特 性<br />

と 出 力 形 式 の 機 能 のバランスを 慎 重 にとります。PDF 画 像 の 内 部<br />

構 造 に 関 係 なく、ピクセル 画 像 は、 共 通 の 画 像 ファイル 形 式 で 抽<br />

出 されます。<br />

画 像 の 結 合<br />

多 くの PDF 文 書 では、それを 作 ったソフトウェアによって、 中 の 画<br />

像 が 細 かく 分 解 されています。ページ 上 で 1 つの 画 像 として 見 えて<br />

いても、 実 は 数 百 ・ 数 千 の 断 片 の 寄 せ 集 めということがあります。<br />

とくに、Microsoft Office アプリケーションや TeX がこうした 文 書 を<br />

作 ることで 知 られています。<strong>TET</strong> は、 断 片 化 した 画 像 を 検 出 して 結<br />

合 し、 大 きく 利 用 可 能 な 画 像 として 復 元 します。このような 画 像 を<br />

利 用 するためには 結 合 は 必 須 の 処 理 といえます。<br />

* 本 機 能 は、 主 に 欧 文 処 理 を 対 象 としており、 日 本 語 処 理 については 制 限 が<br />

あります。

Hooray! Your file is uploaded and ready to be published.

Saved successfully!

Ooh no, something went wrong!