You also want an ePaper? Increase the reach of your titles
YUMPU automatically turns print PDFs into web optimized ePapers that Google loves.
4 <strong>PDFlib</strong> <strong>TET</strong> <strong>4.1</strong>, 2012-02 <strong>PDFlib</strong> GmbH www.pdflib.com<br />
テキストの 抽 出 に 挑 戦 *<br />
他 製 品 では 使 い 物 にならないゴミを 抽 出 しますが、<strong>TET</strong> ではテキス<br />
トを 抽 出 します<br />
Acrobat でページ 内 容 を 表 示 できない 場 合 でも、<strong>TET</strong> なら 正 確 に<br />
文 字 を 抽 出 します<br />
<strong>TET</strong> は 左 向 きのテキストと 右 向 きのテキストが 混 在 している 場 合 で<br />
も、 正 しい 順 序 に 並 び 替 えます<br />
他 製 品 による 抽 出 結 果 : 細 切 れの 画 像 133 個<br />
<strong>TET</strong> による 抽 出 結 果 : 大 きな 画 像 1 つ<br />
Unicode マッピング<br />
Unicode マッピングは PDF からテキストを 抽 出 するための 基 礎 で<br />
あり、グリフごとに 対 応 する Unicode 値 を 割 り 当 てなければなりま<br />
せん。PDF は 様 々なフォントやエンコーディングをサポートしてお<br />
り、 中 には 適 切 な Unicode を 割 り 当 てるための 情 報 を 持 たないも<br />
のもあるため、Unicode マッピングは 複 雑 な 作 業 です。 最 悪 の 場 合 、<br />
PDF 文 書 から 使 い 物 にならないテキストしか 抽 出 できず、 十 分 な<br />
情 報 が 得 られない 場 合 もあります。<br />
<strong>TET</strong> の 特 許 技 術 である Unicode マッピングアルゴリズムは Unicode<br />
値 を 決 定 するための 情 報 すべてを 使 うような 数 珠 つなぎのアルゴリ<br />
ズムを 実 装 しています。 問 題 を 抱 える 多 くの 文 書 に 対 して、 他 の 製<br />
品 が 使 い 物 にならないゴミしか 抽 出 できない 場 合 でも、<strong>TET</strong> は 適<br />
切 な Unicode テキストを 抽 出 します。<br />
破 損 した PDF<br />
変 換 エラーなどによって、PDF が 破 損 する 場 合 があります。<strong>TET</strong> の<br />
修 復 モードは PDF の 破 損 の 多 くを 復 元 します。PDF の 破 損 が 激 し<br />
く、Acrobat で 表 示 できないような 極 端 なケースにおいても、<strong>TET</strong><br />
はページ 内 容 を 抽 出 します。<br />
アラビア 語 やヘブライ 語 による 双 方 向 テキスト<br />
PDF は 論 理 的 なテキストをエンコードせずに、 単 純 にグリフとして<br />
内 包 しています。アラビア 語 やヘブライ 語 で 書 かれたテキストは 右<br />
から 左 に 進 みます。また、 数 字 や 欧 米 言 語 の 名 前 といった 右 から<br />
左 に 進 むテキストが 挿 入 される「bidirectinal」と 呼 ばれる 状 態 に<br />
なることもあり、 両 方 向 に 解 釈 しなければなりません。また 他 の 課<br />
題 として、アラビア 語 の 文 字 は 文 脈 によって 最 大 4 つの 形 をとるこ<br />
とがあげられます。このような 文 字 に 対 しては、 対 応 する 標 準 形 ( 独<br />
立 形 )に 正 規 化 する 必 要 があります。<br />
画 像 抽 出 に 挑 戦<br />
色 空 間 と 圧 縮<br />
PDF 内 のラスタ 画 像 データは、11 の 色 空 間 と 9 の 圧 縮 フィルタの<br />
任 意 の 組 み 合 わせでエンコードされている 可 能 性 がありますが、<br />
JPEG や TIFF など 一 般 的 な 画 像 ファイル 形 式 は、それらのサブセッ<br />
トしかサポートしていません。<strong>TET</strong> の 画 像 抽 出 は PDF 画 像 の 特 性<br />
と 出 力 形 式 の 機 能 のバランスを 慎 重 にとります。PDF 画 像 の 内 部<br />
構 造 に 関 係 なく、ピクセル 画 像 は、 共 通 の 画 像 ファイル 形 式 で 抽<br />
出 されます。<br />
画 像 の 結 合<br />
多 くの PDF 文 書 では、それを 作 ったソフトウェアによって、 中 の 画<br />
像 が 細 かく 分 解 されています。ページ 上 で 1 つの 画 像 として 見 えて<br />
いても、 実 は 数 百 ・ 数 千 の 断 片 の 寄 せ 集 めということがあります。<br />
とくに、Microsoft Office アプリケーションや TeX がこうした 文 書 を<br />
作 ることで 知 られています。<strong>TET</strong> は、 断 片 化 した 画 像 を 検 出 して 結<br />
合 し、 大 きく 利 用 可 能 な 画 像 として 復 元 します。このような 画 像 を<br />
利 用 するためには 結 合 は 必 須 の 処 理 といえます。<br />
* 本 機 能 は、 主 に 欧 文 処 理 を 対 象 としており、 日 本 語 処 理 については 制 限 が<br />
あります。