Create successful ePaper yourself
Turn your PDF publications into a flip-book with our unique Google optimized e-Paper software.
2 <strong>PDFlib</strong> <strong>TET</strong> <strong>4.1</strong>, 2012-02 <strong>PDFlib</strong> GmbH www.pdflib.com<br />
問 題 を 含 む PDF に 対 するオプション 設 定<br />
<strong>TET</strong> は、 他 の 製 品 では 正 しくテキストを 抽 出 できないようなさまざ<br />
まな 種 類 の PDF に 対 して、 特 殊 な 処 理 や 回 避 策 を 実 現 します。さ<br />
らに、 問 題 文 書 の 処 理 を 改 善 するためのさまざまな 設 定 機 能 を 備<br />
えています。<br />
>> 文 字 コードまたはグリフ 名 を Unicode へマッピングするテーブル<br />
をユーザーが 設 定 することによって、Unicode マッピングをカス<br />
タマイズすることができます。<br />
>> <strong>PDFlib</strong> FontReporter は、PDF 内 のフォント、エンコーディング<br />
及 びグリフを 分 析 する 補 助 ツールで、Adobe Acrobat のプラグイ<br />
ンとして 動 作 します。このプラグインには Mac 版 と Windows 版<br />
があり、 無 料 で 使 用 できます。<br />
>> Unicode マッピングに 有 効 な 情 報 を 得 るために 埋 め 込 みフォント<br />
を 解 析 します。フォントが 埋 め 込 まれていないときは、 外 部 フォ<br />
ントファイルまたはシステムフォントを 用 い、テキスト 抽 出 結 果 を<br />
改 善 します。<br />
Unicode への 後 処 理<br />
<strong>TET</strong> は Unicode への 様 々な 後 処 理 をサポートし、より 良 い 抽 出 結<br />
果 が 得 られるようにします。<br />
>> フォルディングは 文 字 の 保 持 や 削 除 、 置 換 を 行 います。 例 えば、<br />
検 索 と 無 関 係 な 句 読 点 や 不 要 な 文 字 を 削 除 します。<br />
>> デコンポジッションは 文 字 を 一 字 ないし 複 数 の 等 価 な 文 字 に 置 き<br />
換 えます。 例 えば、 和 文 の 半 角 ・ 全 角 キャラクタや 英 字 の 上 付 き<br />
形 (ª 等 )を、 標 準 的 で 等 価 な Unicode 文 字 に 置 き 換 えます。<br />
>> 正 規 化 はテキストをすべて 4 バイトの Unicode に 変 換 します。<br />
例 えば、Web テキストやデータベースの 要 件 に 合 うように NFC<br />
形 式 で 出 力 します。<br />
文 書 の 領 域<br />
PDF 文 書 では、ページコンテンツ 以 外 の 場 所 にもテキストがありま<br />
す。 多 くのアプリケーションはページコンテンツしか 扱 いませんが、<br />
文 書 のその 他 の 領 域 が 必 要 な 場 面 も 多 くあります。<strong>TET</strong> は、 以 下 の<br />
文 書 領 域 全 てからテキストを 抽 出 することができます。<br />
>> ページコンテンツ<br />
>> 定 義 済 み 及 びカスタム 文 書 情 報 項 目<br />
>> 文 書 と 画 像 レベルの XMP メタデータ<br />
>>しおり<br />
>> ファイル 添 付 と PDF ポートフォリオの 再 帰 的 処 理<br />
>> フォームフィールド<br />
>> コメント( 注 釈 )<br />
>> ページ 数 や PDF/A・PDF/X 等 標 準 への 準 拠 状 態 など 一 般 的 PDF<br />
プロパティ<br />
XMP メタデータ<br />
<strong>TET</strong> は、 以 下 のような 形 式 で XMP メタデータをサポートしています。<br />
>> 内 蔵 pCOS インタフェースを 用 い、 文 書 、 各 ページ、 画 像 また<br />
は 文 書 のその 他 部 分 の XMP メタデータをプログラムにより 抽 出<br />
する。<br />
>> XMP 文 書 や 画 像 メタデータが PDF 文 書 内 に 存 在 する 場 合 には<br />
<strong>TET</strong>ML 出 力 にこれを 含 める。<br />
>> 画 像 メタデータが PDF 文 書 内 に 存 在 する 場 合 には TIFF または<br />
JPEG 形 式 で 抽 出 された 画 像 にこれを 含 む。<br />
<strong>TET</strong>ML:PDF 内 容 を XML で 表 現<br />
<strong>TET</strong> では、PDF コンテンツを <strong>TET</strong>ML という 一 種 の XML で 表 現 す<br />
ることができます。<strong>TET</strong>ML で 表 現 されたさまざまな PDF 情 報 は 広<br />
く 用 いられている XML ツールで 容 易 に 処 理 することができます。<br />
<strong>TET</strong>ML にはテキスト 本 体 のほか、フォント、 位 置 情 報 、 画 像 ・カラー<br />
スペースなどリソースの 詳 細 及 びメタデータを 含 めることができま<br />
す。<br />
<strong>TET</strong>ML は、 対 応 する XML スキーマに 規 定 されており、<strong>TET</strong> はつねに、<br />
一 貫 性 と 信 頼 性 を 具 えた XML 出 力 を 生 成 します。フィルタリングや<br />
書 式 の 変 換 などのために XSLT スタイルシートで <strong>TET</strong>ML を 処 理 す<br />
ることも 可 能 です。<strong>TET</strong> には、<strong>TET</strong>ML を 処 理 するサンプル XSLT ス<br />
タイルシートが 添 付 されています。<br />
以 下 に 示 すのはグリフの 詳 細 の 一 部 を <strong>TET</strong>ML で 表 したものです。<br />
<br />
<strong>PDFlib</strong><br />
<br />
P<br />
D<br />
F<br />
l<br />
i<br />
b<br />
<br />
<br />
<strong>TET</strong> コネクタ<br />
<strong>TET</strong> コネクタは、<strong>TET</strong> を 他 のソフトウェアと 連 携 するのに 必 要 な 接<br />
続 用 プログラムです。 以 下 の <strong>TET</strong> コネクタにより、PDF テキスト 抽<br />
出 機 能 が 各 種 ソフトウェア 環 境 で 利 用 可 能 になります。<br />
>> Lucene 検 索 エンジン 用 <strong>TET</strong> コネクタ<br />
>> Solr 検 索 サーバ 用 <strong>TET</strong> コネクタ<br />
>> TIKA toolkit 用 <strong>TET</strong> コネクタ<br />
>> Oracle Text 用 <strong>TET</strong> コネクタ<br />
>> MediaWiki 用 <strong>TET</strong> コネクタ<br />
>> Microsoft 社 製 品 用 には、<strong>PDFlib</strong> <strong>TET</strong> PDF IFilter をお 使 いくださ<br />
い。PDF 文 書 からテキストとメタデータを 抽 出 し、Windows 上<br />
の 検 索 ・ 抽 出 ソフトウェアでの 利 用 を 可 能 にします( 詳 しくは<br />
<strong>PDFlib</strong> <strong>TET</strong> PDF IFilter のデータシートをご 覧 下 さい)<br />
<strong>TET</strong> クックブック<br />
<strong>TET</strong> クックブックは、さまざまなテキスト・ 画 像 抽 出 タスクにおける<br />
<strong>TET</strong> の 使 用 法 を 示 したプログラミング 作 成 例 集 です。ページ 上 のテ<br />
キストに 応 じてしおりやリンクを 追 加 するなど、<strong>TET</strong> と <strong>PDFlib</strong>+PDI<br />
を 組 み 合 わせて PDF 文 書 を 改 良 する 方 法 を 示 したサンプルもあり<br />
ます。