17.05.2014 Views

PDFlib TET 4.1

PDFlib TET 4.1

PDFlib TET 4.1

SHOW MORE
SHOW LESS

Create successful ePaper yourself

Turn your PDF publications into a flip-book with our unique Google optimized e-Paper software.

2 <strong>PDFlib</strong> <strong>TET</strong> <strong>4.1</strong>, 2012-02 <strong>PDFlib</strong> GmbH www.pdflib.com<br />

問 題 を 含 む PDF に 対 するオプション 設 定<br />

<strong>TET</strong> は、 他 の 製 品 では 正 しくテキストを 抽 出 できないようなさまざ<br />

まな 種 類 の PDF に 対 して、 特 殊 な 処 理 や 回 避 策 を 実 現 します。さ<br />

らに、 問 題 文 書 の 処 理 を 改 善 するためのさまざまな 設 定 機 能 を 備<br />

えています。<br />

>> 文 字 コードまたはグリフ 名 を Unicode へマッピングするテーブル<br />

をユーザーが 設 定 することによって、Unicode マッピングをカス<br />

タマイズすることができます。<br />

>> <strong>PDFlib</strong> FontReporter は、PDF 内 のフォント、エンコーディング<br />

及 びグリフを 分 析 する 補 助 ツールで、Adobe Acrobat のプラグイ<br />

ンとして 動 作 します。このプラグインには Mac 版 と Windows 版<br />

があり、 無 料 で 使 用 できます。<br />

>> Unicode マッピングに 有 効 な 情 報 を 得 るために 埋 め 込 みフォント<br />

を 解 析 します。フォントが 埋 め 込 まれていないときは、 外 部 フォ<br />

ントファイルまたはシステムフォントを 用 い、テキスト 抽 出 結 果 を<br />

改 善 します。<br />

Unicode への 後 処 理<br />

<strong>TET</strong> は Unicode への 様 々な 後 処 理 をサポートし、より 良 い 抽 出 結<br />

果 が 得 られるようにします。<br />

>> フォルディングは 文 字 の 保 持 や 削 除 、 置 換 を 行 います。 例 えば、<br />

検 索 と 無 関 係 な 句 読 点 や 不 要 な 文 字 を 削 除 します。<br />

>> デコンポジッションは 文 字 を 一 字 ないし 複 数 の 等 価 な 文 字 に 置 き<br />

換 えます。 例 えば、 和 文 の 半 角 ・ 全 角 キャラクタや 英 字 の 上 付 き<br />

形 (ª 等 )を、 標 準 的 で 等 価 な Unicode 文 字 に 置 き 換 えます。<br />

>> 正 規 化 はテキストをすべて 4 バイトの Unicode に 変 換 します。<br />

例 えば、Web テキストやデータベースの 要 件 に 合 うように NFC<br />

形 式 で 出 力 します。<br />

文 書 の 領 域<br />

PDF 文 書 では、ページコンテンツ 以 外 の 場 所 にもテキストがありま<br />

す。 多 くのアプリケーションはページコンテンツしか 扱 いませんが、<br />

文 書 のその 他 の 領 域 が 必 要 な 場 面 も 多 くあります。<strong>TET</strong> は、 以 下 の<br />

文 書 領 域 全 てからテキストを 抽 出 することができます。<br />

>> ページコンテンツ<br />

>> 定 義 済 み 及 びカスタム 文 書 情 報 項 目<br />

>> 文 書 と 画 像 レベルの XMP メタデータ<br />

>>しおり<br />

>> ファイル 添 付 と PDF ポートフォリオの 再 帰 的 処 理<br />

>> フォームフィールド<br />

>> コメント( 注 釈 )<br />

>> ページ 数 や PDF/A・PDF/X 等 標 準 への 準 拠 状 態 など 一 般 的 PDF<br />

プロパティ<br />

XMP メタデータ<br />

<strong>TET</strong> は、 以 下 のような 形 式 で XMP メタデータをサポートしています。<br />

>> 内 蔵 pCOS インタフェースを 用 い、 文 書 、 各 ページ、 画 像 また<br />

は 文 書 のその 他 部 分 の XMP メタデータをプログラムにより 抽 出<br />

する。<br />

>> XMP 文 書 や 画 像 メタデータが PDF 文 書 内 に 存 在 する 場 合 には<br />

<strong>TET</strong>ML 出 力 にこれを 含 める。<br />

>> 画 像 メタデータが PDF 文 書 内 に 存 在 する 場 合 には TIFF または<br />

JPEG 形 式 で 抽 出 された 画 像 にこれを 含 む。<br />

<strong>TET</strong>ML:PDF 内 容 を XML で 表 現<br />

<strong>TET</strong> では、PDF コンテンツを <strong>TET</strong>ML という 一 種 の XML で 表 現 す<br />

ることができます。<strong>TET</strong>ML で 表 現 されたさまざまな PDF 情 報 は 広<br />

く 用 いられている XML ツールで 容 易 に 処 理 することができます。<br />

<strong>TET</strong>ML にはテキスト 本 体 のほか、フォント、 位 置 情 報 、 画 像 ・カラー<br />

スペースなどリソースの 詳 細 及 びメタデータを 含 めることができま<br />

す。<br />

<strong>TET</strong>ML は、 対 応 する XML スキーマに 規 定 されており、<strong>TET</strong> はつねに、<br />

一 貫 性 と 信 頼 性 を 具 えた XML 出 力 を 生 成 します。フィルタリングや<br />

書 式 の 変 換 などのために XSLT スタイルシートで <strong>TET</strong>ML を 処 理 す<br />

ることも 可 能 です。<strong>TET</strong> には、<strong>TET</strong>ML を 処 理 するサンプル XSLT ス<br />

タイルシートが 添 付 されています。<br />

以 下 に 示 すのはグリフの 詳 細 の 一 部 を <strong>TET</strong>ML で 表 したものです。<br />

<br />

<strong>PDFlib</strong><br />

<br />

P<br />

D<br />

F<br />

l<br />

i<br />

b<br />

<br />

<br />

<strong>TET</strong> コネクタ<br />

<strong>TET</strong> コネクタは、<strong>TET</strong> を 他 のソフトウェアと 連 携 するのに 必 要 な 接<br />

続 用 プログラムです。 以 下 の <strong>TET</strong> コネクタにより、PDF テキスト 抽<br />

出 機 能 が 各 種 ソフトウェア 環 境 で 利 用 可 能 になります。<br />

>> Lucene 検 索 エンジン 用 <strong>TET</strong> コネクタ<br />

>> Solr 検 索 サーバ 用 <strong>TET</strong> コネクタ<br />

>> TIKA toolkit 用 <strong>TET</strong> コネクタ<br />

>> Oracle Text 用 <strong>TET</strong> コネクタ<br />

>> MediaWiki 用 <strong>TET</strong> コネクタ<br />

>> Microsoft 社 製 品 用 には、<strong>PDFlib</strong> <strong>TET</strong> PDF IFilter をお 使 いくださ<br />

い。PDF 文 書 からテキストとメタデータを 抽 出 し、Windows 上<br />

の 検 索 ・ 抽 出 ソフトウェアでの 利 用 を 可 能 にします( 詳 しくは<br />

<strong>PDFlib</strong> <strong>TET</strong> PDF IFilter のデータシートをご 覧 下 さい)<br />

<strong>TET</strong> クックブック<br />

<strong>TET</strong> クックブックは、さまざまなテキスト・ 画 像 抽 出 タスクにおける<br />

<strong>TET</strong> の 使 用 法 を 示 したプログラミング 作 成 例 集 です。ページ 上 のテ<br />

キストに 応 じてしおりやリンクを 追 加 するなど、<strong>TET</strong> と <strong>PDFlib</strong>+PDI<br />

を 組 み 合 わせて PDF 文 書 を 改 良 する 方 法 を 示 したサンプルもあり<br />

ます。

Hooray! Your file is uploaded and ready to be published.

Saved successfully!

Ooh no, something went wrong!