17.05.2014 Views

PDFlib TET 4.1

PDFlib TET 4.1

PDFlib TET 4.1

SHOW MORE
SHOW LESS

Create successful ePaper yourself

Turn your PDF publications into a flip-book with our unique Google optimized e-Paper software.

DEF<br />

製 品 ガイド<br />

<strong>PDFlib</strong> <strong>TET</strong> <strong>4.1</strong><br />

テキスト 抽 出 ツールキット<br />

<strong>PDFlib</strong> <strong>TET</strong> とは<br />

<strong>PDFlib</strong> Text Extrtaction Tool Kit(<strong>TET</strong>)は、PDF 文 書 からテキスト、<br />

画 像 、メタデータを 確 実 に 抽 出 します。<strong>TET</strong> を 利 用 すると、PDF の<br />

テキスト 内 容 を Unicode 文 字 列 として 取 得 することができるほか、<br />

グリフやフォントに 関 する 詳 しい 情 報 や、ページ 上 の 位 置 を 知 るこ<br />

とができます。ラスタ 画 像 は、 広 く 用 いられている 画 像 形 式 で 抽 出<br />

されます。<strong>TET</strong> は、<strong>TET</strong>ML という XML ベースの 書 式 を 実 装 してお<br />

り、 必 要 に 応 じ PDF 文 書 を <strong>TET</strong>ML 形 式 に 変 換 することができます。<br />

<strong>TET</strong>ML はテキストやメタデータに 加 えリソース 情 報 を 保 持 すること<br />

ができます。<br />

<strong>TET</strong> は、 高 度 な 内 容 分 析 アルゴリズムを 実 装 し、 単 語 境 界 の 検 出 、<br />

テキストの 段 組 認 識 、 冗 長 テキストの 除 去 などの 処 理 を 効 率 的 に<br />

実 現 します。また pCOS インタフェースにより、PDF からメタデー<br />

タやインタラクティブ 要 素 等 任 意 のオブジェクトを 抽 出 することがで<br />

きます。<br />

<strong>PDFlib</strong> <strong>TET</strong> の 利 用 例 :<br />

>> 検 索 エンジンの PDF 文 書 のインデクシング<br />

>> 既 存 PDF 文 書 内 のテキストや 画 像 の 再 利 用<br />

>> PDF 文 書 の 内 容 の 異 なる 形 式 への 変 換<br />

>> PDF 文 書 を 解 析 し、その 内 容 に 応 じて 異 なる 処 理 を 実 施 。<br />

例 えば、 見 出 しによる 文 書 の 分 割 (<strong>TET</strong> の 他 、<strong>PDFlib</strong>+PDI が 必<br />

要 となります)<br />

<strong>PDFlib</strong> <strong>TET</strong> の 機 能<br />

対 応 する PDF<br />

<strong>PDFlib</strong> <strong>TET</strong> は 様 々な PDF の 入 力 に 対 応 しています :<br />

>> ISO 32000-1 を 含 む、Acrobat X までのすべての PDF バージョン<br />

>> 表 示 用 パスワードを 必 要 としない 暗 号 化 された PDF<br />

>> 破 損 した PDF 文 書 も 修 復<br />

Unicode<br />

PDF 内 のテキストは 通 常 、Unicode でエンコードされていないので、<br />

<strong>PDFlib</strong> <strong>TET</strong> は PDF 文 書 内 のテキストを、 次 のように Unicode によ<br />

り 正 規 化 します。<br />

>> <strong>TET</strong> は、すべてのテキストコンテンツを Unicode へ 変 換 します。<br />

C などの Unicode 非 対 応 言 語 では、テキストは UTF-8 または<br />

UTF-16 形 式 で 返 され、Unicode 対 応 のプログラミング 言 語 では、<br />

ネイティブ 文 字 列 として 返 されます。<br />

>> 合 字 などの 複 数 文 字 グリフは、 対 応 する Unicode 文 字 列 に 分 解<br />

します。<br />

>> 適 切 な Unicode マッピングのないグリフを 認 識 した 場 合 、 誤 解<br />

釈 防 止 のため 設 定 可 能 な 置 き 換 えキャラクタへマップします。<br />

>> InDesign や TeX の 文 書 或 いはメインフレームシステム 上 で 生 成<br />

された PDF など 特 定 の 文 書 作 成 環 境 に 起 因 する 問 題 に 対 して<br />

<strong>TET</strong> ではさまざまな 回 避 策 を 実 装 しています。<br />

内 容 分 析 と 単 語 の 検 出 *<br />

<strong>TET</strong> は、 次 のような 高 度 な 分 析 アルゴリズムを 有 しています。<br />

>> 適 切 な 単 語 抽 出 に 必 須 の 単 語 境 界 決 定 アルゴリズム( 特 許 技 術 )<br />

>> ハイフネーションされた 単 語 の 各 部 分 の 再 結 合 (デハイフネー<br />

ション)<br />

>> 影 付 きや 太 字 化 等 のテキストの 重 複 インスタンスの 除 去<br />

>> 段 落 の 読 み 順 による 再 結 合<br />

>> ページ 上 に 分 散 したテキストを 正 しい 順 序 に 並 べ 替 え<br />

ページレイアウトと 表 組 みの 検 出 *<br />

ページ 内 容 を 分 析 し、 段 組 を 割 り 出 します。 複 数 列 をまたぐセルも<br />

含 め 表 組 みを 検 出 します。 本 処 理 により 抽 出 テキストの 順 序 の 決 定<br />

が 容 易 になり、 表 の 行 や 各 表 のセルの 内 容 を 特 定 することができ<br />

ます。<br />

幾 何 情 報<br />

<strong>TET</strong> は、ページ 上 の 位 置 、グリフの 幅 、テキストの 向 きなど、テキ<br />

ストの 正 確 な 幾 何 情 報 を 提 供 します。ページの 特 定 の 領 域 を 指 定<br />

してテキスト 抽 出 の 対 象 から 除 外 したり、 逆 に 指 定 部 分 のみからテ<br />

キスト 抽 出 することができます。たとえばヘッダー、フッターや 余 白<br />

を 除 外 することができます。<br />

画 像 抽 出<br />

PDF ページ 上 の 画 像 を、TIFF、JPEG または JPEG 2000 ファイルと<br />

して 抽 出 できます。 各 画 像 について、 正 確 な 幾 何 情 報 ( 位 置 、 寸<br />

法 及 び 角 度 )を 取 得 できます。 分 割 されている 画 像 を 大 きな 画 像<br />

に 結 合 して 再 利 用 することができます。ダウンサンプリングや 色 空<br />

間 の 変 換 は 行 われないので、 画 像 の 忠 実 度 が 保 証 され、 最 高 の 画<br />

像 品 質 が 保 証 されます。<br />

PDF の 分 析<br />

<strong>TET</strong> ライブラリには pCOS インタフェースが 含 まれ、PDF 文 書 の 文<br />

書 情 報 、XMP メタデータ、フォントリストやページ 寸 法 などさまざ<br />

まな 詳 細 情 報 を 取 得 できます。(pCOS 製 品 については pCOS のデー<br />

タシートを 参 照 してください)<br />

* 本 機 能 は、 主 に 欧 文 処 理 を 対 象 としており、 日 本 語 処 理 については 制 限 が<br />

あります。


2 <strong>PDFlib</strong> <strong>TET</strong> <strong>4.1</strong>, 2012-02 <strong>PDFlib</strong> GmbH www.pdflib.com<br />

問 題 を 含 む PDF に 対 するオプション 設 定<br />

<strong>TET</strong> は、 他 の 製 品 では 正 しくテキストを 抽 出 できないようなさまざ<br />

まな 種 類 の PDF に 対 して、 特 殊 な 処 理 や 回 避 策 を 実 現 します。さ<br />

らに、 問 題 文 書 の 処 理 を 改 善 するためのさまざまな 設 定 機 能 を 備<br />

えています。<br />

>> 文 字 コードまたはグリフ 名 を Unicode へマッピングするテーブル<br />

をユーザーが 設 定 することによって、Unicode マッピングをカス<br />

タマイズすることができます。<br />

>> <strong>PDFlib</strong> FontReporter は、PDF 内 のフォント、エンコーディング<br />

及 びグリフを 分 析 する 補 助 ツールで、Adobe Acrobat のプラグイ<br />

ンとして 動 作 します。このプラグインには Mac 版 と Windows 版<br />

があり、 無 料 で 使 用 できます。<br />

>> Unicode マッピングに 有 効 な 情 報 を 得 るために 埋 め 込 みフォント<br />

を 解 析 します。フォントが 埋 め 込 まれていないときは、 外 部 フォ<br />

ントファイルまたはシステムフォントを 用 い、テキスト 抽 出 結 果 を<br />

改 善 します。<br />

Unicode への 後 処 理<br />

<strong>TET</strong> は Unicode への 様 々な 後 処 理 をサポートし、より 良 い 抽 出 結<br />

果 が 得 られるようにします。<br />

>> フォルディングは 文 字 の 保 持 や 削 除 、 置 換 を 行 います。 例 えば、<br />

検 索 と 無 関 係 な 句 読 点 や 不 要 な 文 字 を 削 除 します。<br />

>> デコンポジッションは 文 字 を 一 字 ないし 複 数 の 等 価 な 文 字 に 置 き<br />

換 えます。 例 えば、 和 文 の 半 角 ・ 全 角 キャラクタや 英 字 の 上 付 き<br />

形 (ª 等 )を、 標 準 的 で 等 価 な Unicode 文 字 に 置 き 換 えます。<br />

>> 正 規 化 はテキストをすべて 4 バイトの Unicode に 変 換 します。<br />

例 えば、Web テキストやデータベースの 要 件 に 合 うように NFC<br />

形 式 で 出 力 します。<br />

文 書 の 領 域<br />

PDF 文 書 では、ページコンテンツ 以 外 の 場 所 にもテキストがありま<br />

す。 多 くのアプリケーションはページコンテンツしか 扱 いませんが、<br />

文 書 のその 他 の 領 域 が 必 要 な 場 面 も 多 くあります。<strong>TET</strong> は、 以 下 の<br />

文 書 領 域 全 てからテキストを 抽 出 することができます。<br />

>> ページコンテンツ<br />

>> 定 義 済 み 及 びカスタム 文 書 情 報 項 目<br />

>> 文 書 と 画 像 レベルの XMP メタデータ<br />

>>しおり<br />

>> ファイル 添 付 と PDF ポートフォリオの 再 帰 的 処 理<br />

>> フォームフィールド<br />

>> コメント( 注 釈 )<br />

>> ページ 数 や PDF/A・PDF/X 等 標 準 への 準 拠 状 態 など 一 般 的 PDF<br />

プロパティ<br />

XMP メタデータ<br />

<strong>TET</strong> は、 以 下 のような 形 式 で XMP メタデータをサポートしています。<br />

>> 内 蔵 pCOS インタフェースを 用 い、 文 書 、 各 ページ、 画 像 また<br />

は 文 書 のその 他 部 分 の XMP メタデータをプログラムにより 抽 出<br />

する。<br />

>> XMP 文 書 や 画 像 メタデータが PDF 文 書 内 に 存 在 する 場 合 には<br />

<strong>TET</strong>ML 出 力 にこれを 含 める。<br />

>> 画 像 メタデータが PDF 文 書 内 に 存 在 する 場 合 には TIFF または<br />

JPEG 形 式 で 抽 出 された 画 像 にこれを 含 む。<br />

<strong>TET</strong>ML:PDF 内 容 を XML で 表 現<br />

<strong>TET</strong> では、PDF コンテンツを <strong>TET</strong>ML という 一 種 の XML で 表 現 す<br />

ることができます。<strong>TET</strong>ML で 表 現 されたさまざまな PDF 情 報 は 広<br />

く 用 いられている XML ツールで 容 易 に 処 理 することができます。<br />

<strong>TET</strong>ML にはテキスト 本 体 のほか、フォント、 位 置 情 報 、 画 像 ・カラー<br />

スペースなどリソースの 詳 細 及 びメタデータを 含 めることができま<br />

す。<br />

<strong>TET</strong>ML は、 対 応 する XML スキーマに 規 定 されており、<strong>TET</strong> はつねに、<br />

一 貫 性 と 信 頼 性 を 具 えた XML 出 力 を 生 成 します。フィルタリングや<br />

書 式 の 変 換 などのために XSLT スタイルシートで <strong>TET</strong>ML を 処 理 す<br />

ることも 可 能 です。<strong>TET</strong> には、<strong>TET</strong>ML を 処 理 するサンプル XSLT ス<br />

タイルシートが 添 付 されています。<br />

以 下 に 示 すのはグリフの 詳 細 の 一 部 を <strong>TET</strong>ML で 表 したものです。<br />

<br />

<strong>PDFlib</strong><br />

<br />

P<br />

D<br />

F<br />

l<br />

i<br />

b<br />

<br />

<br />

<strong>TET</strong> コネクタ<br />

<strong>TET</strong> コネクタは、<strong>TET</strong> を 他 のソフトウェアと 連 携 するのに 必 要 な 接<br />

続 用 プログラムです。 以 下 の <strong>TET</strong> コネクタにより、PDF テキスト 抽<br />

出 機 能 が 各 種 ソフトウェア 環 境 で 利 用 可 能 になります。<br />

>> Lucene 検 索 エンジン 用 <strong>TET</strong> コネクタ<br />

>> Solr 検 索 サーバ 用 <strong>TET</strong> コネクタ<br />

>> TIKA toolkit 用 <strong>TET</strong> コネクタ<br />

>> Oracle Text 用 <strong>TET</strong> コネクタ<br />

>> MediaWiki 用 <strong>TET</strong> コネクタ<br />

>> Microsoft 社 製 品 用 には、<strong>PDFlib</strong> <strong>TET</strong> PDF IFilter をお 使 いくださ<br />

い。PDF 文 書 からテキストとメタデータを 抽 出 し、Windows 上<br />

の 検 索 ・ 抽 出 ソフトウェアでの 利 用 を 可 能 にします( 詳 しくは<br />

<strong>PDFlib</strong> <strong>TET</strong> PDF IFilter のデータシートをご 覧 下 さい)<br />

<strong>TET</strong> クックブック<br />

<strong>TET</strong> クックブックは、さまざまなテキスト・ 画 像 抽 出 タスクにおける<br />

<strong>TET</strong> の 使 用 法 を 示 したプログラミング 作 成 例 集 です。ページ 上 のテ<br />

キストに 応 じてしおりやリンクを 追 加 するなど、<strong>TET</strong> と <strong>PDFlib</strong>+PDI<br />

を 組 み 合 わせて PDF 文 書 を 改 良 する 方 法 を 示 したサンプルもあり<br />

ます。


3 <strong>PDFlib</strong> <strong>TET</strong> <strong>4.1</strong>, 2012-02 <strong>PDFlib</strong> GmbH www.pdflib.com<br />

PDF からテキストの 抽 出 に 挑 戦 *<br />

ハイフンの 除 去<br />

<strong>TET</strong> は、 複 数 行 にわたるハイフネーションされた 単 語 を 検 出 してハ<br />

イフンを 除 去 し、 部 分 どうしを 結 合 して 単 語 を 復 元 します。これは、<br />

文 書 内 で 単 語 がハイフンで 分 割 されていても 単 語 が 正 しく 検 索 にか<br />

かるようにするための 重 要 な 処 理 です。ハイフンと 異 なるダッシュ<br />

は 除 去 しないよう 区 別 して 扱 われます。<br />

ハイフンは 除 去 されますが、ダッシュは 温 存 されます<br />

他 製 品 による 抽 出 結 果 :「Inttrroduccttiion」<br />

<strong>TET</strong> による 抽 出 結 果 :「Introduction」<br />

他 製 品 による 抽 出 結 果 :「Midi-Pyr´en´ees」<br />

<strong>TET</strong> による 抽 出 結 果 :「Midi-Pyrénées」<br />

他 製 品 による 抽 出 結 果 :「 e rst photographs」<br />

<strong>TET</strong> による 抽 出 結 果 :「The first photographs」<br />

影 付 き・ 太 字 テキストの 検 出<br />

電 子 文 書 では 影 付 きテキストがよく 使 われますが、これは、 同 じ<br />

テキストを 少 しずらして 複 数 回 ページ 上 に 配 置 することで 影 付 き 効<br />

果 を 得 ています。 同 様 に 太 字 テキストもたいていは、 同 じテキスト<br />

を 複 数 個 重 ねることで 太 字 に 見 せかけています。その 結 果 、 影 付<br />

きや 太 字 の 箇 所 のキャラクタは、 文 書 内 に 複 数 個 含 まれています。<br />

<strong>TET</strong> の 影 付 き 検 出 アルゴリズム( 特 許 取 得 済 )は、 重 複 したテキ<br />

ストを 特 定 して 除 去 することで、 余 分 なテキスト 抽 出 を 防 止 します。<br />

他 のソフトウェアでは、 影 付 きや 太 字 は 重 複 して 抽 出 されてしまい<br />

ますが、<strong>TET</strong> では 重 複 が 正 しく 除 去 されます。 単 語 全 体 が 重 複 して<br />

いるなら 検 索 エンジンでヒットしますが、 例 のように 文 字 毎 に 重 複<br />

してるケースでは 検 索 結 果 に 含 まれないことになります。<br />

アクセント 付 きキャラクタ<br />

多 くの 言 語 では、アクセント 等 の 発 音 区 別 記 号 を 他 キャラクタのそ<br />

ばに 配 して 合 成 キャラクタを 形 成 します。TeX に 代 表 される 特 定 の<br />

組 版 ソフトウェアではベースキャラクタとアクセントの 2 つのキャラ<br />

クタを 別 々に 出 力 し、 合 成 キャラクタを 作 るものがあります。たと<br />

えばキャラクタ ä を 作 るには、まず 文 字 a をページ 上 に 配 置 し、そ<br />

の 頭 に 分 音 記 号 ¨を 配 置 します。<strong>TET</strong> はこうした 状 況 を 検 出 し、2<br />

つのキャラクタを 再 合 成 して 適 切 な 合 成 キャラクタを 復 元 します。<br />

合 字<br />

合 字 は、 複 数 のキャラクタを 1 つのグリフに 合 体 したものです。よ<br />

く 見 られる 合 字 は fi・fl・ffi ですが、ほかにも Th・sp・ct・st 等 あま<br />

り 目 にしない 合 字 が 数 多 くあります。 電 子 文 書 からテキストを 抽 出<br />

する 際 には、 合 字 を 分 析 してキャラクタ 列 に 分 解 することで、 適 切<br />

なテキスト 処 理 を 可 能 にする 必 要 があります。<strong>TET</strong> は 合 字 を 検 出 し、<br />

適 切 な 複 数 キャラクタとして 出 力 します。<br />

ドロップキャップ<br />

ドロップキャップは、 一 番 初 めの 段 落 の 一 文 字 目 を 大 きな 文 字 で<br />

表 現 したものです。ドロップキャップは 段 落 の 開 始 を 強 調 したいと<br />

きによく 使 います。ドロップキャップを 適 切 に 扱 わないと、 単 語 の<br />

一 文 字 目 とそれ 以 降 の 文 字 を 別 々の 単 語 として 抽 出 してしまうでしょ<br />

う。<br />

他 製 品 による 抽 出 結 果 :「S」と「tellen」の 2 単 語<br />

<strong>TET</strong> による 抽 出 結 果 :「Stellen」の 1 単 語<br />

* 本 機 能 は、 主 に 欧 文 処 理 を 対 象 としており、 日 本 語 処 理 については 制 限 が<br />

あります。


4 <strong>PDFlib</strong> <strong>TET</strong> <strong>4.1</strong>, 2012-02 <strong>PDFlib</strong> GmbH www.pdflib.com<br />

テキストの 抽 出 に 挑 戦 *<br />

他 製 品 では 使 い 物 にならないゴミを 抽 出 しますが、<strong>TET</strong> ではテキス<br />

トを 抽 出 します<br />

Acrobat でページ 内 容 を 表 示 できない 場 合 でも、<strong>TET</strong> なら 正 確 に<br />

文 字 を 抽 出 します<br />

<strong>TET</strong> は 左 向 きのテキストと 右 向 きのテキストが 混 在 している 場 合 で<br />

も、 正 しい 順 序 に 並 び 替 えます<br />

他 製 品 による 抽 出 結 果 : 細 切 れの 画 像 133 個<br />

<strong>TET</strong> による 抽 出 結 果 : 大 きな 画 像 1 つ<br />

Unicode マッピング<br />

Unicode マッピングは PDF からテキストを 抽 出 するための 基 礎 で<br />

あり、グリフごとに 対 応 する Unicode 値 を 割 り 当 てなければなりま<br />

せん。PDF は 様 々なフォントやエンコーディングをサポートしてお<br />

り、 中 には 適 切 な Unicode を 割 り 当 てるための 情 報 を 持 たないも<br />

のもあるため、Unicode マッピングは 複 雑 な 作 業 です。 最 悪 の 場 合 、<br />

PDF 文 書 から 使 い 物 にならないテキストしか 抽 出 できず、 十 分 な<br />

情 報 が 得 られない 場 合 もあります。<br />

<strong>TET</strong> の 特 許 技 術 である Unicode マッピングアルゴリズムは Unicode<br />

値 を 決 定 するための 情 報 すべてを 使 うような 数 珠 つなぎのアルゴリ<br />

ズムを 実 装 しています。 問 題 を 抱 える 多 くの 文 書 に 対 して、 他 の 製<br />

品 が 使 い 物 にならないゴミしか 抽 出 できない 場 合 でも、<strong>TET</strong> は 適<br />

切 な Unicode テキストを 抽 出 します。<br />

破 損 した PDF<br />

変 換 エラーなどによって、PDF が 破 損 する 場 合 があります。<strong>TET</strong> の<br />

修 復 モードは PDF の 破 損 の 多 くを 復 元 します。PDF の 破 損 が 激 し<br />

く、Acrobat で 表 示 できないような 極 端 なケースにおいても、<strong>TET</strong><br />

はページ 内 容 を 抽 出 します。<br />

アラビア 語 やヘブライ 語 による 双 方 向 テキスト<br />

PDF は 論 理 的 なテキストをエンコードせずに、 単 純 にグリフとして<br />

内 包 しています。アラビア 語 やヘブライ 語 で 書 かれたテキストは 右<br />

から 左 に 進 みます。また、 数 字 や 欧 米 言 語 の 名 前 といった 右 から<br />

左 に 進 むテキストが 挿 入 される「bidirectinal」と 呼 ばれる 状 態 に<br />

なることもあり、 両 方 向 に 解 釈 しなければなりません。また 他 の 課<br />

題 として、アラビア 語 の 文 字 は 文 脈 によって 最 大 4 つの 形 をとるこ<br />

とがあげられます。このような 文 字 に 対 しては、 対 応 する 標 準 形 ( 独<br />

立 形 )に 正 規 化 する 必 要 があります。<br />

画 像 抽 出 に 挑 戦<br />

色 空 間 と 圧 縮<br />

PDF 内 のラスタ 画 像 データは、11 の 色 空 間 と 9 の 圧 縮 フィルタの<br />

任 意 の 組 み 合 わせでエンコードされている 可 能 性 がありますが、<br />

JPEG や TIFF など 一 般 的 な 画 像 ファイル 形 式 は、それらのサブセッ<br />

トしかサポートしていません。<strong>TET</strong> の 画 像 抽 出 は PDF 画 像 の 特 性<br />

と 出 力 形 式 の 機 能 のバランスを 慎 重 にとります。PDF 画 像 の 内 部<br />

構 造 に 関 係 なく、ピクセル 画 像 は、 共 通 の 画 像 ファイル 形 式 で 抽<br />

出 されます。<br />

画 像 の 結 合<br />

多 くの PDF 文 書 では、それを 作 ったソフトウェアによって、 中 の 画<br />

像 が 細 かく 分 解 されています。ページ 上 で 1 つの 画 像 として 見 えて<br />

いても、 実 は 数 百 ・ 数 千 の 断 片 の 寄 せ 集 めということがあります。<br />

とくに、Microsoft Office アプリケーションや TeX がこうした 文 書 を<br />

作 ることで 知 られています。<strong>TET</strong> は、 断 片 化 した 画 像 を 検 出 して 結<br />

合 し、 大 きく 利 用 可 能 な 画 像 として 復 元 します。このような 画 像 を<br />

利 用 するためには 結 合 は 必 須 の 処 理 といえます。<br />

* 本 機 能 は、 主 に 欧 文 処 理 を 対 象 としており、 日 本 語 処 理 については 制 限 が<br />

あります。


5 <strong>PDFlib</strong> <strong>TET</strong> <strong>4.1</strong>, 2012-02 <strong>PDFlib</strong> GmbH www.pdflib.com<br />

<strong>TET</strong> の 多 様 な 利 用 形 態<br />

<strong>TET</strong> は、 各 種 開 発 環 境 用 のプログラミングライブラリ(コンポーネ<br />

ント)としても、バッチ 処 理 向 けにコマンドラインツールとしても<br />

利 用 できます。 両 者 は 同 等 の 機 能 を 提 供 しますが、 実 装 目 的 に 応<br />

じて 使 い 分 けられます。<strong>TET</strong> ライブラリ 及 びコマンドラインツール<br />

共 に、<strong>TET</strong>ML(XML ベースの 出 力 形 式 )を 生 成 することができます。<br />

<strong>TET</strong> は 以 下 のように 使 い 分 けられます。<br />

>> <strong>TET</strong> プログラミングライブラリ(コンポーネント)は、デスクトッ<br />

プ 上 やサーバー 上 のアプリケーションに 組 み 込 んで 利 用 します。<br />

ライブラリの 使 用 例 は 製 品 に 添 付 されています。<br />

>> <strong>TET</strong> コマンドラインツールは PDF 文 書 のバッチ 処 理 に 適 していま<br />

す。プログラミングを 全 く 必 要 とせず、コマンドラインオプション<br />

による 処 理 を 複 雑 なワークフローに 組 み 込 むことができます。<br />

>> XSLT などさまざまな XML 処 理 ツールや 言 語 に 通 じた 開 発 者 で<br />

あれば、<strong>TET</strong>ML による 出 力 を 用 いて XML ベースのワークフロー<br />

を 実 現 することができます。<br />

>> <strong>TET</strong> コネクタはデータベースや 検 索 エンジンなどさまざまな 汎 用<br />

ソフトウェアパッケージに <strong>TET</strong> を 容 易 に 統 合 できます。<br />

<strong>TET</strong> ファミリー<br />

<strong>TET</strong> ファミリーには 以 下 の 製 品 があります。<br />

>> <strong>TET</strong> コア 製 品<br />

当 データシートで 述 べてきた 製 品 です。<br />

>> <strong>TET</strong> PDF IFilter<br />

Windows Search、SharePoint 、SQL Server などの Microsoft 社<br />

製 検 索 製 品 に 適 した 製 品 です。 詳 しくは <strong>TET</strong> PDF IFilter のデータ<br />

シートをご 覧 ください。<br />

>> <strong>TET</strong> Plugin<br />

Adobe Acrobat 用 のプラグインで、PDF からテキストや 画 像 の<br />

抽 出 を 無 償 行 えるユーティリティです。<strong>TET</strong> の 性 能 を 検 証 してい<br />

ただくことができます。<br />

対 応 開 発 環 境<br />

<strong>PDFlib</strong> <strong>TET</strong> is everywhere. <strong>TET</strong> は 事 実 上 、すべてのコンピューティ<br />

ングプラットフォーム 上 で 動 作 します。32 ビット /64 ビットバージョ<br />

ンの Windows をはじめ Mac OS X、Linux、Unix、さらに IBM i5/<br />

iSeries・zSeries メインフレーム 版 も 提 供 しています。また、iOS、<br />

Android、Windows Embedded Compact/CE などのモバイル 環 境<br />

版 も 提 供 しています。<br />

パフォーマンスの 最 大 化 を 図 りオーバーヘッドを 小 さくするため<br />

<strong>TET</strong> の 中 核 部 分 は 高 度 に 最 適 化 された C コードで 書 かれています。<br />

平 易 な API(アプリケーションプログラミングインタフェース)を 通<br />

じて、<strong>PDFlib</strong> の 機 能 は、 次 のようなさまざまな 開 発 環 境 から 利 用<br />

することができます。<br />

>> COM(VB・ASP・Borland Delphi 等 での 使 用 )<br />

>> C・C++<br />

>> Java(サーブレット・Java Application Server を 含 む)<br />

>> .NET(C#・VB.NET・ASP.NET 等 での 使 用 )<br />

>> Objective-C (Mac OS X・iOS)<br />

>> Perl<br />

>> PHP<br />

>> Python<br />

>> REALbasic<br />

>> RPG(IBM i5/iSeries)<br />

>> Ruby<br />

<strong>PDFlib</strong> の 特 長<br />

世 界 的 な 導 入 実 績 と 信 頼 性<br />

世 界 100 カ 国 以 上 で 20,000 ライセンスを 超 える 導 入 実 績 がある<br />

PDF 文 書 処 理 ライブラリの 定 番 ソフトウェアです。<br />

使 いやすい API を 提 供<br />

PDF の 詳 細 を 意 識 することなく、 製 品 ファミリーに 共 通 する 使 いや<br />

すいインタフェースや 操 作 性 で PDF 文 書 の 生 成 や 処 理 を 行 うことが<br />

できます。<br />

事 前 に 評 価 、 開 発 が 可 能<br />

<strong>PDFlib</strong> はダウンロードして 無 償 で 評 価 することができます。 評 価 版<br />

は 一 部 の 制 限 を 除 いて 製 品 の 全 機 能 を 使 用 でき、 納 得 いくまで 評<br />

価 した 後 で 購 入 することができます。<br />

効 率 的 で 安 定 した 動 作<br />

<strong>PDFlib</strong> は、コンパクトなコードとして 設 計 、 開 発 されており、 資 源<br />

消 費 やオーバーヘッドが 少 なく 高 速 かつ 安 定 的 に 動 作 します。また<br />

スレッドセーフな 設 計 のためマルチスレッド 環 境 でも 安 心 して 利 用<br />

することができます。<br />

リーズナブルな 価 格 体 系<br />

クライアント 数 に 依 存 せず 管 理 の 容 易 なシンプルかつリーズナブル<br />

な 価 格 のライセンス 体 系 でご 提 供 しています。<br />

総 合 的 な PDF 文 書 処 理 機 能 を 実 現<br />

<strong>PDFlib</strong>、PLOP、<strong>TET</strong>、pCOS の 併 用 により 総 合 的 な PDF 文 書 処 理<br />

を 実 現 できます。<br />

<strong>PDFlib</strong> GmbH について<br />

<strong>PDFlib</strong> の 開 発 元 である <strong>PDFlib</strong> GmbH は PDF テクノロジにフォーカ<br />

スしたドイツのソフトウェア 会 社 です。1997 年 に <strong>PDFlib</strong> を 発 表 し<br />

て 以 来 、 同 製 品 ファミリーの 充 実 を 図 り、PDF 関 連 技 術 の 最 新 動<br />

向 に 迅 速 に 対 応 しています。<br />

購 入 及 びお 問 い 合 わせ<br />

<strong>PDFlib</strong> のご 購 入 及 びお 問 い 合 わせは <strong>PDFlib</strong> GmbH まで。 評 価 版<br />

のダウンロードや <strong>PDFlib</strong> 技 術 情 報 の 入 手 も <strong>PDFlib</strong> GmbH のウェ<br />

ブサイトで 行 えます。お 見 積 りやその 他 ご 質 問 については 下 記 まで<br />

お 問 い 合 わせください。<br />

DEF<br />

<strong>PDFlib</strong> GmbH<br />

Franziska-Bilek-Weg 9,<br />

80339 München, Germany<br />

phone +49 • 89 • 452 33 84-0,<br />

fax +49 • 89 • 452 33 84-99<br />

sales@pdflib.com<br />

www.pdflib.com

Hooray! Your file is uploaded and ready to be published.

Saved successfully!

Ooh no, something went wrong!