17.05.2014 Views

PDFlib TET 4.1

PDFlib TET 4.1

PDFlib TET 4.1

SHOW MORE
SHOW LESS

You also want an ePaper? Increase the reach of your titles

YUMPU automatically turns print PDFs into web optimized ePapers that Google loves.

DEF<br />

製 品 ガイド<br />

<strong>PDFlib</strong> <strong>TET</strong> <strong>4.1</strong><br />

テキスト 抽 出 ツールキット<br />

<strong>PDFlib</strong> <strong>TET</strong> とは<br />

<strong>PDFlib</strong> Text Extrtaction Tool Kit(<strong>TET</strong>)は、PDF 文 書 からテキスト、<br />

画 像 、メタデータを 確 実 に 抽 出 します。<strong>TET</strong> を 利 用 すると、PDF の<br />

テキスト 内 容 を Unicode 文 字 列 として 取 得 することができるほか、<br />

グリフやフォントに 関 する 詳 しい 情 報 や、ページ 上 の 位 置 を 知 るこ<br />

とができます。ラスタ 画 像 は、 広 く 用 いられている 画 像 形 式 で 抽 出<br />

されます。<strong>TET</strong> は、<strong>TET</strong>ML という XML ベースの 書 式 を 実 装 してお<br />

り、 必 要 に 応 じ PDF 文 書 を <strong>TET</strong>ML 形 式 に 変 換 することができます。<br />

<strong>TET</strong>ML はテキストやメタデータに 加 えリソース 情 報 を 保 持 すること<br />

ができます。<br />

<strong>TET</strong> は、 高 度 な 内 容 分 析 アルゴリズムを 実 装 し、 単 語 境 界 の 検 出 、<br />

テキストの 段 組 認 識 、 冗 長 テキストの 除 去 などの 処 理 を 効 率 的 に<br />

実 現 します。また pCOS インタフェースにより、PDF からメタデー<br />

タやインタラクティブ 要 素 等 任 意 のオブジェクトを 抽 出 することがで<br />

きます。<br />

<strong>PDFlib</strong> <strong>TET</strong> の 利 用 例 :<br />

>> 検 索 エンジンの PDF 文 書 のインデクシング<br />

>> 既 存 PDF 文 書 内 のテキストや 画 像 の 再 利 用<br />

>> PDF 文 書 の 内 容 の 異 なる 形 式 への 変 換<br />

>> PDF 文 書 を 解 析 し、その 内 容 に 応 じて 異 なる 処 理 を 実 施 。<br />

例 えば、 見 出 しによる 文 書 の 分 割 (<strong>TET</strong> の 他 、<strong>PDFlib</strong>+PDI が 必<br />

要 となります)<br />

<strong>PDFlib</strong> <strong>TET</strong> の 機 能<br />

対 応 する PDF<br />

<strong>PDFlib</strong> <strong>TET</strong> は 様 々な PDF の 入 力 に 対 応 しています :<br />

>> ISO 32000-1 を 含 む、Acrobat X までのすべての PDF バージョン<br />

>> 表 示 用 パスワードを 必 要 としない 暗 号 化 された PDF<br />

>> 破 損 した PDF 文 書 も 修 復<br />

Unicode<br />

PDF 内 のテキストは 通 常 、Unicode でエンコードされていないので、<br />

<strong>PDFlib</strong> <strong>TET</strong> は PDF 文 書 内 のテキストを、 次 のように Unicode によ<br />

り 正 規 化 します。<br />

>> <strong>TET</strong> は、すべてのテキストコンテンツを Unicode へ 変 換 します。<br />

C などの Unicode 非 対 応 言 語 では、テキストは UTF-8 または<br />

UTF-16 形 式 で 返 され、Unicode 対 応 のプログラミング 言 語 では、<br />

ネイティブ 文 字 列 として 返 されます。<br />

>> 合 字 などの 複 数 文 字 グリフは、 対 応 する Unicode 文 字 列 に 分 解<br />

します。<br />

>> 適 切 な Unicode マッピングのないグリフを 認 識 した 場 合 、 誤 解<br />

釈 防 止 のため 設 定 可 能 な 置 き 換 えキャラクタへマップします。<br />

>> InDesign や TeX の 文 書 或 いはメインフレームシステム 上 で 生 成<br />

された PDF など 特 定 の 文 書 作 成 環 境 に 起 因 する 問 題 に 対 して<br />

<strong>TET</strong> ではさまざまな 回 避 策 を 実 装 しています。<br />

内 容 分 析 と 単 語 の 検 出 *<br />

<strong>TET</strong> は、 次 のような 高 度 な 分 析 アルゴリズムを 有 しています。<br />

>> 適 切 な 単 語 抽 出 に 必 須 の 単 語 境 界 決 定 アルゴリズム( 特 許 技 術 )<br />

>> ハイフネーションされた 単 語 の 各 部 分 の 再 結 合 (デハイフネー<br />

ション)<br />

>> 影 付 きや 太 字 化 等 のテキストの 重 複 インスタンスの 除 去<br />

>> 段 落 の 読 み 順 による 再 結 合<br />

>> ページ 上 に 分 散 したテキストを 正 しい 順 序 に 並 べ 替 え<br />

ページレイアウトと 表 組 みの 検 出 *<br />

ページ 内 容 を 分 析 し、 段 組 を 割 り 出 します。 複 数 列 をまたぐセルも<br />

含 め 表 組 みを 検 出 します。 本 処 理 により 抽 出 テキストの 順 序 の 決 定<br />

が 容 易 になり、 表 の 行 や 各 表 のセルの 内 容 を 特 定 することができ<br />

ます。<br />

幾 何 情 報<br />

<strong>TET</strong> は、ページ 上 の 位 置 、グリフの 幅 、テキストの 向 きなど、テキ<br />

ストの 正 確 な 幾 何 情 報 を 提 供 します。ページの 特 定 の 領 域 を 指 定<br />

してテキスト 抽 出 の 対 象 から 除 外 したり、 逆 に 指 定 部 分 のみからテ<br />

キスト 抽 出 することができます。たとえばヘッダー、フッターや 余 白<br />

を 除 外 することができます。<br />

画 像 抽 出<br />

PDF ページ 上 の 画 像 を、TIFF、JPEG または JPEG 2000 ファイルと<br />

して 抽 出 できます。 各 画 像 について、 正 確 な 幾 何 情 報 ( 位 置 、 寸<br />

法 及 び 角 度 )を 取 得 できます。 分 割 されている 画 像 を 大 きな 画 像<br />

に 結 合 して 再 利 用 することができます。ダウンサンプリングや 色 空<br />

間 の 変 換 は 行 われないので、 画 像 の 忠 実 度 が 保 証 され、 最 高 の 画<br />

像 品 質 が 保 証 されます。<br />

PDF の 分 析<br />

<strong>TET</strong> ライブラリには pCOS インタフェースが 含 まれ、PDF 文 書 の 文<br />

書 情 報 、XMP メタデータ、フォントリストやページ 寸 法 などさまざ<br />

まな 詳 細 情 報 を 取 得 できます。(pCOS 製 品 については pCOS のデー<br />

タシートを 参 照 してください)<br />

* 本 機 能 は、 主 に 欧 文 処 理 を 対 象 としており、 日 本 語 処 理 については 制 限 が<br />

あります。


2 <strong>PDFlib</strong> <strong>TET</strong> <strong>4.1</strong>, 2012-02 <strong>PDFlib</strong> GmbH www.pdflib.com<br />

問 題 を 含 む PDF に 対 するオプション 設 定<br />

<strong>TET</strong> は、 他 の 製 品 では 正 しくテキストを 抽 出 できないようなさまざ<br />

まな 種 類 の PDF に 対 して、 特 殊 な 処 理 や 回 避 策 を 実 現 します。さ<br />

らに、 問 題 文 書 の 処 理 を 改 善 するためのさまざまな 設 定 機 能 を 備<br />

えています。<br />

>> 文 字 コードまたはグリフ 名 を Unicode へマッピングするテーブル<br />

をユーザーが 設 定 することによって、Unicode マッピングをカス<br />

タマイズすることができます。<br />

>> <strong>PDFlib</strong> FontReporter は、PDF 内 のフォント、エンコーディング<br />

及 びグリフを 分 析 する 補 助 ツールで、Adobe Acrobat のプラグイ<br />

ンとして 動 作 します。このプラグインには Mac 版 と Windows 版<br />

があり、 無 料 で 使 用 できます。<br />

>> Unicode マッピングに 有 効 な 情 報 を 得 るために 埋 め 込 みフォント<br />

を 解 析 します。フォントが 埋 め 込 まれていないときは、 外 部 フォ<br />

ントファイルまたはシステムフォントを 用 い、テキスト 抽 出 結 果 を<br />

改 善 します。<br />

Unicode への 後 処 理<br />

<strong>TET</strong> は Unicode への 様 々な 後 処 理 をサポートし、より 良 い 抽 出 結<br />

果 が 得 られるようにします。<br />

>> フォルディングは 文 字 の 保 持 や 削 除 、 置 換 を 行 います。 例 えば、<br />

検 索 と 無 関 係 な 句 読 点 や 不 要 な 文 字 を 削 除 します。<br />

>> デコンポジッションは 文 字 を 一 字 ないし 複 数 の 等 価 な 文 字 に 置 き<br />

換 えます。 例 えば、 和 文 の 半 角 ・ 全 角 キャラクタや 英 字 の 上 付 き<br />

形 (ª 等 )を、 標 準 的 で 等 価 な Unicode 文 字 に 置 き 換 えます。<br />

>> 正 規 化 はテキストをすべて 4 バイトの Unicode に 変 換 します。<br />

例 えば、Web テキストやデータベースの 要 件 に 合 うように NFC<br />

形 式 で 出 力 します。<br />

文 書 の 領 域<br />

PDF 文 書 では、ページコンテンツ 以 外 の 場 所 にもテキストがありま<br />

す。 多 くのアプリケーションはページコンテンツしか 扱 いませんが、<br />

文 書 のその 他 の 領 域 が 必 要 な 場 面 も 多 くあります。<strong>TET</strong> は、 以 下 の<br />

文 書 領 域 全 てからテキストを 抽 出 することができます。<br />

>> ページコンテンツ<br />

>> 定 義 済 み 及 びカスタム 文 書 情 報 項 目<br />

>> 文 書 と 画 像 レベルの XMP メタデータ<br />

>>しおり<br />

>> ファイル 添 付 と PDF ポートフォリオの 再 帰 的 処 理<br />

>> フォームフィールド<br />

>> コメント( 注 釈 )<br />

>> ページ 数 や PDF/A・PDF/X 等 標 準 への 準 拠 状 態 など 一 般 的 PDF<br />

プロパティ<br />

XMP メタデータ<br />

<strong>TET</strong> は、 以 下 のような 形 式 で XMP メタデータをサポートしています。<br />

>> 内 蔵 pCOS インタフェースを 用 い、 文 書 、 各 ページ、 画 像 また<br />

は 文 書 のその 他 部 分 の XMP メタデータをプログラムにより 抽 出<br />

する。<br />

>> XMP 文 書 や 画 像 メタデータが PDF 文 書 内 に 存 在 する 場 合 には<br />

<strong>TET</strong>ML 出 力 にこれを 含 める。<br />

>> 画 像 メタデータが PDF 文 書 内 に 存 在 する 場 合 には TIFF または<br />

JPEG 形 式 で 抽 出 された 画 像 にこれを 含 む。<br />

<strong>TET</strong>ML:PDF 内 容 を XML で 表 現<br />

<strong>TET</strong> では、PDF コンテンツを <strong>TET</strong>ML という 一 種 の XML で 表 現 す<br />

ることができます。<strong>TET</strong>ML で 表 現 されたさまざまな PDF 情 報 は 広<br />

く 用 いられている XML ツールで 容 易 に 処 理 することができます。<br />

<strong>TET</strong>ML にはテキスト 本 体 のほか、フォント、 位 置 情 報 、 画 像 ・カラー<br />

スペースなどリソースの 詳 細 及 びメタデータを 含 めることができま<br />

す。<br />

<strong>TET</strong>ML は、 対 応 する XML スキーマに 規 定 されており、<strong>TET</strong> はつねに、<br />

一 貫 性 と 信 頼 性 を 具 えた XML 出 力 を 生 成 します。フィルタリングや<br />

書 式 の 変 換 などのために XSLT スタイルシートで <strong>TET</strong>ML を 処 理 す<br />

ることも 可 能 です。<strong>TET</strong> には、<strong>TET</strong>ML を 処 理 するサンプル XSLT ス<br />

タイルシートが 添 付 されています。<br />

以 下 に 示 すのはグリフの 詳 細 の 一 部 を <strong>TET</strong>ML で 表 したものです。<br />

<br />

<strong>PDFlib</strong><br />

<br />

P<br />

D<br />

F<br />

l<br />

i<br />

b<br />

<br />

<br />

<strong>TET</strong> コネクタ<br />

<strong>TET</strong> コネクタは、<strong>TET</strong> を 他 のソフトウェアと 連 携 するのに 必 要 な 接<br />

続 用 プログラムです。 以 下 の <strong>TET</strong> コネクタにより、PDF テキスト 抽<br />

出 機 能 が 各 種 ソフトウェア 環 境 で 利 用 可 能 になります。<br />

>> Lucene 検 索 エンジン 用 <strong>TET</strong> コネクタ<br />

>> Solr 検 索 サーバ 用 <strong>TET</strong> コネクタ<br />

>> TIKA toolkit 用 <strong>TET</strong> コネクタ<br />

>> Oracle Text 用 <strong>TET</strong> コネクタ<br />

>> MediaWiki 用 <strong>TET</strong> コネクタ<br />

>> Microsoft 社 製 品 用 には、<strong>PDFlib</strong> <strong>TET</strong> PDF IFilter をお 使 いくださ<br />

い。PDF 文 書 からテキストとメタデータを 抽 出 し、Windows 上<br />

の 検 索 ・ 抽 出 ソフトウェアでの 利 用 を 可 能 にします( 詳 しくは<br />

<strong>PDFlib</strong> <strong>TET</strong> PDF IFilter のデータシートをご 覧 下 さい)<br />

<strong>TET</strong> クックブック<br />

<strong>TET</strong> クックブックは、さまざまなテキスト・ 画 像 抽 出 タスクにおける<br />

<strong>TET</strong> の 使 用 法 を 示 したプログラミング 作 成 例 集 です。ページ 上 のテ<br />

キストに 応 じてしおりやリンクを 追 加 するなど、<strong>TET</strong> と <strong>PDFlib</strong>+PDI<br />

を 組 み 合 わせて PDF 文 書 を 改 良 する 方 法 を 示 したサンプルもあり<br />

ます。


3 <strong>PDFlib</strong> <strong>TET</strong> <strong>4.1</strong>, 2012-02 <strong>PDFlib</strong> GmbH www.pdflib.com<br />

PDF からテキストの 抽 出 に 挑 戦 *<br />

ハイフンの 除 去<br />

<strong>TET</strong> は、 複 数 行 にわたるハイフネーションされた 単 語 を 検 出 してハ<br />

イフンを 除 去 し、 部 分 どうしを 結 合 して 単 語 を 復 元 します。これは、<br />

文 書 内 で 単 語 がハイフンで 分 割 されていても 単 語 が 正 しく 検 索 にか<br />

かるようにするための 重 要 な 処 理 です。ハイフンと 異 なるダッシュ<br />

は 除 去 しないよう 区 別 して 扱 われます。<br />

ハイフンは 除 去 されますが、ダッシュは 温 存 されます<br />

他 製 品 による 抽 出 結 果 :「Inttrroduccttiion」<br />

<strong>TET</strong> による 抽 出 結 果 :「Introduction」<br />

他 製 品 による 抽 出 結 果 :「Midi-Pyr´en´ees」<br />

<strong>TET</strong> による 抽 出 結 果 :「Midi-Pyrénées」<br />

他 製 品 による 抽 出 結 果 :「 e rst photographs」<br />

<strong>TET</strong> による 抽 出 結 果 :「The first photographs」<br />

影 付 き・ 太 字 テキストの 検 出<br />

電 子 文 書 では 影 付 きテキストがよく 使 われますが、これは、 同 じ<br />

テキストを 少 しずらして 複 数 回 ページ 上 に 配 置 することで 影 付 き 効<br />

果 を 得 ています。 同 様 に 太 字 テキストもたいていは、 同 じテキスト<br />

を 複 数 個 重 ねることで 太 字 に 見 せかけています。その 結 果 、 影 付<br />

きや 太 字 の 箇 所 のキャラクタは、 文 書 内 に 複 数 個 含 まれています。<br />

<strong>TET</strong> の 影 付 き 検 出 アルゴリズム( 特 許 取 得 済 )は、 重 複 したテキ<br />

ストを 特 定 して 除 去 することで、 余 分 なテキスト 抽 出 を 防 止 します。<br />

他 のソフトウェアでは、 影 付 きや 太 字 は 重 複 して 抽 出 されてしまい<br />

ますが、<strong>TET</strong> では 重 複 が 正 しく 除 去 されます。 単 語 全 体 が 重 複 して<br />

いるなら 検 索 エンジンでヒットしますが、 例 のように 文 字 毎 に 重 複<br />

してるケースでは 検 索 結 果 に 含 まれないことになります。<br />

アクセント 付 きキャラクタ<br />

多 くの 言 語 では、アクセント 等 の 発 音 区 別 記 号 を 他 キャラクタのそ<br />

ばに 配 して 合 成 キャラクタを 形 成 します。TeX に 代 表 される 特 定 の<br />

組 版 ソフトウェアではベースキャラクタとアクセントの 2 つのキャラ<br />

クタを 別 々に 出 力 し、 合 成 キャラクタを 作 るものがあります。たと<br />

えばキャラクタ ä を 作 るには、まず 文 字 a をページ 上 に 配 置 し、そ<br />

の 頭 に 分 音 記 号 ¨を 配 置 します。<strong>TET</strong> はこうした 状 況 を 検 出 し、2<br />

つのキャラクタを 再 合 成 して 適 切 な 合 成 キャラクタを 復 元 します。<br />

合 字<br />

合 字 は、 複 数 のキャラクタを 1 つのグリフに 合 体 したものです。よ<br />

く 見 られる 合 字 は fi・fl・ffi ですが、ほかにも Th・sp・ct・st 等 あま<br />

り 目 にしない 合 字 が 数 多 くあります。 電 子 文 書 からテキストを 抽 出<br />

する 際 には、 合 字 を 分 析 してキャラクタ 列 に 分 解 することで、 適 切<br />

なテキスト 処 理 を 可 能 にする 必 要 があります。<strong>TET</strong> は 合 字 を 検 出 し、<br />

適 切 な 複 数 キャラクタとして 出 力 します。<br />

ドロップキャップ<br />

ドロップキャップは、 一 番 初 めの 段 落 の 一 文 字 目 を 大 きな 文 字 で<br />

表 現 したものです。ドロップキャップは 段 落 の 開 始 を 強 調 したいと<br />

きによく 使 います。ドロップキャップを 適 切 に 扱 わないと、 単 語 の<br />

一 文 字 目 とそれ 以 降 の 文 字 を 別 々の 単 語 として 抽 出 してしまうでしょ<br />

う。<br />

他 製 品 による 抽 出 結 果 :「S」と「tellen」の 2 単 語<br />

<strong>TET</strong> による 抽 出 結 果 :「Stellen」の 1 単 語<br />

* 本 機 能 は、 主 に 欧 文 処 理 を 対 象 としており、 日 本 語 処 理 については 制 限 が<br />

あります。


4 <strong>PDFlib</strong> <strong>TET</strong> <strong>4.1</strong>, 2012-02 <strong>PDFlib</strong> GmbH www.pdflib.com<br />

テキストの 抽 出 に 挑 戦 *<br />

他 製 品 では 使 い 物 にならないゴミを 抽 出 しますが、<strong>TET</strong> ではテキス<br />

トを 抽 出 します<br />

Acrobat でページ 内 容 を 表 示 できない 場 合 でも、<strong>TET</strong> なら 正 確 に<br />

文 字 を 抽 出 します<br />

<strong>TET</strong> は 左 向 きのテキストと 右 向 きのテキストが 混 在 している 場 合 で<br />

も、 正 しい 順 序 に 並 び 替 えます<br />

他 製 品 による 抽 出 結 果 : 細 切 れの 画 像 133 個<br />

<strong>TET</strong> による 抽 出 結 果 : 大 きな 画 像 1 つ<br />

Unicode マッピング<br />

Unicode マッピングは PDF からテキストを 抽 出 するための 基 礎 で<br />

あり、グリフごとに 対 応 する Unicode 値 を 割 り 当 てなければなりま<br />

せん。PDF は 様 々なフォントやエンコーディングをサポートしてお<br />

り、 中 には 適 切 な Unicode を 割 り 当 てるための 情 報 を 持 たないも<br />

のもあるため、Unicode マッピングは 複 雑 な 作 業 です。 最 悪 の 場 合 、<br />

PDF 文 書 から 使 い 物 にならないテキストしか 抽 出 できず、 十 分 な<br />

情 報 が 得 られない 場 合 もあります。<br />

<strong>TET</strong> の 特 許 技 術 である Unicode マッピングアルゴリズムは Unicode<br />

値 を 決 定 するための 情 報 すべてを 使 うような 数 珠 つなぎのアルゴリ<br />

ズムを 実 装 しています。 問 題 を 抱 える 多 くの 文 書 に 対 して、 他 の 製<br />

品 が 使 い 物 にならないゴミしか 抽 出 できない 場 合 でも、<strong>TET</strong> は 適<br />

切 な Unicode テキストを 抽 出 します。<br />

破 損 した PDF<br />

変 換 エラーなどによって、PDF が 破 損 する 場 合 があります。<strong>TET</strong> の<br />

修 復 モードは PDF の 破 損 の 多 くを 復 元 します。PDF の 破 損 が 激 し<br />

く、Acrobat で 表 示 できないような 極 端 なケースにおいても、<strong>TET</strong><br />

はページ 内 容 を 抽 出 します。<br />

アラビア 語 やヘブライ 語 による 双 方 向 テキスト<br />

PDF は 論 理 的 なテキストをエンコードせずに、 単 純 にグリフとして<br />

内 包 しています。アラビア 語 やヘブライ 語 で 書 かれたテキストは 右<br />

から 左 に 進 みます。また、 数 字 や 欧 米 言 語 の 名 前 といった 右 から<br />

左 に 進 むテキストが 挿 入 される「bidirectinal」と 呼 ばれる 状 態 に<br />

なることもあり、 両 方 向 に 解 釈 しなければなりません。また 他 の 課<br />

題 として、アラビア 語 の 文 字 は 文 脈 によって 最 大 4 つの 形 をとるこ<br />

とがあげられます。このような 文 字 に 対 しては、 対 応 する 標 準 形 ( 独<br />

立 形 )に 正 規 化 する 必 要 があります。<br />

画 像 抽 出 に 挑 戦<br />

色 空 間 と 圧 縮<br />

PDF 内 のラスタ 画 像 データは、11 の 色 空 間 と 9 の 圧 縮 フィルタの<br />

任 意 の 組 み 合 わせでエンコードされている 可 能 性 がありますが、<br />

JPEG や TIFF など 一 般 的 な 画 像 ファイル 形 式 は、それらのサブセッ<br />

トしかサポートしていません。<strong>TET</strong> の 画 像 抽 出 は PDF 画 像 の 特 性<br />

と 出 力 形 式 の 機 能 のバランスを 慎 重 にとります。PDF 画 像 の 内 部<br />

構 造 に 関 係 なく、ピクセル 画 像 は、 共 通 の 画 像 ファイル 形 式 で 抽<br />

出 されます。<br />

画 像 の 結 合<br />

多 くの PDF 文 書 では、それを 作 ったソフトウェアによって、 中 の 画<br />

像 が 細 かく 分 解 されています。ページ 上 で 1 つの 画 像 として 見 えて<br />

いても、 実 は 数 百 ・ 数 千 の 断 片 の 寄 せ 集 めということがあります。<br />

とくに、Microsoft Office アプリケーションや TeX がこうした 文 書 を<br />

作 ることで 知 られています。<strong>TET</strong> は、 断 片 化 した 画 像 を 検 出 して 結<br />

合 し、 大 きく 利 用 可 能 な 画 像 として 復 元 します。このような 画 像 を<br />

利 用 するためには 結 合 は 必 須 の 処 理 といえます。<br />

* 本 機 能 は、 主 に 欧 文 処 理 を 対 象 としており、 日 本 語 処 理 については 制 限 が<br />

あります。


5 <strong>PDFlib</strong> <strong>TET</strong> <strong>4.1</strong>, 2012-02 <strong>PDFlib</strong> GmbH www.pdflib.com<br />

<strong>TET</strong> の 多 様 な 利 用 形 態<br />

<strong>TET</strong> は、 各 種 開 発 環 境 用 のプログラミングライブラリ(コンポーネ<br />

ント)としても、バッチ 処 理 向 けにコマンドラインツールとしても<br />

利 用 できます。 両 者 は 同 等 の 機 能 を 提 供 しますが、 実 装 目 的 に 応<br />

じて 使 い 分 けられます。<strong>TET</strong> ライブラリ 及 びコマンドラインツール<br />

共 に、<strong>TET</strong>ML(XML ベースの 出 力 形 式 )を 生 成 することができます。<br />

<strong>TET</strong> は 以 下 のように 使 い 分 けられます。<br />

>> <strong>TET</strong> プログラミングライブラリ(コンポーネント)は、デスクトッ<br />

プ 上 やサーバー 上 のアプリケーションに 組 み 込 んで 利 用 します。<br />

ライブラリの 使 用 例 は 製 品 に 添 付 されています。<br />

>> <strong>TET</strong> コマンドラインツールは PDF 文 書 のバッチ 処 理 に 適 していま<br />

す。プログラミングを 全 く 必 要 とせず、コマンドラインオプション<br />

による 処 理 を 複 雑 なワークフローに 組 み 込 むことができます。<br />

>> XSLT などさまざまな XML 処 理 ツールや 言 語 に 通 じた 開 発 者 で<br />

あれば、<strong>TET</strong>ML による 出 力 を 用 いて XML ベースのワークフロー<br />

を 実 現 することができます。<br />

>> <strong>TET</strong> コネクタはデータベースや 検 索 エンジンなどさまざまな 汎 用<br />

ソフトウェアパッケージに <strong>TET</strong> を 容 易 に 統 合 できます。<br />

<strong>TET</strong> ファミリー<br />

<strong>TET</strong> ファミリーには 以 下 の 製 品 があります。<br />

>> <strong>TET</strong> コア 製 品<br />

当 データシートで 述 べてきた 製 品 です。<br />

>> <strong>TET</strong> PDF IFilter<br />

Windows Search、SharePoint 、SQL Server などの Microsoft 社<br />

製 検 索 製 品 に 適 した 製 品 です。 詳 しくは <strong>TET</strong> PDF IFilter のデータ<br />

シートをご 覧 ください。<br />

>> <strong>TET</strong> Plugin<br />

Adobe Acrobat 用 のプラグインで、PDF からテキストや 画 像 の<br />

抽 出 を 無 償 行 えるユーティリティです。<strong>TET</strong> の 性 能 を 検 証 してい<br />

ただくことができます。<br />

対 応 開 発 環 境<br />

<strong>PDFlib</strong> <strong>TET</strong> is everywhere. <strong>TET</strong> は 事 実 上 、すべてのコンピューティ<br />

ングプラットフォーム 上 で 動 作 します。32 ビット /64 ビットバージョ<br />

ンの Windows をはじめ Mac OS X、Linux、Unix、さらに IBM i5/<br />

iSeries・zSeries メインフレーム 版 も 提 供 しています。また、iOS、<br />

Android、Windows Embedded Compact/CE などのモバイル 環 境<br />

版 も 提 供 しています。<br />

パフォーマンスの 最 大 化 を 図 りオーバーヘッドを 小 さくするため<br />

<strong>TET</strong> の 中 核 部 分 は 高 度 に 最 適 化 された C コードで 書 かれています。<br />

平 易 な API(アプリケーションプログラミングインタフェース)を 通<br />

じて、<strong>PDFlib</strong> の 機 能 は、 次 のようなさまざまな 開 発 環 境 から 利 用<br />

することができます。<br />

>> COM(VB・ASP・Borland Delphi 等 での 使 用 )<br />

>> C・C++<br />

>> Java(サーブレット・Java Application Server を 含 む)<br />

>> .NET(C#・VB.NET・ASP.NET 等 での 使 用 )<br />

>> Objective-C (Mac OS X・iOS)<br />

>> Perl<br />

>> PHP<br />

>> Python<br />

>> REALbasic<br />

>> RPG(IBM i5/iSeries)<br />

>> Ruby<br />

<strong>PDFlib</strong> の 特 長<br />

世 界 的 な 導 入 実 績 と 信 頼 性<br />

世 界 100 カ 国 以 上 で 20,000 ライセンスを 超 える 導 入 実 績 がある<br />

PDF 文 書 処 理 ライブラリの 定 番 ソフトウェアです。<br />

使 いやすい API を 提 供<br />

PDF の 詳 細 を 意 識 することなく、 製 品 ファミリーに 共 通 する 使 いや<br />

すいインタフェースや 操 作 性 で PDF 文 書 の 生 成 や 処 理 を 行 うことが<br />

できます。<br />

事 前 に 評 価 、 開 発 が 可 能<br />

<strong>PDFlib</strong> はダウンロードして 無 償 で 評 価 することができます。 評 価 版<br />

は 一 部 の 制 限 を 除 いて 製 品 の 全 機 能 を 使 用 でき、 納 得 いくまで 評<br />

価 した 後 で 購 入 することができます。<br />

効 率 的 で 安 定 した 動 作<br />

<strong>PDFlib</strong> は、コンパクトなコードとして 設 計 、 開 発 されており、 資 源<br />

消 費 やオーバーヘッドが 少 なく 高 速 かつ 安 定 的 に 動 作 します。また<br />

スレッドセーフな 設 計 のためマルチスレッド 環 境 でも 安 心 して 利 用<br />

することができます。<br />

リーズナブルな 価 格 体 系<br />

クライアント 数 に 依 存 せず 管 理 の 容 易 なシンプルかつリーズナブル<br />

な 価 格 のライセンス 体 系 でご 提 供 しています。<br />

総 合 的 な PDF 文 書 処 理 機 能 を 実 現<br />

<strong>PDFlib</strong>、PLOP、<strong>TET</strong>、pCOS の 併 用 により 総 合 的 な PDF 文 書 処 理<br />

を 実 現 できます。<br />

<strong>PDFlib</strong> GmbH について<br />

<strong>PDFlib</strong> の 開 発 元 である <strong>PDFlib</strong> GmbH は PDF テクノロジにフォーカ<br />

スしたドイツのソフトウェア 会 社 です。1997 年 に <strong>PDFlib</strong> を 発 表 し<br />

て 以 来 、 同 製 品 ファミリーの 充 実 を 図 り、PDF 関 連 技 術 の 最 新 動<br />

向 に 迅 速 に 対 応 しています。<br />

購 入 及 びお 問 い 合 わせ<br />

<strong>PDFlib</strong> のご 購 入 及 びお 問 い 合 わせは <strong>PDFlib</strong> GmbH まで。 評 価 版<br />

のダウンロードや <strong>PDFlib</strong> 技 術 情 報 の 入 手 も <strong>PDFlib</strong> GmbH のウェ<br />

ブサイトで 行 えます。お 見 積 りやその 他 ご 質 問 については 下 記 まで<br />

お 問 い 合 わせください。<br />

DEF<br />

<strong>PDFlib</strong> GmbH<br />

Franziska-Bilek-Weg 9,<br />

80339 München, Germany<br />

phone +49 • 89 • 452 33 84-0,<br />

fax +49 • 89 • 452 33 84-99<br />

sales@pdflib.com<br />

www.pdflib.com

Hooray! Your file is uploaded and ready to be published.

Saved successfully!

Ooh no, something went wrong!