You also want an ePaper? Increase the reach of your titles
YUMPU automatically turns print PDFs into web optimized ePapers that Google loves.
DEF<br />
製 品 ガイド<br />
<strong>PDFlib</strong> <strong>TET</strong> <strong>4.1</strong><br />
テキスト 抽 出 ツールキット<br />
<strong>PDFlib</strong> <strong>TET</strong> とは<br />
<strong>PDFlib</strong> Text Extrtaction Tool Kit(<strong>TET</strong>)は、PDF 文 書 からテキスト、<br />
画 像 、メタデータを 確 実 に 抽 出 します。<strong>TET</strong> を 利 用 すると、PDF の<br />
テキスト 内 容 を Unicode 文 字 列 として 取 得 することができるほか、<br />
グリフやフォントに 関 する 詳 しい 情 報 や、ページ 上 の 位 置 を 知 るこ<br />
とができます。ラスタ 画 像 は、 広 く 用 いられている 画 像 形 式 で 抽 出<br />
されます。<strong>TET</strong> は、<strong>TET</strong>ML という XML ベースの 書 式 を 実 装 してお<br />
り、 必 要 に 応 じ PDF 文 書 を <strong>TET</strong>ML 形 式 に 変 換 することができます。<br />
<strong>TET</strong>ML はテキストやメタデータに 加 えリソース 情 報 を 保 持 すること<br />
ができます。<br />
<strong>TET</strong> は、 高 度 な 内 容 分 析 アルゴリズムを 実 装 し、 単 語 境 界 の 検 出 、<br />
テキストの 段 組 認 識 、 冗 長 テキストの 除 去 などの 処 理 を 効 率 的 に<br />
実 現 します。また pCOS インタフェースにより、PDF からメタデー<br />
タやインタラクティブ 要 素 等 任 意 のオブジェクトを 抽 出 することがで<br />
きます。<br />
<strong>PDFlib</strong> <strong>TET</strong> の 利 用 例 :<br />
>> 検 索 エンジンの PDF 文 書 のインデクシング<br />
>> 既 存 PDF 文 書 内 のテキストや 画 像 の 再 利 用<br />
>> PDF 文 書 の 内 容 の 異 なる 形 式 への 変 換<br />
>> PDF 文 書 を 解 析 し、その 内 容 に 応 じて 異 なる 処 理 を 実 施 。<br />
例 えば、 見 出 しによる 文 書 の 分 割 (<strong>TET</strong> の 他 、<strong>PDFlib</strong>+PDI が 必<br />
要 となります)<br />
<strong>PDFlib</strong> <strong>TET</strong> の 機 能<br />
対 応 する PDF<br />
<strong>PDFlib</strong> <strong>TET</strong> は 様 々な PDF の 入 力 に 対 応 しています :<br />
>> ISO 32000-1 を 含 む、Acrobat X までのすべての PDF バージョン<br />
>> 表 示 用 パスワードを 必 要 としない 暗 号 化 された PDF<br />
>> 破 損 した PDF 文 書 も 修 復<br />
Unicode<br />
PDF 内 のテキストは 通 常 、Unicode でエンコードされていないので、<br />
<strong>PDFlib</strong> <strong>TET</strong> は PDF 文 書 内 のテキストを、 次 のように Unicode によ<br />
り 正 規 化 します。<br />
>> <strong>TET</strong> は、すべてのテキストコンテンツを Unicode へ 変 換 します。<br />
C などの Unicode 非 対 応 言 語 では、テキストは UTF-8 または<br />
UTF-16 形 式 で 返 され、Unicode 対 応 のプログラミング 言 語 では、<br />
ネイティブ 文 字 列 として 返 されます。<br />
>> 合 字 などの 複 数 文 字 グリフは、 対 応 する Unicode 文 字 列 に 分 解<br />
します。<br />
>> 適 切 な Unicode マッピングのないグリフを 認 識 した 場 合 、 誤 解<br />
釈 防 止 のため 設 定 可 能 な 置 き 換 えキャラクタへマップします。<br />
>> InDesign や TeX の 文 書 或 いはメインフレームシステム 上 で 生 成<br />
された PDF など 特 定 の 文 書 作 成 環 境 に 起 因 する 問 題 に 対 して<br />
<strong>TET</strong> ではさまざまな 回 避 策 を 実 装 しています。<br />
内 容 分 析 と 単 語 の 検 出 *<br />
<strong>TET</strong> は、 次 のような 高 度 な 分 析 アルゴリズムを 有 しています。<br />
>> 適 切 な 単 語 抽 出 に 必 須 の 単 語 境 界 決 定 アルゴリズム( 特 許 技 術 )<br />
>> ハイフネーションされた 単 語 の 各 部 分 の 再 結 合 (デハイフネー<br />
ション)<br />
>> 影 付 きや 太 字 化 等 のテキストの 重 複 インスタンスの 除 去<br />
>> 段 落 の 読 み 順 による 再 結 合<br />
>> ページ 上 に 分 散 したテキストを 正 しい 順 序 に 並 べ 替 え<br />
ページレイアウトと 表 組 みの 検 出 *<br />
ページ 内 容 を 分 析 し、 段 組 を 割 り 出 します。 複 数 列 をまたぐセルも<br />
含 め 表 組 みを 検 出 します。 本 処 理 により 抽 出 テキストの 順 序 の 決 定<br />
が 容 易 になり、 表 の 行 や 各 表 のセルの 内 容 を 特 定 することができ<br />
ます。<br />
幾 何 情 報<br />
<strong>TET</strong> は、ページ 上 の 位 置 、グリフの 幅 、テキストの 向 きなど、テキ<br />
ストの 正 確 な 幾 何 情 報 を 提 供 します。ページの 特 定 の 領 域 を 指 定<br />
してテキスト 抽 出 の 対 象 から 除 外 したり、 逆 に 指 定 部 分 のみからテ<br />
キスト 抽 出 することができます。たとえばヘッダー、フッターや 余 白<br />
を 除 外 することができます。<br />
画 像 抽 出<br />
PDF ページ 上 の 画 像 を、TIFF、JPEG または JPEG 2000 ファイルと<br />
して 抽 出 できます。 各 画 像 について、 正 確 な 幾 何 情 報 ( 位 置 、 寸<br />
法 及 び 角 度 )を 取 得 できます。 分 割 されている 画 像 を 大 きな 画 像<br />
に 結 合 して 再 利 用 することができます。ダウンサンプリングや 色 空<br />
間 の 変 換 は 行 われないので、 画 像 の 忠 実 度 が 保 証 され、 最 高 の 画<br />
像 品 質 が 保 証 されます。<br />
PDF の 分 析<br />
<strong>TET</strong> ライブラリには pCOS インタフェースが 含 まれ、PDF 文 書 の 文<br />
書 情 報 、XMP メタデータ、フォントリストやページ 寸 法 などさまざ<br />
まな 詳 細 情 報 を 取 得 できます。(pCOS 製 品 については pCOS のデー<br />
タシートを 参 照 してください)<br />
* 本 機 能 は、 主 に 欧 文 処 理 を 対 象 としており、 日 本 語 処 理 については 制 限 が<br />
あります。
2 <strong>PDFlib</strong> <strong>TET</strong> <strong>4.1</strong>, 2012-02 <strong>PDFlib</strong> GmbH www.pdflib.com<br />
問 題 を 含 む PDF に 対 するオプション 設 定<br />
<strong>TET</strong> は、 他 の 製 品 では 正 しくテキストを 抽 出 できないようなさまざ<br />
まな 種 類 の PDF に 対 して、 特 殊 な 処 理 や 回 避 策 を 実 現 します。さ<br />
らに、 問 題 文 書 の 処 理 を 改 善 するためのさまざまな 設 定 機 能 を 備<br />
えています。<br />
>> 文 字 コードまたはグリフ 名 を Unicode へマッピングするテーブル<br />
をユーザーが 設 定 することによって、Unicode マッピングをカス<br />
タマイズすることができます。<br />
>> <strong>PDFlib</strong> FontReporter は、PDF 内 のフォント、エンコーディング<br />
及 びグリフを 分 析 する 補 助 ツールで、Adobe Acrobat のプラグイ<br />
ンとして 動 作 します。このプラグインには Mac 版 と Windows 版<br />
があり、 無 料 で 使 用 できます。<br />
>> Unicode マッピングに 有 効 な 情 報 を 得 るために 埋 め 込 みフォント<br />
を 解 析 します。フォントが 埋 め 込 まれていないときは、 外 部 フォ<br />
ントファイルまたはシステムフォントを 用 い、テキスト 抽 出 結 果 を<br />
改 善 します。<br />
Unicode への 後 処 理<br />
<strong>TET</strong> は Unicode への 様 々な 後 処 理 をサポートし、より 良 い 抽 出 結<br />
果 が 得 られるようにします。<br />
>> フォルディングは 文 字 の 保 持 や 削 除 、 置 換 を 行 います。 例 えば、<br />
検 索 と 無 関 係 な 句 読 点 や 不 要 な 文 字 を 削 除 します。<br />
>> デコンポジッションは 文 字 を 一 字 ないし 複 数 の 等 価 な 文 字 に 置 き<br />
換 えます。 例 えば、 和 文 の 半 角 ・ 全 角 キャラクタや 英 字 の 上 付 き<br />
形 (ª 等 )を、 標 準 的 で 等 価 な Unicode 文 字 に 置 き 換 えます。<br />
>> 正 規 化 はテキストをすべて 4 バイトの Unicode に 変 換 します。<br />
例 えば、Web テキストやデータベースの 要 件 に 合 うように NFC<br />
形 式 で 出 力 します。<br />
文 書 の 領 域<br />
PDF 文 書 では、ページコンテンツ 以 外 の 場 所 にもテキストがありま<br />
す。 多 くのアプリケーションはページコンテンツしか 扱 いませんが、<br />
文 書 のその 他 の 領 域 が 必 要 な 場 面 も 多 くあります。<strong>TET</strong> は、 以 下 の<br />
文 書 領 域 全 てからテキストを 抽 出 することができます。<br />
>> ページコンテンツ<br />
>> 定 義 済 み 及 びカスタム 文 書 情 報 項 目<br />
>> 文 書 と 画 像 レベルの XMP メタデータ<br />
>>しおり<br />
>> ファイル 添 付 と PDF ポートフォリオの 再 帰 的 処 理<br />
>> フォームフィールド<br />
>> コメント( 注 釈 )<br />
>> ページ 数 や PDF/A・PDF/X 等 標 準 への 準 拠 状 態 など 一 般 的 PDF<br />
プロパティ<br />
XMP メタデータ<br />
<strong>TET</strong> は、 以 下 のような 形 式 で XMP メタデータをサポートしています。<br />
>> 内 蔵 pCOS インタフェースを 用 い、 文 書 、 各 ページ、 画 像 また<br />
は 文 書 のその 他 部 分 の XMP メタデータをプログラムにより 抽 出<br />
する。<br />
>> XMP 文 書 や 画 像 メタデータが PDF 文 書 内 に 存 在 する 場 合 には<br />
<strong>TET</strong>ML 出 力 にこれを 含 める。<br />
>> 画 像 メタデータが PDF 文 書 内 に 存 在 する 場 合 には TIFF または<br />
JPEG 形 式 で 抽 出 された 画 像 にこれを 含 む。<br />
<strong>TET</strong>ML:PDF 内 容 を XML で 表 現<br />
<strong>TET</strong> では、PDF コンテンツを <strong>TET</strong>ML という 一 種 の XML で 表 現 す<br />
ることができます。<strong>TET</strong>ML で 表 現 されたさまざまな PDF 情 報 は 広<br />
く 用 いられている XML ツールで 容 易 に 処 理 することができます。<br />
<strong>TET</strong>ML にはテキスト 本 体 のほか、フォント、 位 置 情 報 、 画 像 ・カラー<br />
スペースなどリソースの 詳 細 及 びメタデータを 含 めることができま<br />
す。<br />
<strong>TET</strong>ML は、 対 応 する XML スキーマに 規 定 されており、<strong>TET</strong> はつねに、<br />
一 貫 性 と 信 頼 性 を 具 えた XML 出 力 を 生 成 します。フィルタリングや<br />
書 式 の 変 換 などのために XSLT スタイルシートで <strong>TET</strong>ML を 処 理 す<br />
ることも 可 能 です。<strong>TET</strong> には、<strong>TET</strong>ML を 処 理 するサンプル XSLT ス<br />
タイルシートが 添 付 されています。<br />
以 下 に 示 すのはグリフの 詳 細 の 一 部 を <strong>TET</strong>ML で 表 したものです。<br />
<br />
<strong>PDFlib</strong><br />
<br />
P<br />
D<br />
F<br />
l<br />
i<br />
b<br />
<br />
<br />
<strong>TET</strong> コネクタ<br />
<strong>TET</strong> コネクタは、<strong>TET</strong> を 他 のソフトウェアと 連 携 するのに 必 要 な 接<br />
続 用 プログラムです。 以 下 の <strong>TET</strong> コネクタにより、PDF テキスト 抽<br />
出 機 能 が 各 種 ソフトウェア 環 境 で 利 用 可 能 になります。<br />
>> Lucene 検 索 エンジン 用 <strong>TET</strong> コネクタ<br />
>> Solr 検 索 サーバ 用 <strong>TET</strong> コネクタ<br />
>> TIKA toolkit 用 <strong>TET</strong> コネクタ<br />
>> Oracle Text 用 <strong>TET</strong> コネクタ<br />
>> MediaWiki 用 <strong>TET</strong> コネクタ<br />
>> Microsoft 社 製 品 用 には、<strong>PDFlib</strong> <strong>TET</strong> PDF IFilter をお 使 いくださ<br />
い。PDF 文 書 からテキストとメタデータを 抽 出 し、Windows 上<br />
の 検 索 ・ 抽 出 ソフトウェアでの 利 用 を 可 能 にします( 詳 しくは<br />
<strong>PDFlib</strong> <strong>TET</strong> PDF IFilter のデータシートをご 覧 下 さい)<br />
<strong>TET</strong> クックブック<br />
<strong>TET</strong> クックブックは、さまざまなテキスト・ 画 像 抽 出 タスクにおける<br />
<strong>TET</strong> の 使 用 法 を 示 したプログラミング 作 成 例 集 です。ページ 上 のテ<br />
キストに 応 じてしおりやリンクを 追 加 するなど、<strong>TET</strong> と <strong>PDFlib</strong>+PDI<br />
を 組 み 合 わせて PDF 文 書 を 改 良 する 方 法 を 示 したサンプルもあり<br />
ます。
3 <strong>PDFlib</strong> <strong>TET</strong> <strong>4.1</strong>, 2012-02 <strong>PDFlib</strong> GmbH www.pdflib.com<br />
PDF からテキストの 抽 出 に 挑 戦 *<br />
ハイフンの 除 去<br />
<strong>TET</strong> は、 複 数 行 にわたるハイフネーションされた 単 語 を 検 出 してハ<br />
イフンを 除 去 し、 部 分 どうしを 結 合 して 単 語 を 復 元 します。これは、<br />
文 書 内 で 単 語 がハイフンで 分 割 されていても 単 語 が 正 しく 検 索 にか<br />
かるようにするための 重 要 な 処 理 です。ハイフンと 異 なるダッシュ<br />
は 除 去 しないよう 区 別 して 扱 われます。<br />
ハイフンは 除 去 されますが、ダッシュは 温 存 されます<br />
他 製 品 による 抽 出 結 果 :「Inttrroduccttiion」<br />
<strong>TET</strong> による 抽 出 結 果 :「Introduction」<br />
他 製 品 による 抽 出 結 果 :「Midi-Pyr´en´ees」<br />
<strong>TET</strong> による 抽 出 結 果 :「Midi-Pyrénées」<br />
他 製 品 による 抽 出 結 果 :「 e rst photographs」<br />
<strong>TET</strong> による 抽 出 結 果 :「The first photographs」<br />
影 付 き・ 太 字 テキストの 検 出<br />
電 子 文 書 では 影 付 きテキストがよく 使 われますが、これは、 同 じ<br />
テキストを 少 しずらして 複 数 回 ページ 上 に 配 置 することで 影 付 き 効<br />
果 を 得 ています。 同 様 に 太 字 テキストもたいていは、 同 じテキスト<br />
を 複 数 個 重 ねることで 太 字 に 見 せかけています。その 結 果 、 影 付<br />
きや 太 字 の 箇 所 のキャラクタは、 文 書 内 に 複 数 個 含 まれています。<br />
<strong>TET</strong> の 影 付 き 検 出 アルゴリズム( 特 許 取 得 済 )は、 重 複 したテキ<br />
ストを 特 定 して 除 去 することで、 余 分 なテキスト 抽 出 を 防 止 します。<br />
他 のソフトウェアでは、 影 付 きや 太 字 は 重 複 して 抽 出 されてしまい<br />
ますが、<strong>TET</strong> では 重 複 が 正 しく 除 去 されます。 単 語 全 体 が 重 複 して<br />
いるなら 検 索 エンジンでヒットしますが、 例 のように 文 字 毎 に 重 複<br />
してるケースでは 検 索 結 果 に 含 まれないことになります。<br />
アクセント 付 きキャラクタ<br />
多 くの 言 語 では、アクセント 等 の 発 音 区 別 記 号 を 他 キャラクタのそ<br />
ばに 配 して 合 成 キャラクタを 形 成 します。TeX に 代 表 される 特 定 の<br />
組 版 ソフトウェアではベースキャラクタとアクセントの 2 つのキャラ<br />
クタを 別 々に 出 力 し、 合 成 キャラクタを 作 るものがあります。たと<br />
えばキャラクタ ä を 作 るには、まず 文 字 a をページ 上 に 配 置 し、そ<br />
の 頭 に 分 音 記 号 ¨を 配 置 します。<strong>TET</strong> はこうした 状 況 を 検 出 し、2<br />
つのキャラクタを 再 合 成 して 適 切 な 合 成 キャラクタを 復 元 します。<br />
合 字<br />
合 字 は、 複 数 のキャラクタを 1 つのグリフに 合 体 したものです。よ<br />
く 見 られる 合 字 は fi・fl・ffi ですが、ほかにも Th・sp・ct・st 等 あま<br />
り 目 にしない 合 字 が 数 多 くあります。 電 子 文 書 からテキストを 抽 出<br />
する 際 には、 合 字 を 分 析 してキャラクタ 列 に 分 解 することで、 適 切<br />
なテキスト 処 理 を 可 能 にする 必 要 があります。<strong>TET</strong> は 合 字 を 検 出 し、<br />
適 切 な 複 数 キャラクタとして 出 力 します。<br />
ドロップキャップ<br />
ドロップキャップは、 一 番 初 めの 段 落 の 一 文 字 目 を 大 きな 文 字 で<br />
表 現 したものです。ドロップキャップは 段 落 の 開 始 を 強 調 したいと<br />
きによく 使 います。ドロップキャップを 適 切 に 扱 わないと、 単 語 の<br />
一 文 字 目 とそれ 以 降 の 文 字 を 別 々の 単 語 として 抽 出 してしまうでしょ<br />
う。<br />
他 製 品 による 抽 出 結 果 :「S」と「tellen」の 2 単 語<br />
<strong>TET</strong> による 抽 出 結 果 :「Stellen」の 1 単 語<br />
* 本 機 能 は、 主 に 欧 文 処 理 を 対 象 としており、 日 本 語 処 理 については 制 限 が<br />
あります。
4 <strong>PDFlib</strong> <strong>TET</strong> <strong>4.1</strong>, 2012-02 <strong>PDFlib</strong> GmbH www.pdflib.com<br />
テキストの 抽 出 に 挑 戦 *<br />
他 製 品 では 使 い 物 にならないゴミを 抽 出 しますが、<strong>TET</strong> ではテキス<br />
トを 抽 出 します<br />
Acrobat でページ 内 容 を 表 示 できない 場 合 でも、<strong>TET</strong> なら 正 確 に<br />
文 字 を 抽 出 します<br />
<strong>TET</strong> は 左 向 きのテキストと 右 向 きのテキストが 混 在 している 場 合 で<br />
も、 正 しい 順 序 に 並 び 替 えます<br />
他 製 品 による 抽 出 結 果 : 細 切 れの 画 像 133 個<br />
<strong>TET</strong> による 抽 出 結 果 : 大 きな 画 像 1 つ<br />
Unicode マッピング<br />
Unicode マッピングは PDF からテキストを 抽 出 するための 基 礎 で<br />
あり、グリフごとに 対 応 する Unicode 値 を 割 り 当 てなければなりま<br />
せん。PDF は 様 々なフォントやエンコーディングをサポートしてお<br />
り、 中 には 適 切 な Unicode を 割 り 当 てるための 情 報 を 持 たないも<br />
のもあるため、Unicode マッピングは 複 雑 な 作 業 です。 最 悪 の 場 合 、<br />
PDF 文 書 から 使 い 物 にならないテキストしか 抽 出 できず、 十 分 な<br />
情 報 が 得 られない 場 合 もあります。<br />
<strong>TET</strong> の 特 許 技 術 である Unicode マッピングアルゴリズムは Unicode<br />
値 を 決 定 するための 情 報 すべてを 使 うような 数 珠 つなぎのアルゴリ<br />
ズムを 実 装 しています。 問 題 を 抱 える 多 くの 文 書 に 対 して、 他 の 製<br />
品 が 使 い 物 にならないゴミしか 抽 出 できない 場 合 でも、<strong>TET</strong> は 適<br />
切 な Unicode テキストを 抽 出 します。<br />
破 損 した PDF<br />
変 換 エラーなどによって、PDF が 破 損 する 場 合 があります。<strong>TET</strong> の<br />
修 復 モードは PDF の 破 損 の 多 くを 復 元 します。PDF の 破 損 が 激 し<br />
く、Acrobat で 表 示 できないような 極 端 なケースにおいても、<strong>TET</strong><br />
はページ 内 容 を 抽 出 します。<br />
アラビア 語 やヘブライ 語 による 双 方 向 テキスト<br />
PDF は 論 理 的 なテキストをエンコードせずに、 単 純 にグリフとして<br />
内 包 しています。アラビア 語 やヘブライ 語 で 書 かれたテキストは 右<br />
から 左 に 進 みます。また、 数 字 や 欧 米 言 語 の 名 前 といった 右 から<br />
左 に 進 むテキストが 挿 入 される「bidirectinal」と 呼 ばれる 状 態 に<br />
なることもあり、 両 方 向 に 解 釈 しなければなりません。また 他 の 課<br />
題 として、アラビア 語 の 文 字 は 文 脈 によって 最 大 4 つの 形 をとるこ<br />
とがあげられます。このような 文 字 に 対 しては、 対 応 する 標 準 形 ( 独<br />
立 形 )に 正 規 化 する 必 要 があります。<br />
画 像 抽 出 に 挑 戦<br />
色 空 間 と 圧 縮<br />
PDF 内 のラスタ 画 像 データは、11 の 色 空 間 と 9 の 圧 縮 フィルタの<br />
任 意 の 組 み 合 わせでエンコードされている 可 能 性 がありますが、<br />
JPEG や TIFF など 一 般 的 な 画 像 ファイル 形 式 は、それらのサブセッ<br />
トしかサポートしていません。<strong>TET</strong> の 画 像 抽 出 は PDF 画 像 の 特 性<br />
と 出 力 形 式 の 機 能 のバランスを 慎 重 にとります。PDF 画 像 の 内 部<br />
構 造 に 関 係 なく、ピクセル 画 像 は、 共 通 の 画 像 ファイル 形 式 で 抽<br />
出 されます。<br />
画 像 の 結 合<br />
多 くの PDF 文 書 では、それを 作 ったソフトウェアによって、 中 の 画<br />
像 が 細 かく 分 解 されています。ページ 上 で 1 つの 画 像 として 見 えて<br />
いても、 実 は 数 百 ・ 数 千 の 断 片 の 寄 せ 集 めということがあります。<br />
とくに、Microsoft Office アプリケーションや TeX がこうした 文 書 を<br />
作 ることで 知 られています。<strong>TET</strong> は、 断 片 化 した 画 像 を 検 出 して 結<br />
合 し、 大 きく 利 用 可 能 な 画 像 として 復 元 します。このような 画 像 を<br />
利 用 するためには 結 合 は 必 須 の 処 理 といえます。<br />
* 本 機 能 は、 主 に 欧 文 処 理 を 対 象 としており、 日 本 語 処 理 については 制 限 が<br />
あります。
5 <strong>PDFlib</strong> <strong>TET</strong> <strong>4.1</strong>, 2012-02 <strong>PDFlib</strong> GmbH www.pdflib.com<br />
<strong>TET</strong> の 多 様 な 利 用 形 態<br />
<strong>TET</strong> は、 各 種 開 発 環 境 用 のプログラミングライブラリ(コンポーネ<br />
ント)としても、バッチ 処 理 向 けにコマンドラインツールとしても<br />
利 用 できます。 両 者 は 同 等 の 機 能 を 提 供 しますが、 実 装 目 的 に 応<br />
じて 使 い 分 けられます。<strong>TET</strong> ライブラリ 及 びコマンドラインツール<br />
共 に、<strong>TET</strong>ML(XML ベースの 出 力 形 式 )を 生 成 することができます。<br />
<strong>TET</strong> は 以 下 のように 使 い 分 けられます。<br />
>> <strong>TET</strong> プログラミングライブラリ(コンポーネント)は、デスクトッ<br />
プ 上 やサーバー 上 のアプリケーションに 組 み 込 んで 利 用 します。<br />
ライブラリの 使 用 例 は 製 品 に 添 付 されています。<br />
>> <strong>TET</strong> コマンドラインツールは PDF 文 書 のバッチ 処 理 に 適 していま<br />
す。プログラミングを 全 く 必 要 とせず、コマンドラインオプション<br />
による 処 理 を 複 雑 なワークフローに 組 み 込 むことができます。<br />
>> XSLT などさまざまな XML 処 理 ツールや 言 語 に 通 じた 開 発 者 で<br />
あれば、<strong>TET</strong>ML による 出 力 を 用 いて XML ベースのワークフロー<br />
を 実 現 することができます。<br />
>> <strong>TET</strong> コネクタはデータベースや 検 索 エンジンなどさまざまな 汎 用<br />
ソフトウェアパッケージに <strong>TET</strong> を 容 易 に 統 合 できます。<br />
<strong>TET</strong> ファミリー<br />
<strong>TET</strong> ファミリーには 以 下 の 製 品 があります。<br />
>> <strong>TET</strong> コア 製 品<br />
当 データシートで 述 べてきた 製 品 です。<br />
>> <strong>TET</strong> PDF IFilter<br />
Windows Search、SharePoint 、SQL Server などの Microsoft 社<br />
製 検 索 製 品 に 適 した 製 品 です。 詳 しくは <strong>TET</strong> PDF IFilter のデータ<br />
シートをご 覧 ください。<br />
>> <strong>TET</strong> Plugin<br />
Adobe Acrobat 用 のプラグインで、PDF からテキストや 画 像 の<br />
抽 出 を 無 償 行 えるユーティリティです。<strong>TET</strong> の 性 能 を 検 証 してい<br />
ただくことができます。<br />
対 応 開 発 環 境<br />
<strong>PDFlib</strong> <strong>TET</strong> is everywhere. <strong>TET</strong> は 事 実 上 、すべてのコンピューティ<br />
ングプラットフォーム 上 で 動 作 します。32 ビット /64 ビットバージョ<br />
ンの Windows をはじめ Mac OS X、Linux、Unix、さらに IBM i5/<br />
iSeries・zSeries メインフレーム 版 も 提 供 しています。また、iOS、<br />
Android、Windows Embedded Compact/CE などのモバイル 環 境<br />
版 も 提 供 しています。<br />
パフォーマンスの 最 大 化 を 図 りオーバーヘッドを 小 さくするため<br />
<strong>TET</strong> の 中 核 部 分 は 高 度 に 最 適 化 された C コードで 書 かれています。<br />
平 易 な API(アプリケーションプログラミングインタフェース)を 通<br />
じて、<strong>PDFlib</strong> の 機 能 は、 次 のようなさまざまな 開 発 環 境 から 利 用<br />
することができます。<br />
>> COM(VB・ASP・Borland Delphi 等 での 使 用 )<br />
>> C・C++<br />
>> Java(サーブレット・Java Application Server を 含 む)<br />
>> .NET(C#・VB.NET・ASP.NET 等 での 使 用 )<br />
>> Objective-C (Mac OS X・iOS)<br />
>> Perl<br />
>> PHP<br />
>> Python<br />
>> REALbasic<br />
>> RPG(IBM i5/iSeries)<br />
>> Ruby<br />
<strong>PDFlib</strong> の 特 長<br />
世 界 的 な 導 入 実 績 と 信 頼 性<br />
世 界 100 カ 国 以 上 で 20,000 ライセンスを 超 える 導 入 実 績 がある<br />
PDF 文 書 処 理 ライブラリの 定 番 ソフトウェアです。<br />
使 いやすい API を 提 供<br />
PDF の 詳 細 を 意 識 することなく、 製 品 ファミリーに 共 通 する 使 いや<br />
すいインタフェースや 操 作 性 で PDF 文 書 の 生 成 や 処 理 を 行 うことが<br />
できます。<br />
事 前 に 評 価 、 開 発 が 可 能<br />
<strong>PDFlib</strong> はダウンロードして 無 償 で 評 価 することができます。 評 価 版<br />
は 一 部 の 制 限 を 除 いて 製 品 の 全 機 能 を 使 用 でき、 納 得 いくまで 評<br />
価 した 後 で 購 入 することができます。<br />
効 率 的 で 安 定 した 動 作<br />
<strong>PDFlib</strong> は、コンパクトなコードとして 設 計 、 開 発 されており、 資 源<br />
消 費 やオーバーヘッドが 少 なく 高 速 かつ 安 定 的 に 動 作 します。また<br />
スレッドセーフな 設 計 のためマルチスレッド 環 境 でも 安 心 して 利 用<br />
することができます。<br />
リーズナブルな 価 格 体 系<br />
クライアント 数 に 依 存 せず 管 理 の 容 易 なシンプルかつリーズナブル<br />
な 価 格 のライセンス 体 系 でご 提 供 しています。<br />
総 合 的 な PDF 文 書 処 理 機 能 を 実 現<br />
<strong>PDFlib</strong>、PLOP、<strong>TET</strong>、pCOS の 併 用 により 総 合 的 な PDF 文 書 処 理<br />
を 実 現 できます。<br />
<strong>PDFlib</strong> GmbH について<br />
<strong>PDFlib</strong> の 開 発 元 である <strong>PDFlib</strong> GmbH は PDF テクノロジにフォーカ<br />
スしたドイツのソフトウェア 会 社 です。1997 年 に <strong>PDFlib</strong> を 発 表 し<br />
て 以 来 、 同 製 品 ファミリーの 充 実 を 図 り、PDF 関 連 技 術 の 最 新 動<br />
向 に 迅 速 に 対 応 しています。<br />
購 入 及 びお 問 い 合 わせ<br />
<strong>PDFlib</strong> のご 購 入 及 びお 問 い 合 わせは <strong>PDFlib</strong> GmbH まで。 評 価 版<br />
のダウンロードや <strong>PDFlib</strong> 技 術 情 報 の 入 手 も <strong>PDFlib</strong> GmbH のウェ<br />
ブサイトで 行 えます。お 見 積 りやその 他 ご 質 問 については 下 記 まで<br />
お 問 い 合 わせください。<br />
DEF<br />
<strong>PDFlib</strong> GmbH<br />
Franziska-Bilek-Weg 9,<br />
80339 München, Germany<br />
phone +49 • 89 • 452 33 84-0,<br />
fax +49 • 89 • 452 33 84-99<br />
sales@pdflib.com<br />
www.pdflib.com