PDFlib Text Extraction Toolkitï¼TETï¼ããã¥ã¢ã«
PDFlib Text Extraction Toolkitï¼TETï¼ããã¥ã¢ã«
PDFlib Text Extraction Toolkitï¼TETï¼ããã¥ã¢ã«
You also want an ePaper? Increase the reach of your titles
YUMPU automatically turns print PDFs into web optimized ePapers that Google loves.
granularity=page と 設 定 する と 、ページ 上 に 含 まれるすべての 単 語 が 1 つの 断 片 で 返 さ<br />
れます。<br />
複 数 の 単 語 ・ 行 ・ 区 域 の 間 には、 選 択 さ れた 粒 度 がその 単 位 よ り 大 き ければ、 それぞれ 区<br />
切 り キ ャ ラ ク タ が 挿 入 さ れます。 た と えば granularity=word の 場 合 、 TET_get_text( ) は 呼<br />
び 出 さ れる ご と に 単 語 を き っか り 1 つずつ 返 すのですか ら、 区 切 り キ ャ ラ ク タ を 挿 入 する<br />
必 要 などないわけです。<br />
区 切 り キ ャ ラ ク タ を 指 定 する には、 open_page( ) の wordseparator ・ lineseparator オプ<br />
シ ョ ン を 用 います ( 区 切 り キ ャ ラ ク タ を 無 効 にする には U+0000 を 用 います)。 た と えば :<br />
lineseparator==U+000A<br />
デフォル ト では、 granularity=glyph の 場 合 にはすべての 内 容 分 析 動 作 が 無 効 に さ れ、 それ<br />
以 外 の 粒 度 設 定 では 有 効 に さ れます。 し か し、 区 切 り オプシ ョ ン を 用 いればよ り き め 細 か<br />
な 制 御 も 可 能 です ( 後 述 )。<br />
欧 文 テキス ト の 単 語 境 界 検 出 単 語 検 出 機 能 は、glyph を 除 くすべての 粒 度 モードで 有 効<br />
にされ、ページ 全 体 にでたらめな 順 序 で 散 らばっているかも しれない 複 数 のグ リ フをま と<br />
めて 論 理 的 な 単 語 を 再 構 成 し ます。 欧 文 テキ ス ト の 単 語 境 界 は 2 つの 判 定 基 準 に よ って 認<br />
識 されます :<br />
> 精 巧 なアルゴ リ ズムがグ リ フ ど う し の 位 置 関 係 を 解 析 し て、 キ ャ ラ ク タ のグループを<br />
検 出 し、 単 語 を 再 構 成 し ます。 こ のアルゴ リ ズムは さ ま ざ ま な 属 性 や 特 例 を 考 慮 し て、<br />
レ イ ア ウ ト が 複 雑 な 場 合 やページ 上 のテキ ス ト 順 序 がばらばら な 場 合 で も 単 語 を 正 確<br />
に 認 識 でき る よ う 努 めます。<br />
> スペースや 句 読 点 (コ ロ ン ・ カ ンマ ・ ピ リ オ ド ・ 括 弧 等 ) と いったあ る 種 のキ ャ ラ ク<br />
タは、 その 幅 ・ 位 置 にかかわ らずつねに 単 語 境 界 と 認 識 さ れます。 open_page( ) の<br />
punctuationbreaks オプシ ョ ンを false に 設 定 する と 、 単 語 検 出 機 能 は 句 読 点 キ ャ ラ ク タ<br />
を 単 語 境 界 と し て 扱 わな く な り ます :<br />
contentanalysis={punctuationbreaks=false}<br />
単 語 境 界 検 出 の 際 に 句 読 点 キ ャ ラ ク タ を 無 視 する こ と は、 た と えば、 Web URL を 扱 う 際<br />
に 有 用 で し ょ う 。 URL では 通 常 、 ピ リ オ ド ・ ス ラ ッ シ ュ キ ャ ラ ク タ は 語 の 一 部 と 見 な さ れ<br />
る か ら です ( 図 6.5 参 照 )。<br />
注 記 表 意 文 字 キャ ラ ク タ によ るテキス ト に 対 する 単 語 境 界 検 出 は 動 作 が 異 な り ます。 詳 し く は<br />
87 ページの 6.3.2 「 日 中 韓 テキス ト の 単 語 境 界 」 を 参 照 し て く だ さ い。<br />
図 6.5<br />
デフォルト 設 定 punctuationbreaks=true で<br />
は URL は 各 部 に 分 解 されますが ( 上 )、<br />
punctuationbreaks=false では 各 部 はひと<br />
ま と ま りのまま 保 持 されます ( 下 )。<br />
6.5 内 容 分 析 93