11.07.2015 Views

日常会話における句末の音響・韻律的特徴の分析 *

日常会話における句末の音響・韻律的特徴の分析 *

日常会話における句末の音響・韻律的特徴の分析 *

SHOW MORE
SHOW LESS

Create successful ePaper yourself

Turn your PDF publications into a flip-book with our unique Google optimized e-Paper software.

日 常 会 話 における 句 末 の 音 響 ・ 韻 律 的 特 徴 の 分 析 *石 井 カルロス 寿 憲 & ニック・キャンベル(JST/CREST at ATR/HIS Labs.)1. はじめに日 本 語 では 発 話 音 声 の 句 末 の 韻 律 は、 疑 問 などの 文 のモダリティを 表 示 する 機 能 、フォーカスを表 示 する 機 能 、 大 きな 意 味 の 区 切 りを 示 したり、発 言 がまだ 終 わっていないことを 示 す 機 能 など、文 法 的 な 機 能 や 話 し 手 の 意 図 や 態 度 など、 重 要 な役 割 を 果 たしている。言 語 学 や 音 声 学 の 分 野 では 文 末 の 音 調 の 分 類 を提 案 した 研 究 [1,2,3]は 多 いが、 機 械 による 自 動 分類 における 研 究 は 少 ない。また、 朗 読 音 声 に 比 べ、 日 常 会 話 では 句 末 の 韻律 の 変 動 が 多 く、 日 常 会 話 に 対 応 するための 韻 律ラベルとして X-JToBI [3]が 提 案 されているが、 自動 ラベリングにはまだ 至 っていない。本 研 究 は CREST/ESP の 発 話 様 式 プロジェクト[4]で、 韻 律 データベースを 作 成 するための 韻 律 の自 動 ラベリングを 目 的 とし、 句 末 の 韻 律 の 記 述 と自 動 分 類 に 焦 点 を 当 て、 人 間 の 知 覚 によって 分 類化 されたものと 音 響 ・ 韻 律 的 特 徴 との 対 応 を 調 べた。2. 分 析 単 位データとしては、CREST/ESP プロジェクト 上で 録 音 されている 自 然 発 話 音 声 データを 用 いた。発 話 単 位 としては、 韻 律 句 を 扱 うことにした。 韻律 句 の 区 切 りとしてはあきらかなポーズ、または明 らかなピッチの 立 ち 上 がりが 知 覚 される 場 合 に半 自 動 で 行 った。 日 本 人 話 者 一 人 における 自 然 日常 会 話 ( 親 との 会 話 、 会 社 への 電 話 )を 含 めた 404個 の 韻 律 句 を 分 析 対 象 とした。句 末 の 定 義 に 関 しては、 句 末 音 節 の V 部 分 あるいは VN 部 分 (つまり 句 末 音 節 頭 の 子 音 を 除 いたもの)を“ 句 末 ”と 呼 ぶことにした。リズムビート 位 置 (P-Center)は 音 節 内 の 母 音 の 開 始 時 点 に 近い[5]という 主 張 から、 句 末 を 母 音 の 開 始 時 点 から測 ることにした 訳 である。句 末 音 節 の 切 出 しも 音 声 波 形 のパワーと 周 期 性の 特 徴 を 利 用 し、 半 自 動 で 行 った。3. 句 末 のカテゴリー 化 ・ラベリング[2]では 終 助 詞 の 音 調 の 種 類 を 次 のように 分 けている:1a 低 く 付 く例 :ナ⎤イネ1b 低 く 付 き、 更 に 下 降 する 例 :ナ⎤イネ⎤ー2a 高 く 付 く例 :ナ⎤イ⎡ネ2b 高 く 付 き、 長 く 維 持 される 例 :ナ⎤イ⎡ネー2c 低 く 付 き、 上 昇 する 例 :ナ⎤イネ⎡ー3 高 く 付 き、 下 降 する 例 :ナ⎤イ⎡ネ⎤ーX-JToBI では 次 のような 句 末 トーンが 提 案 されている:{ L% (= 1a), L%+H% (= 2a,2b),L%+HL%(= 3), L%+LH%(= 2c), L%+HLH% }。しかし、1b は 記 述 されてなく、 句 末 の 伸 縮 感 覚 の 情 報* Analysis of acoustic-prosodic features of phrase finals inSpontaneous Speech, by Carlos Toshinori Ishi & NickCampbell (JST/CREST at ATR/HIS Labs.)も 完 全 に 表 現 されていない。本 研 究 は 以 上 の 文 献 を 考 慮 し、 次 のような 要 素を 句 末 の 分 類 化 として 提 案 した。• 句 末 の 長 さ:Short (S), Long (L), Very Long (VL),Extremely Long (EL)• 句 末 のトーン:Flat-Rise (FtRs), Rise (Rs), Flat (Ft),Fall (Fa), Flat-Fall (FtFa), Fall-Rise (FaRs)• ピッチの 建 直 しの 有 無 :Reset• 発 声 タイプ:Modal (M), Creaky (C), Breathy (B)( 笑 いなどによる 息 漏 れ), Devoiced/Deleted (D) ( 母音 の 無 声 化 、 脱 落 ), Low Energy (L)イントネーションの 研 究 においては F0 のみに基 づいたものが 多 く、 発 声 タイプの 分 類 はあまり触 れられていない 課 題 であるが、これらの 発 声 タイプは 自 然 発 話 に 頻 繁 に 現 れ、{C,B,L}タイプでは 特 に、 発 声 区 間 で 抽 出 した F0 値 は M タイプに比 べて 信 頼 性 が 低 いので、F0 抽 出 において 注 意 が必 要 である。 尚 、 本 研 究 ではこのようなラベルも付 与 することにした。これらのラベリング 作 業 は 母 語 話 者 1 名 が 行 い、ラベリングに 疑 問 をもったサンプルは 母 語 話 者 3名 で 議 論 して 決 めたものである。4. F0 の 抽 出 法ここでは 有 声 ・ 無 声 判 断 における 問 題 とピッチ知 覚 において 重 要 な F0 値 の 選 択 に 焦 点 を 当 てる。F0 の 抽 出 法 としては、 自 己 相 関 係 数 に 基 づいた手 法 を 用 いた。 具 体 的 には、 音 声 波 形 に LPC 逆 フィルターを 通 して 残 差 波 形 を 求 め、その 残 差 波 形に LowPass フィルターを 通 して 自 己 相 関 関 数 Rxxを 求 める。 自 己 相 関 関 数 を 正 規 化 したもののピークを 検 出 し、F0 の 候 補 とする。従 来 は、 正 規 化 として Rxx(i)/Rxx(0)を 用 いることが 多 いが、Rxx(i)は N‐i 個 の 掛 け 算 の 和 から 計 算され、Rxx(0)は N 個 の 掛 け 算 の 和 から 計 算 されるため、i が 大 きくなるにつれて Rxx(i)/Rxx(0)は 小 さくなる。そうなると、 有 声 ・ 無 声 の 判 断 において、全 i に 一 定 の 閾 値 を 決 めることは 適 切 でない。ここではN Rxx(i)N − i Rxx(0)のような 正 規 化 方 法 を 用 いることにした。このような 正 規 化 によって、 自 己 相 関 関 数 の 問 題 点 は 抑えられ、より 適 切 な 有 声 ・ 無 声 の 判 断 が 得 られる。F0 の 後 処 理 ( 信 頼 性 の 低 い 値 の 削 除 )としては 次のようなステップを 提 案 した:• 正 規 化 した 自 己 相 関 係 数 がある 閾 値 を 超 えないものは 削 除• 孤 立 点 (isolated points)を 削 除• マスキング 効 果 [6]を 考 慮 し、 句 末 でパワーが50ms の 区 間 で 6 dB 以 下 落 ちた 時 点 の F0 値 を 削除これらの 制 約 により、 人 間 のピッチ 知 覚 に、より 影 響 を 与 える F0 値 が 求 められる。(1)


5. 音 響 ・ 韻 律 的 特 徴• 句 末 の 持 続 時 間 (dur)• F0 の 傾 き: 句 末 内 で 検 出 された F0 値 を 用 いて1 次 回 帰 分 析 により、 傾 きを 求 める (F0slope1)。但 し、 句 末 が 長 い 場 合 (120ms 以 上 )は 2 等 分 し、それぞれの 区 間 で 傾 きを 求 める (F0slope2a とF0slope2b)。• F0 の 動 き: 句 末 を 2 等 分 し、 各 区 間 で 得 られたF0 のターゲット 値 の 差 分 (F0diff)。ターゲット 値は[7]で 提 案 されたように 区 間 の 後 半 部 分 の 平 均値 を 用 いている。• F0 立 て 直 し: 句 末 前 のターゲット 値 と 句 末 の 前半 部 分 のターゲット 値 の 差 分 (F0reset)。6. 分 析 結 果ラベリングされたカテゴリー 毎 に 測 定 した 音 響的 パラメータを 整 理 した。 図 1は 各 パラメータ(F0slope1, F0slope2a, F0slope2b)の 各 カテゴリーにおけるヒストグラムを 表 示 している。図 から 導 けるように、 区 間 全 体 の 傾 き F0slope1よりも、2 等 分 した 後 半 の 傾 き F0slope2b の 方 が 特に 傾 き0の 周 辺 でよりよい 弁 別 性 を 示 している。F0slope2a の 場 合 は 弁 別 性 が 見 えず、F0 の 傾 きは前 の 区 間 の F0 に 影 響 されることが 原 因 と 考 えられる。F0diff においては、F0slope2b と 似 たような傾 向 を 示 し、 図 は 省 略 する。FtRs と Rs、または FtFa と Fa の 区 別 は F0slope2bでもはっきり 見 えず、これらの 区 別 は 句 末 の 長 さによって 行 うことにする。7. 句 末 の 自 動 分 類分 析 で 得 られた F0slope2b と F0diff の 閾 値 を 設 定して 句 末 音 調 の 自 動 分 類 を 試 みた。その 結 果 、F0slope2b を 用 いた 場 合 61%、そして F0diff を 用いた 場 合 63%の 認 識 率 が 得 られた。この 僅 かな 差はいずれのパラメータも1 次 回 帰 分 析 によって 求められるので 関 連 が 大 きいということが 理 由 であるが、F0diff の 方 がセグメントの 長 さ 情 報 も 考 慮していることから 傾 きよりも 適 切 であると 考 えられる。ラベリングにおいて、Fa と Ft の 区 別 と、Rs とReset + Ft の 区 別 が 難 しかったというラベラーの感 想 は、 自 動 分 類 で 得 られたこれらのカテゴリーの 混 乱 が 多 い 結 果 に 反 映 している。これはこれらのカテゴリーが 知 覚 的 に 区 別 しぬくいと 捉 えられ、カテゴリーの 融 合 も 可 能 と 考 えられる。ピッチの 立 て 直 しにおいても、F0reset の 閾 値 を設 定 して 自 動 分 類 を 行 った。その 結 果 、83%の 正しい 認 識 が 得 られた。発 声 タイプのラベルにおいては、{C,L,D}では 特に F0 抽 出 の 問 題 があり、F0slope が 計 算 できないケースが 多 く、 認 識 率 の 計 算 から 外 したが、これらのケースは 知 覚 的 にはほとんど Ft か Fa、JToBIで 言 えば L%としてラベルされた。8. おわりに句 末 の 韻 律 のカテゴリーを 記 述 するため、 知 覚可 能 なピッチの 動 き、 長 さ、 発 声 タイプを 考 慮 して 分 類 化 してラベルしたものと、F0 の 動 きを 定 量化 した 音 響 的 特 徴 との 対 応 を 調 べた。 分 析 の 結 果 、カテゴリーを 弁 別 するための 閾 値 を 求 め、 自 動 分類 に 応 用 した。F0 抽 出 の 信 頼 性 の 低 い 区 間 、 知 覚的 にも 区 別 しにくいカテゴリーなどが 原 因 で、 自動 分 類 の 結 果 はよくなかったが、 今 後 これらの 問題 点 を 解 決 する 予 定 である。また、 発 声 タイプの自 動 検 出 も 検 討 している。3025303020151050~ -1.00~ -0.80~ -0.60~ -0.40~ -0.20F0slope interval (semitone/10ms)2520151050~ -1.00~ -0.80~ -0.60~ -0.40~ -0.20F0slope interval (semitone/10ms)2520151050~ -1.00~ -0.80~ -0.60~ -0.40~ -0.20F0slope interval (semitone/10ms)~ 0.00~ 0.00~ 0.00~ 0.20~ 0.20~ 0.20~ 0.40~ 0.40~ 0.40~ 0.60~ 0.60~ 0.60~ 0.80~ 0.80~ 0.80F0slope1 histogram~ 1.00~ 1.00(FtFa)(Ft)(FtRs)F0slope2a histogram~ 1.00(FtFa)(Ft)(FtRs)F0slope2b histogram(FtFa)(Ft)(FtRs)(FtRs)(Rs)(Ft)(Fa)(FtFa)(FtRs)(Rs)(Ft)(Fa)(FtFa)(FtRs)(Rs)(Ft)(Fa)(FtFa)図 1. 各 音 響 的 パラメータのトーンのカテゴリーにおけるヒストグラム参 考 文 献[1] 土 岐 哲 「 発 音 ・ 聴 解 」 外 国 人 のための 日 本 語 例 文 ・問 題 シリーズ 12, 荒 竹 出 版 ,37-40. (1987)[2] 服 部 匡 「 終 助 詞 の 音 調 について」 同 志 社 女 子 大 学 日本 語 日 本 文 学 , 第 14 号 ,1-16. (2002)[3] 菊 地 、 五 十 嵐 、 米 山 、 前 川 「X-JToBI リファレンスマニュアル ver.1.3」11-42. (2002)[4] The JST/CREST Expressive Speech Processing project,introductory web pages at: www.isd.atr.co.jp/esp[5] Scott, S. “P-Centres in speech – an acoustic analysis,”PhD thesis, Univ. College London. (1993)[6] Zwicker, E. “Dependence of post-masking on maskerduration and its relation to temporal effects in loudness,”JASA, Vol. 75, Issue 1, pp. 219-223. (1984)[7] 石 井 、 広 瀬 、 峯 松 「Investigations on a quantifiedrepresentation of pitch movements in syllable units」 日本 音 響 学 会 春 季 2002 年 , Vol. I, 419-420. (2002)

Hooray! Your file is uploaded and ready to be published.

Saved successfully!

Ooh no, something went wrong!