03.07.2013 Views

Count - 北京大学中国语言学研究中心

Count - 北京大学中国语言学研究中心

Count - 北京大学中国语言学研究中心

SHOW MORE
SHOW LESS

You also want an ePaper? Increase the reach of your titles

YUMPU automatically turns print PDFs into web optimized ePapers that Google loves.

第六讲 语言知识库和语料库的构建技术<br />

http://ccl.pku.edu.cn/Alcourse/nlp<br />

自然语言处理导论课程讲义


提纲<br />

1 语言知识库的构建--以CCD为例<br />

1.1 WordNet (WN)网络框架介绍<br />

1.2 兼容WN的中文概念词典 (CCD) 的开发<br />

1.3 兼容之外的发展<br />

2 语料库的构建与应用<br />

2.1 什么是语料库<br />

2.2 语料库的发展简史<br />

2.3 语料库的设计<br />

2.4 语料库的加工<br />

2.5 语料库的应用


1.1 WordNet (WN)网络框架介绍<br />

自然语言处理的发展<br />

从词法分析、句法分析到语义分析<br />

Web应用对“内容理解”的强烈需求<br />

智能检索,文本分类,自动文摘,语义推理,WSD ,Semantic Web应用等<br />

语义分析的不同语言单位和层次<br />

词,短语<br />

小句,句,句群,段落,篇章,多篇章和跨语言<br />

词义分析、计算的基础在哪里?<br />

词义:概念 vs. 知识本体(Ontology)<br />

语言中的聚合(paradigmatic)关系与组合(syntagmatic)关系信息<br />

关于“词义”,丢弃了什么我们才能得到“概念”?


1.1 WordNet (WN)网络框架介绍<br />

Princeton大学WordNet的理论与方法<br />

概念:由同义词集(Synset)来表示,概念即同义词集<br />

{教师,教员,老师,先生,师傅,师爷,孩子王,臭老九,阿姨,导师,老板}<br />

知识本体:概念及概念之间多种语义关系,形成概念网络<br />

一个高度形式化的、通用/跨语言的词义知识表示方法<br />

HowNet 对词义的内涵式定义:意在定义,关注个体,建立在义素分析及格语法上<br />

WordNet对词义的外延式定义:意在区分,关注系统,建立在词义系统结构分析上<br />

词义即多种语义关系约束构成的网络结构,此外,词义的任何定义都是多余的<br />

添加新词、新义项时只需要 将特定词加入特定同义词集<br />

一个可以对词义进行分析、计算的基础,一个同义词集之上的 “形-义”<br />

系统


1.1 WordNet (WN)网络框架介绍<br />

概念的形成<br />

概念化(conceptualization)与词汇化(lexicalization)<br />

“同义词集”表示“概念”: 一词多义vs. 一义多词<br />

词义<br />

M 1<br />

M 2<br />

M 3<br />

…<br />

M m<br />

F 1<br />

F 2<br />

词形<br />

F 3<br />

… F n<br />

E(1,1) E(1,2) E(1,n)<br />

E(2,2)<br />

E(3,1) E(3,3)<br />

E(m,n)


1.1 WordNet (WN)网络框架介绍<br />

知识本体的形成<br />

“概念”间的几种典型“语义关系”构成“概念网络”<br />

名词概念及其<br />

关系指针<br />

反义关系<br />

Antonymy<br />

下位关系<br />

Hyponymy<br />

上位关系<br />

Hypernymy<br />

部分关系<br />

Meronymy<br />

整体关系<br />

Holonymy<br />

属性<br />

Attribute<br />

动词概念及其<br />

关系指针<br />

! 反义关系<br />

Antonymy<br />

~ 下位关系<br />

Troponymy<br />

@ 上位关系<br />

Hypernymy<br />

# 蕴涵关系<br />

Entailment<br />

% 致使关系<br />

Cause<br />

= 又见<br />

Also See<br />

形容词概念及其<br />

关系指针<br />

! 反义关系<br />

Antonymy<br />

~ 近义关系<br />

Similar<br />

@ 关系性形容词<br />

Relational Adj.<br />

* 又见<br />

Also See<br />

> 属性<br />

Attribute<br />

ˆ<br />

副词概念及其<br />

关系指针<br />

! 反义关系<br />

Antonymy<br />

& 导出形式<br />

Derived<br />

From<br />

\<br />

ˆ<br />

=<br />

!<br />

\


1.1 WordNet (WN)网络框架介绍<br />

知识本体的形成(续)<br />

在语言学上严加界定的“语义关系”,以动词为例


1.1 WordNet (WN)网络框架介绍<br />

WordNet中网状数据的组织


1.1 WordNet (WN)网络框架介绍<br />

WordNet中网状数据的组织(续)


1.1 WordNet (WN)网络框架介绍<br />

WordNet及其家族(WordNets) 的发展<br />

语言知识工程的假设原则<br />

可分离性假设(Separability Hypothesis)<br />

模式假设(Patterning Hypothesis)<br />

广泛性假设(Comprehensiveness Hypothesis)<br />

G. A. Miller等于1985启动语言工程<br />

基于义素分析方法探索的失败(与HowNet截然不同的实验报告)<br />

开始尝试基于语义关系的新方法<br />

不做玩具系统(toy system),在整个语言系统的规模上实施语言工程<br />

确定只描述开放词类,即名,动,形,副词概念<br />

PWN 1.6版本的诞生<br />

1997年发布,含99,642 个概念,238,442对语义关系<br />

迄今为止普遍研究和应用的一个 WordNet版本,已建立与SUMO的联结


1.1 WordNet (WN)网络框架介绍<br />

WordNet家族(WordNets) 的发展<br />

词义级(概念) 的国际“中间语”地位的确立<br />

跨语言交流的需要及人类“共同概念体系”的假定<br />

“词义”与“词法” 的情况明显不同,如何看与单一语言挂钩的“词义知识”?<br />

双语WordNet(the bilingual WordNets)<br />

全球超过40个语种,汉语有包括大陆、台湾地区在内的3个不同版本<br />

多语WordNet(the multilingual WordNets)<br />

EuroWordNet,包括8种主要欧洲语言及10多种外围语言<br />

WN国际学术组织和国际学术会议<br />

GWA官方网址: globalwordnet.org<br />

GWC’02 ,GWC’04 ,GWC’06 ,GWC’08 …<br />

广泛的NLP应用尝试(找你所需),目前最重要的共享语义资源<br />

google.com检索: 11,700,000 项<br />

scholar.google.com检索: 24,700 项


1.1 WordNet (WN)网络框架介绍<br />

WordNet目前存在的问题<br />

涉及“词义”的组合关系信息的缺失<br />

计算语言学家吹毛求疵的要求?<br />

如果不是的话,基于“概念”的系统能加入该类信息吗? 如何加入?<br />

涉及“词义”的聚合关系信息的评价<br />

语义关系的种类及实际描写的信息够与不够<br />

“概念”的语义颗粒度(sense granularity)问题<br />

最多深达18层的名词概念实际意味着什么? 适合的语义颗粒度在哪里?<br />

知识本体:一个看上去 “有些糟糕的”(bad-structured)上层概念结构体系<br />

WordNet作为心理语言学家的实验品的根源<br />

√ Igavehimanovel,but the book bored him. 我送他一本小说,但这本书让他心烦。<br />

* I gave him a novel,but the catsup bored him. 我送他一本小说,但番茄酱让他心烦。<br />

语义关系信息通过考察句例和句式获取,上层结构排斥任何人工/理性知识注入


1.1 WordNet (WN)网络框架介绍<br />

“有些糟糕的”上层概念结构体系,以名词为例


1.1 WordNet (WN)网络框架介绍<br />

主语义关系(上下位关系)谬误的发掘<br />

同语义类的多继承现象(ring)与跨语义类的单继承关系现象(isolator)


1.2 兼容WN的中文概念词典 (CCD)的开发<br />

CCD作为双语WordNet<br />

提供汉英双语的概念对应<br />

可以直接复用现有的WordNet的理论、方法、技术<br />

全球WordNet资源建设的组成部分<br />

构造双语WordNet的焦点与难点<br />

两类不同的知识体系和概念对应<br />

大规模的复杂网络结构<br />

单一语言中包含约10 5 个概念节点,10 6 个语义关系<br />

实用、高效的双语WordNet构造模型的必要特征<br />

强调双语词典构造中的继承与转换<br />

英语语义网络的复用与调整<br />

通用的双语WordNet解决方案(语言无关性)<br />

方便双语词典的演化


1.2 兼容WN的中文概念词典 (CCD)的开发<br />

双语WordNet构造方法与辅助软件<br />

实现继承:英语网络中上下位关系信息的抽取<br />

上下位关系形成的树结构<br />

树结构信息编码(例如“005001002”)的可计算性<br />

优化搜索算法<br />

实现转换:从英语网络到汉语网络的转化<br />

针对节点,不涉及网络结构的改变:机器+手工的方式<br />

可用语言资源与计算方法<br />

词典:双语词典, 现汉,词林,语法词典,语义词典,HowNet 2000等<br />

语料库:动态词义知识获取<br />

针对关系边,涉及网络结构的改变:纯手工的方式<br />

可视化的、数据敏感的语义树及其操作<br />

节点添加、修改、删除<br />

子树迁移


1.2 兼容WN的中文概念词典 (CCD)的开发<br />

语言知识工程的质量控制:概念对应的语义原则和策略<br />

成词及词性原则<br />

the group following and attending to some important person<br />

{cortege retinue suite entourage}<br />

{随从,随员,左右,跟随,随行人员}<br />

准确性原则<br />

a very attractive or seductive looking woman<br />

{smasher stunner knockout beauty sweetheart peach lulu looker mantrap dish}<br />

{佳人,美人,美女,宝贝,心肝,佳丽,玉女 ,貂婵,狐狸精,绝色美女,绝代佳人,出水芙蓉}<br />

完备性原则<br />

someone who is very highly skilled<br />

{ace adept sensation maven virtuoso genius hotshot star whiz whizz wizard wiz}<br />

{专家,内行,大师,高手,巨匠,好手} 要不要加入 “大牛”、“牛人” 、“腕儿” 、“大腕” 等词语?<br />

语义原则的冲突与协调<br />

优先级别


1.2 兼容WN的中文概念词典 (CCD)的开发<br />

质量控制的本质是什么? 何谓“同义”?<br />

单一语言中的“同义”约定<br />

“可替换性”定义的3种不同强度的约束<br />

最弱约束情形下的“同义”实例<br />

配偶/妻子/老婆/夫人/太太/爱人/媳妇/女人/内人/内子/主妇/老伴/<br />

婆姨/婆娘/娘子/浑家/发妻/堂客/马子/领导/糟糠/浑人/山妻/贱内/<br />

那口子/贤内助/孩他妈/孩他娘/娃他娘/崽他娘/女主人/纪检委/另一<br />

半/烧火婆/黄脸婆/女当家/屋里的/财政部长/…<br />

双语或多语言间的“同义”约定<br />

一件更加困难的事情<br />

研究与开发现状<br />

对PWN 1.6的覆盖率已经在90%以上<br />

6.6万名词概念,1.2万动词概念,2.1万修饰词概念<br />

基本满足概念对应的语义原则,语义质量持续提高


1.2 兼容WN的中文概念词典 (CCD)的开发<br />

Offset Synset Hypernym Hyponym OtherRel Definition<br />

07632177<br />

教师<br />

教员<br />

老师<br />

先生<br />

师傅<br />

师爷<br />

师长<br />

阿姨<br />

导师<br />

老板<br />

孩子王<br />

臭老九<br />

07235322 070863320<br />

716230407<br />

209465072<br />

437670727<br />

965907297<br />

622073411<br />

760740109<br />

807414251<br />

074251800<br />

7494025<br />

******** 以教学为职业的人<br />

Offset Synset Hypernym Hyponym OtherRel Definition<br />

07331418<br />

丈夫<br />

先生<br />

夫君<br />

夫婿<br />

爱人<br />

老公<br />

郎君<br />

驸马<br />

驸马爷<br />

07602853 071094820<br />

719596807<br />

255726073<br />

28008<br />

******** 已婚男子;<br />

婚姻中女性一方的伴侣<br />

Offset Synset Hypernym Hyponym OtherRel Definition<br />

07414666<br />

先生<br />

师傅<br />

同志<br />

大哥<br />

老兄<br />

老弟<br />

07391044 ******** 对男子的一种称呼


1.3 兼容之外的发展<br />

CCD不仅仅是双语WordNet<br />

反映汉语的实际情况,对中文信息处理有切实帮助<br />

对概念、概念关系的界定、调整和发展<br />

增添汉语特有/显著的语义属性和特征<br />

简称(j),褒义(c),中性(n),贬义(d),正规(r),非正规(i)等<br />

涉及复杂结构的规划和调整<br />

分类原则、概念粒度等<br />

补充必要的组合关系信息<br />

自然语言处理任务和应用的客观需要<br />

搭配信息<br />

关注词义区分 (Word Sense Discrimination)及语言学证据的表现<br />

面向机器并影响人群,强调尽可能自动/半自动化的词义区分


1.3 兼容之外的发展<br />

词义区分的研究重要吗?<br />

“方向”<br />

“事情”<br />

(1) 指东、南、西、北等:在山里迷失了~<br />

(2) 正对的位置;前进的目标:军队朝渡口的~行进<br />

(3) 情势:看~做事<br />

(1),(2) 例句互换看看如何?<br />

(1) 人类生活中的一切活动和所遇到的一切社会现象:~多,忙不过来<br />

(2) 事故;差错:出~就麻烦了<br />

(3) 职业;工作:在公司里找了一个~<br />

“忙公司里的~”该标(1) /(3)?<br />

人分辨起来都困难的事情,机器(WSD)如何做好?<br />

为什么人分辨起来都困难?<br />

机器(WSD)有机会比人做得更好吗? Discrimination -> Disambiguation<br />

规范与方法的研究:“分义” vs. “分词”


1.3 兼容之外的发展<br />

词义区分的研究涉及的多种因素<br />

建立在可靠的数学方法上,形式化强<br />

促进词义问题的规范化与标准化<br />

只能从形式入手,如何从形式到意义(后验知识)<br />

人太聪明,可以有多重标准(语言,逻辑,认知与外部世界等)<br />

机器很笨,语言系统中的组合关系信息来得重要。舍我其谁?<br />

词义区分语言学证据的知识表示<br />

表示什么样的知识,如何表示这样的知识<br />

方法的开放性(对不同的词义,对不同的词义理论)<br />

词义区分语言学证据的知识获取<br />

稳定可靠、易于获取和使用的浅层(shllow)词义知识,如搭配信息<br />

WSD任务提出的要求


1.3 兼容之外的发展<br />

新的词义知识表示方法<br />

基本想法和策略<br />

强调通用、强势的概念体系<br />

理性原则:表达“粗粒”词义的聚合关系,综合“逻辑”, “社会存在”及“语言”等多种因素<br />

强调词的不同义项的区分手段和描写信息<br />

经验方法:表达“任一”词义的组合关系,只表现“语言使用”方面的显式证据<br />

“高层概念树+词义多元组”框架<br />

高层概念树<br />

参照SUMO+WordNet+CCD体系,计算生成方法<br />

单继承系统(结构化信息) vs. 语义原子的集合(无结构信息)<br />

适用多语言,封闭集,成员数 < 10,000,消歧依据:One Sense per Discourse/Topic<br />

词义多元组<br />

<br />

使用(usages)即意义(meaning),词义即搭配环境<br />

适用单语言,开放集,成员数 >100,000,消歧依据 :One Sense per Collocation


1.3 兼容之外的发展<br />

高层概念树的计算生成情况<br />

7000<br />

6000<br />

5000<br />

4000<br />

3000<br />

2000<br />

1000<br />

0<br />

1093<br />

66025<br />

66022<br />

1093<br />

6693<br />

2675<br />

394 350 350 84 84<br />

SUMO WordNet noun WordNet verb WordNet<br />

adjective<br />

Candidate Concept Coarse Concept Set<br />

WordNet adverb


1.3 兼容之外的发展<br />

“高层概念树+词义多元组”框架示意


2.1 什么是语料库<br />

在今天,仅仅将语料库视为存放语言材料的仓库,<br />

是令人无法忍受的观点。新一代的兆亿级的大规模<br />

语料库可以作为语言模型的训练和测试手段,来评<br />

价一个语言模型的质量;此外,诸如困惑度之类的<br />

统计方法也可利用语料库来评估一个语法模型对语<br />

料的解释能力。<br />

—— Geoffrey Leech, The State of The Art in Corpus<br />

Linguistics, 1991, In Aijmar, K. and Altenberg, B. , eds. ,<br />

English Corpus Linguistics: Studies in Honor of Jan<br />

Svartvik, London: Longman, 1991.


关于语料库的三点基本认识<br />

语料库中存放的是在语言的实际使用中真实出现过<br />

的语言材料;<br />

语料库是以电子计算机为载体承载语言知识的基础<br />

资源;<br />

真实语料需要经过加工(分析和处理),才能成为<br />

有用的资源;


语料库的分类<br />

口语语料<br />

书面语料<br />

共时语料<br />

历时语料<br />

平衡语料<br />

专门语料<br />

监测语料<br />

样本语料<br />

单语<br />

双语<br />

多语<br />

词性标注语料<br />

树库语料<br />

词义标注语料<br />

平行语料库<br />

比较语料库


语料库示例_1<br />

北京大学计算语言所富士通人民日报标注语料库样例:<br />

历史/n 将/d 铭记/v 这个/r 坐标/n :/w 北纬/b 4<br />

1.1/m 度/q 、/w 东经/b 114.3/m 度/q ;<br />

/w 人们/n 将/d 铭记/v 这/r 一/m 时刻/n :/w 19<br />

98年/t 1月/t 10日/t 11时/t 50分/t 。/w<br />

……<br />

[中国/ns 政府/n]nt 顺利/ad 恢复/v 对/p 香港/ns 行使<br />

/v 主权/n ,/w 并/c 按照/p “/w 一国两制/j ”/w 、/w<br />

“/w 港人治港/l ”/w 、/w 高度/d 自治/v 的/u 方针<br />

/n 保持/v 香港/ns 的/u 繁荣/an 稳定/an 。/w


语料库示例_2<br />

London-Lund英语口语语料库样例<br />

^what a_bout a cigar\ette# . /<br />

*((4 sylls))* /<br />

*I ^w\on't have one th/anks#* - - - /<br />

^aren't you .going to sit d/own# - /<br />

^[/\m]# - /<br />

^have my _coffee in p=eace# - - - /<br />

^quite a nice .room to !s\it in ((actually))# /<br />

*^\isn't* it# /<br />

*^y/\es#* - - - /<br />

转引自Tony McEnery & Andrew Wilson, 1996, Corpus Linguistics, p55


London-Lund英语口语语料库部分标记<br />

标记 含义<br />

# 语调群的结束 (end of tone group)<br />

^ 语音开始 (onset)<br />

/ 上升型核心语调 (rising nuclear tone)<br />

\ 下降型核心语调 (falling nuclear tone)<br />

^ 先升后降型核心语调 (rise-fall nuclear tone)<br />

_ 平型核心语调 (level nuclear tone)<br />

[ ] 不完整的词语和音节符号 (enclose partial words and phonetic symbols)<br />

. 标准重音 (normal stress)<br />

! 高音高于前一个音节的重音 (booster: higher pitch than preceding prominent syllable)<br />

= 高音跟前一个音节相当的重音 (booster: continuance)<br />

(( )) 不清晰的音节 (unclear)<br />

* * 同步发音 (simultaneous speech)<br />

- 一个重音单位的停顿 (pause of one stress unit)


2.2 语料库发展简史<br />

Chomsky影响(20世纪50年代)<br />

第一代 (1970~ 80年代)<br />

第二代 (1980~ 90年代)<br />

第三代 (1990年代)<br />

第四代 ? (21世纪)


第一代语料库<br />

Brown语料库<br />

LOB语料库<br />

LLC语料库<br />

百万词级<br />

以语言研究为导向<br />

1960年代初,美国Brown大学,100万词次,<br />

当代美国英语,根据系统性原则采样,……<br />

1970年代初,英国Lancaster大学,挪威Oslo<br />

大学,挪威Bergen大学,当代英国英语,……<br />

1960年代初,由London大学Randolph Quirk主<br />

持,收集2000小时的谈话和广播等口语素材并<br />

整理成书面材料,由瑞典Lund大学J. Svartvik<br />

主持全部录入计算机,1975年建成……


第二代语料库<br />

COBUILD语料库<br />

Longman语料库<br />

千万词级<br />

词典编纂 - 应用导向<br />

建于1980年代,由英国Birmingham大学<br />

与Collins出版社合作完成,规模达2000万<br />

词次,基于该语料库出版的Collins<br />

Cobuild词典(1987)受到了广泛的好评<br />

建于1980年代,包括三个语料库:<br />

LLELC语料库(Longman/Lancaster英语<br />

语料库)<br />

LSC语料库(Longman口语语料库)<br />

LCLE(Longman英语学习语料库)<br />

目标是编撰英语学习词典,为外国人学<br />

习英语服务,词典规模达5000万词次


第三代语料库<br />

ACL/DCI语料库<br />

UPenn树库<br />

LDC<br />

超大规模(上亿词级)<br />

标准编码体系<br />

深度标注/多语种<br />

NLP应用<br />

美国计算语言学会倡议发起“数据采集<br />

计划”(Data Collection Initiative),<br />

由宾州大学M.Liberman主持,保存语<br />

料原始文本形式以及SGML标注信息


宾州大学树库(UPenn Treebank)<br />

美国Pennsylvania大学1980年代末开始发起<br />

由该校计算机系M.Marcus主持<br />

1993年,完成了对近300万英语词的句子语法结构标注<br />

2000年发布中文树库(第一版)<br />

10万词,4185个句子,325 data files(新华社语料)<br />

2004年发布中文树库 4.0版<br />

404,156 words, 664,633 Hanzi, 15,162 sentences, and<br />

838 data files(大陆、香港、台湾语料)


宾州大学中文树库示例<br />

他还提出一系列具体措施和政策要点。<br />

他/PN 还/AD 提出/VV 一/CD 系列/M 具体/JJ 措施/NN 和/CC 政策/NN<br />

要点/NN 。/PU


2.3 语料库的设计<br />

语料库三方面 属性 值<br />

A. 语料本身 规模 百万词级 | 千万词级 | 亿万词级 | …<br />

领域 政治 | 经济 | 体育 | 心理学 | …<br />

体裁 文学 | 应用文 | 新闻 | …<br />

时代 共时 | 历时<br />

语体 书面语 | 口语<br />

语种 单语 | 双语 | 多语<br />

双语平行语料库 | 双语比较语料库<br />

语言层次 语音(音节,韵律) | 语法(词,句,…)<br />

B. 语料加工 数据形式 Text文本 | HTML文本 | 数据库 | …<br />

编码体系 TEI标准 | 自定义编码体系 | …<br />

加工层次 词性 | 句法 | 语义 | 语篇 | … |双语句子对齐 | 词对齐 | …<br />

加工方式 自动 | 人机互助 | 人工<br />

C. 语料应用 应用领域 通用 | 词典编纂 | 机器翻译 | …<br />

辅助软件 检索工具 | 人机界面 | 数据接口 | …


语料的选取<br />

精品原则<br />

有影响力原则<br />

随机挑选原则<br />

高流通度原则<br />

典型性原则<br />

易于获得原则<br />

具有统计样本意义原则<br />

符合语言规范原则


语料库的编码体系<br />

SGML(标准置标语言)<br />

http://www.w3.org/MarkUp/SGML/<br />

XML (可扩展的置标语言)<br />

http://www.w3.org/TR/REC-xml<br />

TEI (文档编码计划)<br />

http://www.tei-c.org/<br />

CES (语料库编码标准)<br />

http://www.tei-c.org/Applications/index-co02.html<br />

范围缩<br />

小,针<br />

对性加<br />

强<br />

冯志伟,1998,《标准通用置标语言SGML及其在自然语言处理中的应<br />

用》,载《当代语言学》1998年第4期。


CES标准(Corpus Encoding Standard)<br />

语料库/n 标记/n 应该/v 有/v 规范/n<br />

<br />

…<br />

<br />

<br />

语料库<br />

标记<br />

应该<br />

有<br />

规范<br />

<br />

<br />

…<br />

<br />

语料库A: 不符合CES<br />

语料库B: 符合CES


2.4 语料库的加工<br />

语料库标注(Annotation)<br />

(1) 词性标记(Part-of-speech tagging)<br />

(2) 句法层次和范畴标记(Grammatical parsing)<br />

(3) 词义标记(Word sense tagging)<br />

(4) 篇章指代标记(Anaphoric annotation)<br />

(5) 韵律标记(Prosodic annotation)<br />

……<br />

http://www.comp.lancs.ac.uk/computing/research/ucrel/annotation.html


语料库加工工具<br />

分类 工具名称 功能描述<br />

文件处理工<br />

具<br />

语言处理工<br />

具<br />

文本过滤器 将不同的文件格式转成为纯文本文件格式<br />

文本分类器 自动判别文本领域<br />

语料库辅助校对工具及<br />

一致性检查工具<br />

按照语料库加工规范,对语料质量进行管<br />

理<br />

分词与词性标注工具 对语料进行词语识别,词性标记处理<br />

词义标注工具 对词义进行标注<br />

浅层分析工具 对语块(chunk)进行标注<br />

句法分析工具 对句子进行完全句法分析<br />

双语语料对齐工具 对双语语料进行各个层级(段落、句子、小<br />

句、词)的对齐加工


双语语料库(Bilingual Corpora)加工<br />

段落对齐<br />

句子对齐<br />

短语对齐<br />

词对齐


双语句子对齐<br />

基于长度(length-based)的对齐方法 Gale & Church ( 1993 )<br />

纯粹基于句子的长度来估计对齐可能性<br />

资源要求少,算法效率相对较高<br />

Church, Kenneth W. & Mercer, R. L., Introduction to the special issue on computational<br />

linguistics using large corpors, In Computational Linguistics, Vol. 19, No.1, 1993.<br />

基于词(word-based)的对齐方法<br />

一般要依赖词典资源,算法效率相对较低


双语句子对齐示例<br />

中国支持在平等参与、协商一<br />

致、求同存异、循序渐进的基<br />

础上,开展多层次、多渠道、<br />

多形式的地区安全对话与合作。<br />

中国参加了东盟地区论坛、亚<br />

洲建立协作与建立信任措施会<br />

议、亚太安全合作理事会和东<br />

北亚合作对话会等活动,主张<br />

通过这些政府和民间讨论安全<br />

问题的重要渠道,增进各国的<br />

相互了解与信任,促进地区和<br />

平与稳定。<br />

……<br />

China advocates regional-security dialogue and cooperation at<br />

different levels, through various channels and in different forms.<br />

Such dialogue and cooperation should follow these principles:<br />

participation on an equal footing, reaching unanmimity through<br />

consultation, seeking common ground while reserving<br />

differences, and proceeding in an orderly way and step by step.<br />

China has participated in the ASEAN Regional Forum (ARF),<br />

Conference on Interaction and Confidence-Building<br />

Measures in Asia (CICA), Council on Security Cooperation in<br />

Asia and Pacific Regional (CSCAP), Northeast Asia<br />

Cooperation Dialogue (NEACD) and other activities, holding<br />

that all countries should further mutual understanding and<br />

trust by discussions on security issues through these<br />

important governmental and non-governmental channels, so<br />

as to promote regional peace and stability.<br />

……


双语句子对齐问题<br />

s 1<br />

s 2<br />

s 3<br />

s 4<br />

…<br />

s m<br />

t 1<br />

t 2<br />

t 3<br />

t 4<br />

…<br />

t n<br />

影响对齐猜测<br />

的两个因素:<br />

• 配对模式<br />

• 句长差距


句子配对模式(记做Match)<br />

Gale & Church(1993) 定义了六种配对模式,在实际语料 1<br />

中的分布频度为:<br />

句子配对模式<br />

(Match)<br />

出现次数 概率<br />

P(Match)<br />

1-0 或 0-1 13 0.0099<br />

1-1 1167 0.89<br />

1-2 或 2-1 117 0.089<br />

2-2 15 0.011<br />

1312 1.00<br />

Note1: UBS/Union Bank of Switzerland出版的经济报告,同时使用英、<br />

法、德三种语言


句长相关性 Gale & Church(1993)


2.5 语料库应用<br />

支持自然语言处理应用系统开发<br />

支持语言学研究和语言教学研究


语料库对NLP的支持<br />

基于大规模语料库的语音识别<br />

基于大规模语料库的音字转换技术(中文输入)<br />

基于大规模语料库的自动文本校对技术<br />

利用语料库训练HMM模型进行分词,词性标注,词义标注等<br />

基于语料库的句法分析<br />

基于语料库的机器翻译<br />

基于机器学习技术,通过语料库获取语言知识,包括搭配特征,<br />

句法规则等<br />

基于语料库的语言模型训练和语法模型评价<br />

支持NLP自动评测


中文音字转换(续)<br />

拼音串(无声调) xue xi dian nao ji shu<br />

候选字串 雪 系 点 脑 机 树 共有<br />

学<br />

学<br />

洗 电<br />

西 颠<br />

闹 给 述<br />

挠 记 书<br />

14×98×41×1<br />

5×167×68 =<br />

95.8亿种可能性<br />

……<br />

候选词串 学习 电脑 级数 共有<br />

血洗<br />

血洗<br />

……<br />

电脑<br />

电脑<br />

奇数<br />

基数<br />

2×1×7=14种<br />

可能性<br />

正确文字串 学习 电脑 技术


基于语料库的语言研究<br />

Concordance (索引 —— 相关集列)<br />

Collocation (搭配的定量研究)<br />

Cobuild Concordance and Collocations Sampler<br />

http://titania.cobuild.collins.co.uk/form.html<br />

台湾“中研院”现代汉语平衡语料库<br />

http://www.sinica.edu.tw/ftms-bin/kiwi.sh<br />

孙茂松等,1997,《汉语搭配定量分析初探》,载《中国语文》<br />

1997年第1期。pp29-38。


关于搭配的描述与定义<br />

搭配是重复出现的<br />

“大房子” —— “大手笔” —— “大文科” / “大历史”<br />

搭配是不可类推的(自由组合 —— 受限组合)<br />

“吃白菜” —— “吃豆腐” ——“喝西北风”<br />

搭配一般具有正常的句法结构<br />

“戴高帽” —— ? “戴高” —— “风马牛不相及”<br />

搭配通常与领域相关<br />

“语言习得” ——“学说话” “风险投资”


搭配的量化分析_1<br />

语料库:90-91年新华社新闻语料库,1000万字,710万词<br />

搭配强度: 重复出现越多,搭配强度越大<br />

MI ( wi<br />

, w j ) = log2<br />

S(<br />

w , w<br />

K 表示w j 相对于w i 的<br />

位置<br />

-表示在左,+表示在<br />

右(+号一般略去)<br />

i<br />

j<br />

)<br />

=<br />

log<br />

2<br />

N<br />

p(<br />

w , w<br />

p(<br />

w<br />

5<br />

∑<br />

k 5<br />

+<br />

= −<br />

<strong>Count</strong>(<br />

w<br />

i<br />

i<br />

j<br />

) p(<br />

w<br />

<strong>Count</strong><br />

i<br />

)<br />

j<br />

k<br />

)<br />

( w , w<br />

) <strong>Count</strong>(<br />

w<br />

K= -5, -4, -3, -2, -1, 1, 2, 3, 4, 5<br />

N 表示语料库规模<br />

N<br />

=<br />

i<br />

j<br />

j<br />

)<br />

7 . 1 ×<br />

)<br />

10<br />

6


搭配强度的量化分析示例<br />

候选搭配: (能力,弱) (能力,大)<br />

通过语料库统计得到:<br />

<strong>Count</strong> ( 能力 , 弱 ) = 1 <strong>Count</strong> ( 能力 , 弱 ) = 3 <strong>Count</strong> ( 能力 , 弱 ) = 5<br />

<strong>Count</strong><br />

……<br />

− 3<br />

− 5<br />

1<br />

( 能力 , 大 ) =<br />

<strong>Count</strong> ( 能力 , 大 ) = 9<br />

<strong>Count</strong>(<br />

能力 ) =<br />

6<br />

2241<br />

1<br />

<strong>Count</strong> ( 能力 , 大 ) = 4 <strong>Count</strong> ( 能力 , 大 ) = 8<br />

− 4<br />

…… <strong>Count</strong>(<br />

能力 , 大 ) = 5<br />

<strong>Count</strong>(<br />

弱 ) = 177<br />

2<br />

− 3<br />

5<br />

<strong>Count</strong>(<br />

大 ) = 19913


搭配强度的量化分析示例(续)<br />

S(<br />

能力 , 弱 )<br />

=<br />

S(<br />

能力 , 大 ) = log<br />

同理可得:<br />

log<br />

2<br />

2<br />

7.<br />

1<br />

6<br />

× 10 ( 1 + 3 +<br />

2241 × 177<br />

5)<br />

=<br />

7.<br />

33<br />

6<br />

7.<br />

1×<br />

10 ( 6+<br />

4+<br />

8+<br />

4+<br />

2+<br />

9+<br />

6+<br />

4+<br />

6+<br />

5)<br />

=<br />

2241×<br />

19913<br />

3.<br />

10<br />

S( 能力 , 强 ) = 7.<br />

45 S( 能力 , 差 ) = 6.<br />

63 S(<br />

能力 , 小 ) = 0.<br />

74<br />

与“能力”的搭配能力: 强 > 弱 > 差 > 大 > 小


搭配的量化分析_2<br />

搭配的离散度 方差公式<br />

均值公式<br />

n<br />

w<br />

w<br />

<strong>Count</strong><br />

w<br />

w<br />

<strong>Count</strong><br />

n<br />

n<br />

k<br />

j<br />

i<br />

k<br />

j<br />

i<br />

2<br />

)<br />

,<br />

(<br />

)<br />

,<br />

(<br />

∑ −<br />

=<br />

=<br />

n<br />

w<br />

w<br />

<strong>Count</strong><br />

w<br />

w<br />

<strong>Count</strong><br />

w<br />

w<br />

u<br />

n<br />

n<br />

k<br />

j<br />

i<br />

j<br />

i<br />

k<br />

j<br />

i<br />

2<br />

))<br />

,<br />

(<br />

)<br />

,<br />

(<br />

((<br />

)<br />

,<br />

(<br />

2<br />

∑ −<br />

=<br />

−<br />

=<br />

5<br />

=<br />

n<br />

离散度反映两个成分共现的分布情况。离散度越高,越可能是搭配


搭配离散度的量化分析示例<br />

候选搭配: (能力,丧失) (能力,方面)<br />

通过语料库统计得到:<br />

<strong>Count</strong> 能力 , 丧失 ) <strong>Count</strong> ( 能力 , 丧失 ) = 1 <strong>Count</strong> ( 能力 , 丧失 ) = 8<br />

− 4 ( = −3<br />

<strong>Count</strong> 能力 , 方面 ) = <strong>Count</strong> ( 能力 , 方面 ) = 2 <strong>Count</strong> ( 能力 , 方面 ) = 3<br />

<strong>Count</strong><br />

− 4 ( 1<br />

− 2<br />

8<br />

( 能力 , 方面 ) = <strong>Count</strong>−1(<br />

能力 , 方面 ) = <strong>Count</strong>2(<br />

能力 , 方面 ) = 1<br />

<strong>Count</strong> 10次<br />

6<br />

4<br />

2<br />

0<br />

-5 -4 -3 -2 -1 1 2 3 4 5<br />

K<br />

− 2<br />

− 3<br />

(能力,丧失)<br />

(能力,方面)<br />

共现<br />

10次<br />

共现


搭配离散度的量化分析示例(续)<br />

1<br />

5<br />

2<br />

8<br />

1<br />

1<br />

)<br />

,<br />

( =<br />

×<br />

+<br />

+<br />

=<br />

丧失<br />

能力<br />

<strong>Count</strong> 1<br />

5<br />

2<br />

1<br />

2<br />

1<br />

1<br />

3<br />

2<br />

)<br />

,<br />

( =<br />

×<br />

+<br />

+<br />

=<br />

+<br />

+<br />

+<br />

方面<br />

能力<br />

<strong>Count</strong><br />

60<br />

.<br />

5<br />

10<br />

)<br />

1<br />

8<br />

(<br />

)<br />

1<br />

1<br />

(<br />

)<br />

1<br />

1<br />

(<br />

)<br />

,<br />

(<br />

2<br />

2<br />

2<br />

=<br />

−<br />

+<br />

−<br />

+<br />

−<br />

=<br />

丧失<br />

能力<br />

u<br />

00<br />

.<br />

1<br />

10<br />

)<br />

1<br />

1<br />

(<br />

3<br />

)<br />

1<br />

3<br />

(<br />

)<br />

1<br />

2<br />

(<br />

2<br />

)<br />

,<br />

(<br />

2<br />

2<br />

2<br />

=<br />

−<br />

×<br />

+<br />

−<br />

+<br />

−<br />

×<br />

=<br />

方面<br />

能力<br />

u<br />

“丧失”与“能力”构成搭配关系,而“方面”跟“能力”不构成搭配关系


搭配的量化分析_3<br />

搭配的尖峰位置度量<br />

)<br />

,<br />

(<br />

)<br />

,<br />

(<br />

)<br />

,<br />

(<br />

(<br />

)<br />

,<br />

(<br />

j<br />

i<br />

j<br />

i<br />

j<br />

i<br />

k<br />

j<br />

i<br />

k<br />

w<br />

w<br />

u<br />

w<br />

w<br />

<strong>Count</strong><br />

w<br />

w<br />

<strong>Count</strong><br />

w<br />

w<br />

Z<br />

−<br />

=<br />

)<br />

,<br />

(<br />

)<br />

,<br />

(<br />

)<br />

,<br />

(<br />

)<br />

,<br />

(<br />

2<br />

2<br />

丧失<br />

能力<br />

丧失<br />

能力<br />

丧失<br />

能力<br />

丧失<br />

能力<br />

u<br />

<strong>Count</strong><br />

<strong>Count</strong><br />

Z<br />

−<br />

=<br />

−<br />

−<br />

6<br />

.<br />

5<br />

1<br />

8 −<br />

=<br />

96<br />

.<br />

2<br />

=<br />

“丧失”在 -2 位置形成尖锋


“尖锋位置”的语言学含义<br />

反映W j 与W i 可能形成的句法结构<br />

能力 - 具有 尖峰位置 -3, -2 述宾结构<br />

能力 - 差 尖锋位置 1 主谓结构<br />

能力 - 提高 尖峰位置 -4,-3; 1,3 述宾|主谓<br />

Z −3<br />

( 能力 , 提高 ) > Z1(<br />

能力 , 提高 )<br />

能力 - 吞吐 尖峰位置 -1 定中结构


进一步阅读文献<br />

Gale, W. & Church,K., A program for aligning sentence in bilingual corpora, In<br />

Computational linguistics, Vol.19, No.1, 1993.<br />

刘昕,周明,黄昌宁,1995,基于长度算法的中英双语文本对齐的试验 , 陈力<br />

为等主编《计算语言学进展与应用》,清华大学出版社。<br />

孙宏林,1997,《从标注语料库中归纳语法规则:“V+N”序列试验分析》,陈力<br />

为等主编《语言工程》,清华大学出版社,pp157-163。<br />

《当代语言学》1998年第1期,语料库语言学专刊。<br />

Graeme Kennedy, 1998, An Introduction to Corpus Linguistics, Addison Wesley<br />

Longman Limited. (外语教育与研究出版社2000年原版引进)<br />

Anthony Woods, Paul Fletcher, Arthur Hughes,1986, Statistics in Language<br />

Studies, Cambridge University Press. (外语教育与研究出版社2000年原版引进)<br />

黄昌宁, 李涓子,2002,《语料库语言学》,商务印书馆。


复习思考题<br />

1. 访问台湾中研院“现代汉语平衡语料库”网站,查询“能力”这<br />

个词在语料中的使用情况,撰写分析报告;<br />

2. 访问网上语料库资源<br />

LDC(Linguistic Data Consortium)<br />

http://www.ldc.upenn.edu/Catalog/index.html<br />

Upenn 中文树库<br />

http://www.ldc.upenn.edu/Catalog/LDC2000T48.html<br />

Livac共时语料库<br />

http://www.rcl.cityu.edu.hk/livac/search.php?lang=sc

Hooray! Your file is uploaded and ready to be published.

Saved successfully!

Ooh no, something went wrong!