Count - 北京大学中国语言学研究中心
Count - 北京大学中国语言学研究中心
Count - 北京大学中国语言学研究中心
You also want an ePaper? Increase the reach of your titles
YUMPU automatically turns print PDFs into web optimized ePapers that Google loves.
第六讲 语言知识库和语料库的构建技术<br />
http://ccl.pku.edu.cn/Alcourse/nlp<br />
自然语言处理导论课程讲义
提纲<br />
1 语言知识库的构建--以CCD为例<br />
1.1 WordNet (WN)网络框架介绍<br />
1.2 兼容WN的中文概念词典 (CCD) 的开发<br />
1.3 兼容之外的发展<br />
2 语料库的构建与应用<br />
2.1 什么是语料库<br />
2.2 语料库的发展简史<br />
2.3 语料库的设计<br />
2.4 语料库的加工<br />
2.5 语料库的应用
1.1 WordNet (WN)网络框架介绍<br />
自然语言处理的发展<br />
从词法分析、句法分析到语义分析<br />
Web应用对“内容理解”的强烈需求<br />
智能检索,文本分类,自动文摘,语义推理,WSD ,Semantic Web应用等<br />
语义分析的不同语言单位和层次<br />
词,短语<br />
小句,句,句群,段落,篇章,多篇章和跨语言<br />
词义分析、计算的基础在哪里?<br />
词义:概念 vs. 知识本体(Ontology)<br />
语言中的聚合(paradigmatic)关系与组合(syntagmatic)关系信息<br />
关于“词义”,丢弃了什么我们才能得到“概念”?
1.1 WordNet (WN)网络框架介绍<br />
Princeton大学WordNet的理论与方法<br />
概念:由同义词集(Synset)来表示,概念即同义词集<br />
{教师,教员,老师,先生,师傅,师爷,孩子王,臭老九,阿姨,导师,老板}<br />
知识本体:概念及概念之间多种语义关系,形成概念网络<br />
一个高度形式化的、通用/跨语言的词义知识表示方法<br />
HowNet 对词义的内涵式定义:意在定义,关注个体,建立在义素分析及格语法上<br />
WordNet对词义的外延式定义:意在区分,关注系统,建立在词义系统结构分析上<br />
词义即多种语义关系约束构成的网络结构,此外,词义的任何定义都是多余的<br />
添加新词、新义项时只需要 将特定词加入特定同义词集<br />
一个可以对词义进行分析、计算的基础,一个同义词集之上的 “形-义”<br />
系统
1.1 WordNet (WN)网络框架介绍<br />
概念的形成<br />
概念化(conceptualization)与词汇化(lexicalization)<br />
“同义词集”表示“概念”: 一词多义vs. 一义多词<br />
词义<br />
M 1<br />
M 2<br />
M 3<br />
…<br />
M m<br />
F 1<br />
F 2<br />
词形<br />
F 3<br />
… F n<br />
E(1,1) E(1,2) E(1,n)<br />
E(2,2)<br />
E(3,1) E(3,3)<br />
E(m,n)
1.1 WordNet (WN)网络框架介绍<br />
知识本体的形成<br />
“概念”间的几种典型“语义关系”构成“概念网络”<br />
名词概念及其<br />
关系指针<br />
反义关系<br />
Antonymy<br />
下位关系<br />
Hyponymy<br />
上位关系<br />
Hypernymy<br />
部分关系<br />
Meronymy<br />
整体关系<br />
Holonymy<br />
属性<br />
Attribute<br />
动词概念及其<br />
关系指针<br />
! 反义关系<br />
Antonymy<br />
~ 下位关系<br />
Troponymy<br />
@ 上位关系<br />
Hypernymy<br />
# 蕴涵关系<br />
Entailment<br />
% 致使关系<br />
Cause<br />
= 又见<br />
Also See<br />
形容词概念及其<br />
关系指针<br />
! 反义关系<br />
Antonymy<br />
~ 近义关系<br />
Similar<br />
@ 关系性形容词<br />
Relational Adj.<br />
* 又见<br />
Also See<br />
> 属性<br />
Attribute<br />
ˆ<br />
副词概念及其<br />
关系指针<br />
! 反义关系<br />
Antonymy<br />
& 导出形式<br />
Derived<br />
From<br />
\<br />
ˆ<br />
=<br />
!<br />
\
1.1 WordNet (WN)网络框架介绍<br />
知识本体的形成(续)<br />
在语言学上严加界定的“语义关系”,以动词为例
1.1 WordNet (WN)网络框架介绍<br />
WordNet中网状数据的组织
1.1 WordNet (WN)网络框架介绍<br />
WordNet中网状数据的组织(续)
1.1 WordNet (WN)网络框架介绍<br />
WordNet及其家族(WordNets) 的发展<br />
语言知识工程的假设原则<br />
可分离性假设(Separability Hypothesis)<br />
模式假设(Patterning Hypothesis)<br />
广泛性假设(Comprehensiveness Hypothesis)<br />
G. A. Miller等于1985启动语言工程<br />
基于义素分析方法探索的失败(与HowNet截然不同的实验报告)<br />
开始尝试基于语义关系的新方法<br />
不做玩具系统(toy system),在整个语言系统的规模上实施语言工程<br />
确定只描述开放词类,即名,动,形,副词概念<br />
PWN 1.6版本的诞生<br />
1997年发布,含99,642 个概念,238,442对语义关系<br />
迄今为止普遍研究和应用的一个 WordNet版本,已建立与SUMO的联结
1.1 WordNet (WN)网络框架介绍<br />
WordNet家族(WordNets) 的发展<br />
词义级(概念) 的国际“中间语”地位的确立<br />
跨语言交流的需要及人类“共同概念体系”的假定<br />
“词义”与“词法” 的情况明显不同,如何看与单一语言挂钩的“词义知识”?<br />
双语WordNet(the bilingual WordNets)<br />
全球超过40个语种,汉语有包括大陆、台湾地区在内的3个不同版本<br />
多语WordNet(the multilingual WordNets)<br />
EuroWordNet,包括8种主要欧洲语言及10多种外围语言<br />
WN国际学术组织和国际学术会议<br />
GWA官方网址: globalwordnet.org<br />
GWC’02 ,GWC’04 ,GWC’06 ,GWC’08 …<br />
广泛的NLP应用尝试(找你所需),目前最重要的共享语义资源<br />
google.com检索: 11,700,000 项<br />
scholar.google.com检索: 24,700 项
1.1 WordNet (WN)网络框架介绍<br />
WordNet目前存在的问题<br />
涉及“词义”的组合关系信息的缺失<br />
计算语言学家吹毛求疵的要求?<br />
如果不是的话,基于“概念”的系统能加入该类信息吗? 如何加入?<br />
涉及“词义”的聚合关系信息的评价<br />
语义关系的种类及实际描写的信息够与不够<br />
“概念”的语义颗粒度(sense granularity)问题<br />
最多深达18层的名词概念实际意味着什么? 适合的语义颗粒度在哪里?<br />
知识本体:一个看上去 “有些糟糕的”(bad-structured)上层概念结构体系<br />
WordNet作为心理语言学家的实验品的根源<br />
√ Igavehimanovel,but the book bored him. 我送他一本小说,但这本书让他心烦。<br />
* I gave him a novel,but the catsup bored him. 我送他一本小说,但番茄酱让他心烦。<br />
语义关系信息通过考察句例和句式获取,上层结构排斥任何人工/理性知识注入
1.1 WordNet (WN)网络框架介绍<br />
“有些糟糕的”上层概念结构体系,以名词为例
1.1 WordNet (WN)网络框架介绍<br />
主语义关系(上下位关系)谬误的发掘<br />
同语义类的多继承现象(ring)与跨语义类的单继承关系现象(isolator)
1.2 兼容WN的中文概念词典 (CCD)的开发<br />
CCD作为双语WordNet<br />
提供汉英双语的概念对应<br />
可以直接复用现有的WordNet的理论、方法、技术<br />
全球WordNet资源建设的组成部分<br />
构造双语WordNet的焦点与难点<br />
两类不同的知识体系和概念对应<br />
大规模的复杂网络结构<br />
单一语言中包含约10 5 个概念节点,10 6 个语义关系<br />
实用、高效的双语WordNet构造模型的必要特征<br />
强调双语词典构造中的继承与转换<br />
英语语义网络的复用与调整<br />
通用的双语WordNet解决方案(语言无关性)<br />
方便双语词典的演化
1.2 兼容WN的中文概念词典 (CCD)的开发<br />
双语WordNet构造方法与辅助软件<br />
实现继承:英语网络中上下位关系信息的抽取<br />
上下位关系形成的树结构<br />
树结构信息编码(例如“005001002”)的可计算性<br />
优化搜索算法<br />
实现转换:从英语网络到汉语网络的转化<br />
针对节点,不涉及网络结构的改变:机器+手工的方式<br />
可用语言资源与计算方法<br />
词典:双语词典, 现汉,词林,语法词典,语义词典,HowNet 2000等<br />
语料库:动态词义知识获取<br />
针对关系边,涉及网络结构的改变:纯手工的方式<br />
可视化的、数据敏感的语义树及其操作<br />
节点添加、修改、删除<br />
子树迁移
1.2 兼容WN的中文概念词典 (CCD)的开发<br />
语言知识工程的质量控制:概念对应的语义原则和策略<br />
成词及词性原则<br />
the group following and attending to some important person<br />
{cortege retinue suite entourage}<br />
{随从,随员,左右,跟随,随行人员}<br />
准确性原则<br />
a very attractive or seductive looking woman<br />
{smasher stunner knockout beauty sweetheart peach lulu looker mantrap dish}<br />
{佳人,美人,美女,宝贝,心肝,佳丽,玉女 ,貂婵,狐狸精,绝色美女,绝代佳人,出水芙蓉}<br />
完备性原则<br />
someone who is very highly skilled<br />
{ace adept sensation maven virtuoso genius hotshot star whiz whizz wizard wiz}<br />
{专家,内行,大师,高手,巨匠,好手} 要不要加入 “大牛”、“牛人” 、“腕儿” 、“大腕” 等词语?<br />
语义原则的冲突与协调<br />
优先级别
1.2 兼容WN的中文概念词典 (CCD)的开发<br />
质量控制的本质是什么? 何谓“同义”?<br />
单一语言中的“同义”约定<br />
“可替换性”定义的3种不同强度的约束<br />
最弱约束情形下的“同义”实例<br />
配偶/妻子/老婆/夫人/太太/爱人/媳妇/女人/内人/内子/主妇/老伴/<br />
婆姨/婆娘/娘子/浑家/发妻/堂客/马子/领导/糟糠/浑人/山妻/贱内/<br />
那口子/贤内助/孩他妈/孩他娘/娃他娘/崽他娘/女主人/纪检委/另一<br />
半/烧火婆/黄脸婆/女当家/屋里的/财政部长/…<br />
双语或多语言间的“同义”约定<br />
一件更加困难的事情<br />
研究与开发现状<br />
对PWN 1.6的覆盖率已经在90%以上<br />
6.6万名词概念,1.2万动词概念,2.1万修饰词概念<br />
基本满足概念对应的语义原则,语义质量持续提高
1.2 兼容WN的中文概念词典 (CCD)的开发<br />
Offset Synset Hypernym Hyponym OtherRel Definition<br />
07632177<br />
教师<br />
教员<br />
老师<br />
先生<br />
师傅<br />
师爷<br />
师长<br />
阿姨<br />
导师<br />
老板<br />
孩子王<br />
臭老九<br />
07235322 070863320<br />
716230407<br />
209465072<br />
437670727<br />
965907297<br />
622073411<br />
760740109<br />
807414251<br />
074251800<br />
7494025<br />
******** 以教学为职业的人<br />
Offset Synset Hypernym Hyponym OtherRel Definition<br />
07331418<br />
丈夫<br />
先生<br />
夫君<br />
夫婿<br />
爱人<br />
老公<br />
郎君<br />
驸马<br />
驸马爷<br />
07602853 071094820<br />
719596807<br />
255726073<br />
28008<br />
******** 已婚男子;<br />
婚姻中女性一方的伴侣<br />
Offset Synset Hypernym Hyponym OtherRel Definition<br />
07414666<br />
先生<br />
师傅<br />
同志<br />
大哥<br />
老兄<br />
老弟<br />
07391044 ******** 对男子的一种称呼
1.3 兼容之外的发展<br />
CCD不仅仅是双语WordNet<br />
反映汉语的实际情况,对中文信息处理有切实帮助<br />
对概念、概念关系的界定、调整和发展<br />
增添汉语特有/显著的语义属性和特征<br />
简称(j),褒义(c),中性(n),贬义(d),正规(r),非正规(i)等<br />
涉及复杂结构的规划和调整<br />
分类原则、概念粒度等<br />
补充必要的组合关系信息<br />
自然语言处理任务和应用的客观需要<br />
搭配信息<br />
关注词义区分 (Word Sense Discrimination)及语言学证据的表现<br />
面向机器并影响人群,强调尽可能自动/半自动化的词义区分
1.3 兼容之外的发展<br />
词义区分的研究重要吗?<br />
“方向”<br />
“事情”<br />
(1) 指东、南、西、北等:在山里迷失了~<br />
(2) 正对的位置;前进的目标:军队朝渡口的~行进<br />
(3) 情势:看~做事<br />
(1),(2) 例句互换看看如何?<br />
(1) 人类生活中的一切活动和所遇到的一切社会现象:~多,忙不过来<br />
(2) 事故;差错:出~就麻烦了<br />
(3) 职业;工作:在公司里找了一个~<br />
“忙公司里的~”该标(1) /(3)?<br />
人分辨起来都困难的事情,机器(WSD)如何做好?<br />
为什么人分辨起来都困难?<br />
机器(WSD)有机会比人做得更好吗? Discrimination -> Disambiguation<br />
规范与方法的研究:“分义” vs. “分词”
1.3 兼容之外的发展<br />
词义区分的研究涉及的多种因素<br />
建立在可靠的数学方法上,形式化强<br />
促进词义问题的规范化与标准化<br />
只能从形式入手,如何从形式到意义(后验知识)<br />
人太聪明,可以有多重标准(语言,逻辑,认知与外部世界等)<br />
机器很笨,语言系统中的组合关系信息来得重要。舍我其谁?<br />
词义区分语言学证据的知识表示<br />
表示什么样的知识,如何表示这样的知识<br />
方法的开放性(对不同的词义,对不同的词义理论)<br />
词义区分语言学证据的知识获取<br />
稳定可靠、易于获取和使用的浅层(shllow)词义知识,如搭配信息<br />
WSD任务提出的要求
1.3 兼容之外的发展<br />
新的词义知识表示方法<br />
基本想法和策略<br />
强调通用、强势的概念体系<br />
理性原则:表达“粗粒”词义的聚合关系,综合“逻辑”, “社会存在”及“语言”等多种因素<br />
强调词的不同义项的区分手段和描写信息<br />
经验方法:表达“任一”词义的组合关系,只表现“语言使用”方面的显式证据<br />
“高层概念树+词义多元组”框架<br />
高层概念树<br />
参照SUMO+WordNet+CCD体系,计算生成方法<br />
单继承系统(结构化信息) vs. 语义原子的集合(无结构信息)<br />
适用多语言,封闭集,成员数 < 10,000,消歧依据:One Sense per Discourse/Topic<br />
词义多元组<br />
<br />
使用(usages)即意义(meaning),词义即搭配环境<br />
适用单语言,开放集,成员数 >100,000,消歧依据 :One Sense per Collocation
1.3 兼容之外的发展<br />
高层概念树的计算生成情况<br />
7000<br />
6000<br />
5000<br />
4000<br />
3000<br />
2000<br />
1000<br />
0<br />
1093<br />
66025<br />
66022<br />
1093<br />
6693<br />
2675<br />
394 350 350 84 84<br />
SUMO WordNet noun WordNet verb WordNet<br />
adjective<br />
Candidate Concept Coarse Concept Set<br />
WordNet adverb
1.3 兼容之外的发展<br />
“高层概念树+词义多元组”框架示意
2.1 什么是语料库<br />
在今天,仅仅将语料库视为存放语言材料的仓库,<br />
是令人无法忍受的观点。新一代的兆亿级的大规模<br />
语料库可以作为语言模型的训练和测试手段,来评<br />
价一个语言模型的质量;此外,诸如困惑度之类的<br />
统计方法也可利用语料库来评估一个语法模型对语<br />
料的解释能力。<br />
—— Geoffrey Leech, The State of The Art in Corpus<br />
Linguistics, 1991, In Aijmar, K. and Altenberg, B. , eds. ,<br />
English Corpus Linguistics: Studies in Honor of Jan<br />
Svartvik, London: Longman, 1991.
关于语料库的三点基本认识<br />
语料库中存放的是在语言的实际使用中真实出现过<br />
的语言材料;<br />
语料库是以电子计算机为载体承载语言知识的基础<br />
资源;<br />
真实语料需要经过加工(分析和处理),才能成为<br />
有用的资源;
语料库的分类<br />
口语语料<br />
书面语料<br />
共时语料<br />
历时语料<br />
平衡语料<br />
专门语料<br />
监测语料<br />
样本语料<br />
单语<br />
双语<br />
多语<br />
词性标注语料<br />
树库语料<br />
词义标注语料<br />
平行语料库<br />
比较语料库
语料库示例_1<br />
北京大学计算语言所富士通人民日报标注语料库样例:<br />
历史/n 将/d 铭记/v 这个/r 坐标/n :/w 北纬/b 4<br />
1.1/m 度/q 、/w 东经/b 114.3/m 度/q ;<br />
/w 人们/n 将/d 铭记/v 这/r 一/m 时刻/n :/w 19<br />
98年/t 1月/t 10日/t 11时/t 50分/t 。/w<br />
……<br />
[中国/ns 政府/n]nt 顺利/ad 恢复/v 对/p 香港/ns 行使<br />
/v 主权/n ,/w 并/c 按照/p “/w 一国两制/j ”/w 、/w<br />
“/w 港人治港/l ”/w 、/w 高度/d 自治/v 的/u 方针<br />
/n 保持/v 香港/ns 的/u 繁荣/an 稳定/an 。/w
语料库示例_2<br />
London-Lund英语口语语料库样例<br />
^what a_bout a cigar\ette# . /<br />
*((4 sylls))* /<br />
*I ^w\on't have one th/anks#* - - - /<br />
^aren't you .going to sit d/own# - /<br />
^[/\m]# - /<br />
^have my _coffee in p=eace# - - - /<br />
^quite a nice .room to !s\it in ((actually))# /<br />
*^\isn't* it# /<br />
*^y/\es#* - - - /<br />
转引自Tony McEnery & Andrew Wilson, 1996, Corpus Linguistics, p55
London-Lund英语口语语料库部分标记<br />
标记 含义<br />
# 语调群的结束 (end of tone group)<br />
^ 语音开始 (onset)<br />
/ 上升型核心语调 (rising nuclear tone)<br />
\ 下降型核心语调 (falling nuclear tone)<br />
^ 先升后降型核心语调 (rise-fall nuclear tone)<br />
_ 平型核心语调 (level nuclear tone)<br />
[ ] 不完整的词语和音节符号 (enclose partial words and phonetic symbols)<br />
. 标准重音 (normal stress)<br />
! 高音高于前一个音节的重音 (booster: higher pitch than preceding prominent syllable)<br />
= 高音跟前一个音节相当的重音 (booster: continuance)<br />
(( )) 不清晰的音节 (unclear)<br />
* * 同步发音 (simultaneous speech)<br />
- 一个重音单位的停顿 (pause of one stress unit)
2.2 语料库发展简史<br />
Chomsky影响(20世纪50年代)<br />
第一代 (1970~ 80年代)<br />
第二代 (1980~ 90年代)<br />
第三代 (1990年代)<br />
第四代 ? (21世纪)
第一代语料库<br />
Brown语料库<br />
LOB语料库<br />
LLC语料库<br />
百万词级<br />
以语言研究为导向<br />
1960年代初,美国Brown大学,100万词次,<br />
当代美国英语,根据系统性原则采样,……<br />
1970年代初,英国Lancaster大学,挪威Oslo<br />
大学,挪威Bergen大学,当代英国英语,……<br />
1960年代初,由London大学Randolph Quirk主<br />
持,收集2000小时的谈话和广播等口语素材并<br />
整理成书面材料,由瑞典Lund大学J. Svartvik<br />
主持全部录入计算机,1975年建成……
第二代语料库<br />
COBUILD语料库<br />
Longman语料库<br />
千万词级<br />
词典编纂 - 应用导向<br />
建于1980年代,由英国Birmingham大学<br />
与Collins出版社合作完成,规模达2000万<br />
词次,基于该语料库出版的Collins<br />
Cobuild词典(1987)受到了广泛的好评<br />
建于1980年代,包括三个语料库:<br />
LLELC语料库(Longman/Lancaster英语<br />
语料库)<br />
LSC语料库(Longman口语语料库)<br />
LCLE(Longman英语学习语料库)<br />
目标是编撰英语学习词典,为外国人学<br />
习英语服务,词典规模达5000万词次
第三代语料库<br />
ACL/DCI语料库<br />
UPenn树库<br />
LDC<br />
超大规模(上亿词级)<br />
标准编码体系<br />
深度标注/多语种<br />
NLP应用<br />
美国计算语言学会倡议发起“数据采集<br />
计划”(Data Collection Initiative),<br />
由宾州大学M.Liberman主持,保存语<br />
料原始文本形式以及SGML标注信息
宾州大学树库(UPenn Treebank)<br />
美国Pennsylvania大学1980年代末开始发起<br />
由该校计算机系M.Marcus主持<br />
1993年,完成了对近300万英语词的句子语法结构标注<br />
2000年发布中文树库(第一版)<br />
10万词,4185个句子,325 data files(新华社语料)<br />
2004年发布中文树库 4.0版<br />
404,156 words, 664,633 Hanzi, 15,162 sentences, and<br />
838 data files(大陆、香港、台湾语料)
宾州大学中文树库示例<br />
他还提出一系列具体措施和政策要点。<br />
他/PN 还/AD 提出/VV 一/CD 系列/M 具体/JJ 措施/NN 和/CC 政策/NN<br />
要点/NN 。/PU
2.3 语料库的设计<br />
语料库三方面 属性 值<br />
A. 语料本身 规模 百万词级 | 千万词级 | 亿万词级 | …<br />
领域 政治 | 经济 | 体育 | 心理学 | …<br />
体裁 文学 | 应用文 | 新闻 | …<br />
时代 共时 | 历时<br />
语体 书面语 | 口语<br />
语种 单语 | 双语 | 多语<br />
双语平行语料库 | 双语比较语料库<br />
语言层次 语音(音节,韵律) | 语法(词,句,…)<br />
B. 语料加工 数据形式 Text文本 | HTML文本 | 数据库 | …<br />
编码体系 TEI标准 | 自定义编码体系 | …<br />
加工层次 词性 | 句法 | 语义 | 语篇 | … |双语句子对齐 | 词对齐 | …<br />
加工方式 自动 | 人机互助 | 人工<br />
C. 语料应用 应用领域 通用 | 词典编纂 | 机器翻译 | …<br />
辅助软件 检索工具 | 人机界面 | 数据接口 | …
语料的选取<br />
精品原则<br />
有影响力原则<br />
随机挑选原则<br />
高流通度原则<br />
典型性原则<br />
易于获得原则<br />
具有统计样本意义原则<br />
符合语言规范原则
语料库的编码体系<br />
SGML(标准置标语言)<br />
http://www.w3.org/MarkUp/SGML/<br />
XML (可扩展的置标语言)<br />
http://www.w3.org/TR/REC-xml<br />
TEI (文档编码计划)<br />
http://www.tei-c.org/<br />
CES (语料库编码标准)<br />
http://www.tei-c.org/Applications/index-co02.html<br />
范围缩<br />
小,针<br />
对性加<br />
强<br />
冯志伟,1998,《标准通用置标语言SGML及其在自然语言处理中的应<br />
用》,载《当代语言学》1998年第4期。
CES标准(Corpus Encoding Standard)<br />
语料库/n 标记/n 应该/v 有/v 规范/n<br />
<br />
…<br />
<br />
<br />
语料库<br />
标记<br />
应该<br />
有<br />
规范<br />
<br />
<br />
…<br />
<br />
语料库A: 不符合CES<br />
语料库B: 符合CES
2.4 语料库的加工<br />
语料库标注(Annotation)<br />
(1) 词性标记(Part-of-speech tagging)<br />
(2) 句法层次和范畴标记(Grammatical parsing)<br />
(3) 词义标记(Word sense tagging)<br />
(4) 篇章指代标记(Anaphoric annotation)<br />
(5) 韵律标记(Prosodic annotation)<br />
……<br />
http://www.comp.lancs.ac.uk/computing/research/ucrel/annotation.html
语料库加工工具<br />
分类 工具名称 功能描述<br />
文件处理工<br />
具<br />
语言处理工<br />
具<br />
文本过滤器 将不同的文件格式转成为纯文本文件格式<br />
文本分类器 自动判别文本领域<br />
语料库辅助校对工具及<br />
一致性检查工具<br />
按照语料库加工规范,对语料质量进行管<br />
理<br />
分词与词性标注工具 对语料进行词语识别,词性标记处理<br />
词义标注工具 对词义进行标注<br />
浅层分析工具 对语块(chunk)进行标注<br />
句法分析工具 对句子进行完全句法分析<br />
双语语料对齐工具 对双语语料进行各个层级(段落、句子、小<br />
句、词)的对齐加工
双语语料库(Bilingual Corpora)加工<br />
段落对齐<br />
句子对齐<br />
短语对齐<br />
词对齐
双语句子对齐<br />
基于长度(length-based)的对齐方法 Gale & Church ( 1993 )<br />
纯粹基于句子的长度来估计对齐可能性<br />
资源要求少,算法效率相对较高<br />
Church, Kenneth W. & Mercer, R. L., Introduction to the special issue on computational<br />
linguistics using large corpors, In Computational Linguistics, Vol. 19, No.1, 1993.<br />
基于词(word-based)的对齐方法<br />
一般要依赖词典资源,算法效率相对较低
双语句子对齐示例<br />
中国支持在平等参与、协商一<br />
致、求同存异、循序渐进的基<br />
础上,开展多层次、多渠道、<br />
多形式的地区安全对话与合作。<br />
中国参加了东盟地区论坛、亚<br />
洲建立协作与建立信任措施会<br />
议、亚太安全合作理事会和东<br />
北亚合作对话会等活动,主张<br />
通过这些政府和民间讨论安全<br />
问题的重要渠道,增进各国的<br />
相互了解与信任,促进地区和<br />
平与稳定。<br />
……<br />
China advocates regional-security dialogue and cooperation at<br />
different levels, through various channels and in different forms.<br />
Such dialogue and cooperation should follow these principles:<br />
participation on an equal footing, reaching unanmimity through<br />
consultation, seeking common ground while reserving<br />
differences, and proceeding in an orderly way and step by step.<br />
China has participated in the ASEAN Regional Forum (ARF),<br />
Conference on Interaction and Confidence-Building<br />
Measures in Asia (CICA), Council on Security Cooperation in<br />
Asia and Pacific Regional (CSCAP), Northeast Asia<br />
Cooperation Dialogue (NEACD) and other activities, holding<br />
that all countries should further mutual understanding and<br />
trust by discussions on security issues through these<br />
important governmental and non-governmental channels, so<br />
as to promote regional peace and stability.<br />
……
双语句子对齐问题<br />
s 1<br />
s 2<br />
s 3<br />
s 4<br />
…<br />
s m<br />
t 1<br />
t 2<br />
t 3<br />
t 4<br />
…<br />
t n<br />
影响对齐猜测<br />
的两个因素:<br />
• 配对模式<br />
• 句长差距
句子配对模式(记做Match)<br />
Gale & Church(1993) 定义了六种配对模式,在实际语料 1<br />
中的分布频度为:<br />
句子配对模式<br />
(Match)<br />
出现次数 概率<br />
P(Match)<br />
1-0 或 0-1 13 0.0099<br />
1-1 1167 0.89<br />
1-2 或 2-1 117 0.089<br />
2-2 15 0.011<br />
1312 1.00<br />
Note1: UBS/Union Bank of Switzerland出版的经济报告,同时使用英、<br />
法、德三种语言
句长相关性 Gale & Church(1993)
2.5 语料库应用<br />
支持自然语言处理应用系统开发<br />
支持语言学研究和语言教学研究
语料库对NLP的支持<br />
基于大规模语料库的语音识别<br />
基于大规模语料库的音字转换技术(中文输入)<br />
基于大规模语料库的自动文本校对技术<br />
利用语料库训练HMM模型进行分词,词性标注,词义标注等<br />
基于语料库的句法分析<br />
基于语料库的机器翻译<br />
基于机器学习技术,通过语料库获取语言知识,包括搭配特征,<br />
句法规则等<br />
基于语料库的语言模型训练和语法模型评价<br />
支持NLP自动评测
中文音字转换(续)<br />
拼音串(无声调) xue xi dian nao ji shu<br />
候选字串 雪 系 点 脑 机 树 共有<br />
学<br />
学<br />
洗 电<br />
西 颠<br />
闹 给 述<br />
挠 记 书<br />
14×98×41×1<br />
5×167×68 =<br />
95.8亿种可能性<br />
……<br />
候选词串 学习 电脑 级数 共有<br />
血洗<br />
血洗<br />
……<br />
电脑<br />
电脑<br />
奇数<br />
基数<br />
2×1×7=14种<br />
可能性<br />
正确文字串 学习 电脑 技术
基于语料库的语言研究<br />
Concordance (索引 —— 相关集列)<br />
Collocation (搭配的定量研究)<br />
Cobuild Concordance and Collocations Sampler<br />
http://titania.cobuild.collins.co.uk/form.html<br />
台湾“中研院”现代汉语平衡语料库<br />
http://www.sinica.edu.tw/ftms-bin/kiwi.sh<br />
孙茂松等,1997,《汉语搭配定量分析初探》,载《中国语文》<br />
1997年第1期。pp29-38。
关于搭配的描述与定义<br />
搭配是重复出现的<br />
“大房子” —— “大手笔” —— “大文科” / “大历史”<br />
搭配是不可类推的(自由组合 —— 受限组合)<br />
“吃白菜” —— “吃豆腐” ——“喝西北风”<br />
搭配一般具有正常的句法结构<br />
“戴高帽” —— ? “戴高” —— “风马牛不相及”<br />
搭配通常与领域相关<br />
“语言习得” ——“学说话” “风险投资”
搭配的量化分析_1<br />
语料库:90-91年新华社新闻语料库,1000万字,710万词<br />
搭配强度: 重复出现越多,搭配强度越大<br />
MI ( wi<br />
, w j ) = log2<br />
S(<br />
w , w<br />
K 表示w j 相对于w i 的<br />
位置<br />
-表示在左,+表示在<br />
右(+号一般略去)<br />
i<br />
j<br />
)<br />
=<br />
log<br />
2<br />
N<br />
p(<br />
w , w<br />
p(<br />
w<br />
5<br />
∑<br />
k 5<br />
+<br />
= −<br />
<strong>Count</strong>(<br />
w<br />
i<br />
i<br />
j<br />
) p(<br />
w<br />
<strong>Count</strong><br />
i<br />
)<br />
j<br />
k<br />
)<br />
( w , w<br />
) <strong>Count</strong>(<br />
w<br />
K= -5, -4, -3, -2, -1, 1, 2, 3, 4, 5<br />
N 表示语料库规模<br />
N<br />
=<br />
i<br />
j<br />
j<br />
)<br />
7 . 1 ×<br />
)<br />
10<br />
6
搭配强度的量化分析示例<br />
候选搭配: (能力,弱) (能力,大)<br />
通过语料库统计得到:<br />
<strong>Count</strong> ( 能力 , 弱 ) = 1 <strong>Count</strong> ( 能力 , 弱 ) = 3 <strong>Count</strong> ( 能力 , 弱 ) = 5<br />
<strong>Count</strong><br />
……<br />
− 3<br />
− 5<br />
1<br />
( 能力 , 大 ) =<br />
<strong>Count</strong> ( 能力 , 大 ) = 9<br />
<strong>Count</strong>(<br />
能力 ) =<br />
6<br />
2241<br />
1<br />
<strong>Count</strong> ( 能力 , 大 ) = 4 <strong>Count</strong> ( 能力 , 大 ) = 8<br />
− 4<br />
…… <strong>Count</strong>(<br />
能力 , 大 ) = 5<br />
<strong>Count</strong>(<br />
弱 ) = 177<br />
2<br />
− 3<br />
5<br />
<strong>Count</strong>(<br />
大 ) = 19913
搭配强度的量化分析示例(续)<br />
S(<br />
能力 , 弱 )<br />
=<br />
S(<br />
能力 , 大 ) = log<br />
同理可得:<br />
log<br />
2<br />
2<br />
7.<br />
1<br />
6<br />
× 10 ( 1 + 3 +<br />
2241 × 177<br />
5)<br />
=<br />
7.<br />
33<br />
6<br />
7.<br />
1×<br />
10 ( 6+<br />
4+<br />
8+<br />
4+<br />
2+<br />
9+<br />
6+<br />
4+<br />
6+<br />
5)<br />
=<br />
2241×<br />
19913<br />
3.<br />
10<br />
S( 能力 , 强 ) = 7.<br />
45 S( 能力 , 差 ) = 6.<br />
63 S(<br />
能力 , 小 ) = 0.<br />
74<br />
与“能力”的搭配能力: 强 > 弱 > 差 > 大 > 小
搭配的量化分析_2<br />
搭配的离散度 方差公式<br />
均值公式<br />
n<br />
w<br />
w<br />
<strong>Count</strong><br />
w<br />
w<br />
<strong>Count</strong><br />
n<br />
n<br />
k<br />
j<br />
i<br />
k<br />
j<br />
i<br />
2<br />
)<br />
,<br />
(<br />
)<br />
,<br />
(<br />
∑ −<br />
=<br />
=<br />
n<br />
w<br />
w<br />
<strong>Count</strong><br />
w<br />
w<br />
<strong>Count</strong><br />
w<br />
w<br />
u<br />
n<br />
n<br />
k<br />
j<br />
i<br />
j<br />
i<br />
k<br />
j<br />
i<br />
2<br />
))<br />
,<br />
(<br />
)<br />
,<br />
(<br />
((<br />
)<br />
,<br />
(<br />
2<br />
∑ −<br />
=<br />
−<br />
=<br />
5<br />
=<br />
n<br />
离散度反映两个成分共现的分布情况。离散度越高,越可能是搭配
搭配离散度的量化分析示例<br />
候选搭配: (能力,丧失) (能力,方面)<br />
通过语料库统计得到:<br />
<strong>Count</strong> 能力 , 丧失 ) <strong>Count</strong> ( 能力 , 丧失 ) = 1 <strong>Count</strong> ( 能力 , 丧失 ) = 8<br />
− 4 ( = −3<br />
<strong>Count</strong> 能力 , 方面 ) = <strong>Count</strong> ( 能力 , 方面 ) = 2 <strong>Count</strong> ( 能力 , 方面 ) = 3<br />
<strong>Count</strong><br />
− 4 ( 1<br />
− 2<br />
8<br />
( 能力 , 方面 ) = <strong>Count</strong>−1(<br />
能力 , 方面 ) = <strong>Count</strong>2(<br />
能力 , 方面 ) = 1<br />
<strong>Count</strong> 10次<br />
6<br />
4<br />
2<br />
0<br />
-5 -4 -3 -2 -1 1 2 3 4 5<br />
K<br />
− 2<br />
− 3<br />
(能力,丧失)<br />
(能力,方面)<br />
共现<br />
10次<br />
共现
搭配离散度的量化分析示例(续)<br />
1<br />
5<br />
2<br />
8<br />
1<br />
1<br />
)<br />
,<br />
( =<br />
×<br />
+<br />
+<br />
=<br />
丧失<br />
能力<br />
<strong>Count</strong> 1<br />
5<br />
2<br />
1<br />
2<br />
1<br />
1<br />
3<br />
2<br />
)<br />
,<br />
( =<br />
×<br />
+<br />
+<br />
=<br />
+<br />
+<br />
+<br />
方面<br />
能力<br />
<strong>Count</strong><br />
60<br />
.<br />
5<br />
10<br />
)<br />
1<br />
8<br />
(<br />
)<br />
1<br />
1<br />
(<br />
)<br />
1<br />
1<br />
(<br />
)<br />
,<br />
(<br />
2<br />
2<br />
2<br />
=<br />
−<br />
+<br />
−<br />
+<br />
−<br />
=<br />
丧失<br />
能力<br />
u<br />
00<br />
.<br />
1<br />
10<br />
)<br />
1<br />
1<br />
(<br />
3<br />
)<br />
1<br />
3<br />
(<br />
)<br />
1<br />
2<br />
(<br />
2<br />
)<br />
,<br />
(<br />
2<br />
2<br />
2<br />
=<br />
−<br />
×<br />
+<br />
−<br />
+<br />
−<br />
×<br />
=<br />
方面<br />
能力<br />
u<br />
“丧失”与“能力”构成搭配关系,而“方面”跟“能力”不构成搭配关系
搭配的量化分析_3<br />
搭配的尖峰位置度量<br />
)<br />
,<br />
(<br />
)<br />
,<br />
(<br />
)<br />
,<br />
(<br />
(<br />
)<br />
,<br />
(<br />
j<br />
i<br />
j<br />
i<br />
j<br />
i<br />
k<br />
j<br />
i<br />
k<br />
w<br />
w<br />
u<br />
w<br />
w<br />
<strong>Count</strong><br />
w<br />
w<br />
<strong>Count</strong><br />
w<br />
w<br />
Z<br />
−<br />
=<br />
)<br />
,<br />
(<br />
)<br />
,<br />
(<br />
)<br />
,<br />
(<br />
)<br />
,<br />
(<br />
2<br />
2<br />
丧失<br />
能力<br />
丧失<br />
能力<br />
丧失<br />
能力<br />
丧失<br />
能力<br />
u<br />
<strong>Count</strong><br />
<strong>Count</strong><br />
Z<br />
−<br />
=<br />
−<br />
−<br />
6<br />
.<br />
5<br />
1<br />
8 −<br />
=<br />
96<br />
.<br />
2<br />
=<br />
“丧失”在 -2 位置形成尖锋
“尖锋位置”的语言学含义<br />
反映W j 与W i 可能形成的句法结构<br />
能力 - 具有 尖峰位置 -3, -2 述宾结构<br />
能力 - 差 尖锋位置 1 主谓结构<br />
能力 - 提高 尖峰位置 -4,-3; 1,3 述宾|主谓<br />
Z −3<br />
( 能力 , 提高 ) > Z1(<br />
能力 , 提高 )<br />
能力 - 吞吐 尖峰位置 -1 定中结构
进一步阅读文献<br />
Gale, W. & Church,K., A program for aligning sentence in bilingual corpora, In<br />
Computational linguistics, Vol.19, No.1, 1993.<br />
刘昕,周明,黄昌宁,1995,基于长度算法的中英双语文本对齐的试验 , 陈力<br />
为等主编《计算语言学进展与应用》,清华大学出版社。<br />
孙宏林,1997,《从标注语料库中归纳语法规则:“V+N”序列试验分析》,陈力<br />
为等主编《语言工程》,清华大学出版社,pp157-163。<br />
《当代语言学》1998年第1期,语料库语言学专刊。<br />
Graeme Kennedy, 1998, An Introduction to Corpus Linguistics, Addison Wesley<br />
Longman Limited. (外语教育与研究出版社2000年原版引进)<br />
Anthony Woods, Paul Fletcher, Arthur Hughes,1986, Statistics in Language<br />
Studies, Cambridge University Press. (外语教育与研究出版社2000年原版引进)<br />
黄昌宁, 李涓子,2002,《语料库语言学》,商务印书馆。
复习思考题<br />
1. 访问台湾中研院“现代汉语平衡语料库”网站,查询“能力”这<br />
个词在语料中的使用情况,撰写分析报告;<br />
2. 访问网上语料库资源<br />
LDC(Linguistic Data Consortium)<br />
http://www.ldc.upenn.edu/Catalog/index.html<br />
Upenn 中文树库<br />
http://www.ldc.upenn.edu/Catalog/LDC2000T48.html<br />
Livac共时语料库<br />
http://www.rcl.cityu.edu.hk/livac/search.php?lang=sc