Count - 北京大学中国语言学研究中心

第六讲语言知识库和语料库的构建技术 

http://ccl.pku.edu.cn/Alcourse/nlp 

自然语言处理导论课程讲义

提纲 

1 语言知识库的构建--以CCD为例 

1.1 WordNet (WN)网络框架介绍 

1.2 兼容WN的中文概念词典 (CCD) 的开发 

1.3 兼容之外的发展 

2 语料库的构建与应用 

2.1 什么是语料库 

2.2 语料库的发展简史 

2.3 语料库的设计 

2.4 语料库的加工 

2.5 语料库的应用


自然语言处理的发展 

从词法分析、句法分析到语义分析 

Web应用对“内容理解”的强烈需求 

智能检索,文本分类,自动文摘,语义推理,WSD ,Semantic Web应用等 

语义分析的不同语言单位和层次 

词,短语 

小句,句,句群,段落,篇章,多篇章和跨语言 

词义分析、计算的基础在哪里? 

词义:概念 vs. 知识本体(Ontology) 

语言中的聚合(paradigmatic)关系与组合(syntagmatic)关系信息 

关于“词义”,丢弃了什么我们才能得到“概念”?


Princeton大学WordNet的理论与方法 

概念:由同义词集(Synset)来表示,概念即同义词集 

{教师,教员,老师,先生,师傅,师爷,孩子王,臭老九,阿姨,导师,老板} 

知识本体:概念及概念之间多种语义关系,形成概念网络 

一个高度形式化的、通用/跨语言的词义知识表示方法 

HowNet 对词义的内涵式定义:意在定义,关注个体,建立在义素分析及格语法上 

WordNet对词义的外延式定义:意在区分,关注系统,建立在词义系统结构分析上 

词义即多种语义关系约束构成的网络结构,此外,词义的任何定义都是多余的 

添加新词、新义项时只需要将特定词加入特定同义词集 

一个可以对词义进行分析、计算的基础,一个同义词集之上的 “形-义” 

系统


概念的形成 

概念化(conceptualization)与词汇化(lexicalization) 

“同义词集”表示“概念”: 一词多义vs. 一义多词 

词义 

M 1 

M 2 

M 3 

… 

M m 

F 1 

F 2 

词形 

F 3 

… F n 

E(1,1) E(1,2) E(1,n) 

E(2,2) 

E(3,1) E(3,3) 

E(m,n)


知识本体的形成 

“概念”间的几种典型“语义关系”构成“概念网络” 

名词概念及其 

关系指针 

反义关系 

Antonymy 

下位关系 

Hyponymy 

上位关系 

Hypernymy 

部分关系 

Meronymy 

整体关系 

Holonymy 

属性 

Attribute 

动词概念及其 

关系指针 

! 反义关系 

Antonymy 

~ 下位关系 

Troponymy 

@ 上位关系 

Hypernymy 

# 蕴涵关系 

Entailment 

% 致使关系 

Cause 

= 又见 

Also See 

形容词概念及其 

关系指针 


Antonymy 

~ 近义关系 

Similar 

@ 关系性形容词 

Relational Adj. 

* 又见 

Also See 

> 属性 

Attribute 

ˆ 

副词概念及其 

关系指针 


Antonymy 

& 导出形式 

Derived 

From 

\ 

ˆ 

= 

! 

\


知识本体的形成(续) 

在语言学上严加界定的“语义关系”,以动词为例


WordNet中网状数据的组织


WordNet中网状数据的组织(续)


WordNet及其家族(WordNets) 的发展 

语言知识工程的假设原则 

可分离性假设(Separability Hypothesis) 

模式假设(Patterning Hypothesis) 

广泛性假设(Comprehensiveness Hypothesis) 

G. A. Miller等于1985启动语言工程 

基于义素分析方法探索的失败(与HowNet截然不同的实验报告) 

开始尝试基于语义关系的新方法 

不做玩具系统(toy system),在整个语言系统的规模上实施语言工程 

确定只描述开放词类,即名,动,形,副词概念 

PWN 1.6版本的诞生 

1997年发布,含99,642 个概念,238,442对语义关系 

迄今为止普遍研究和应用的一个 WordNet版本,已建立与SUMO的联结


WordNet家族(WordNets) 的发展 

词义级(概念) 的国际“中间语”地位的确立 

跨语言交流的需要及人类“共同概念体系”的假定 

“词义”与“词法” 的情况明显不同,如何看与单一语言挂钩的“词义知识”? 

双语WordNet(the bilingual WordNets) 

全球超过40个语种,汉语有包括大陆、台湾地区在内的3个不同版本 

多语WordNet(the multilingual WordNets) 

EuroWordNet,包括8种主要欧洲语言及10多种外围语言 

WN国际学术组织和国际学术会议 

GWA官方网址: globalwordnet.org 

GWC’02 ,GWC’04 ,GWC’06 ,GWC’08 … 

广泛的NLP应用尝试(找你所需),目前最重要的共享语义资源 

google.com检索: 11,700,000 项 

scholar.google.com检索: 24,700 项


WordNet目前存在的问题 

涉及“词义”的组合关系信息的缺失 

计算语言学家吹毛求疵的要求? 

如果不是的话,基于“概念”的系统能加入该类信息吗? 如何加入? 

涉及“词义”的聚合关系信息的评价 

语义关系的种类及实际描写的信息够与不够 

“概念”的语义颗粒度(sense granularity)问题 

最多深达18层的名词概念实际意味着什么? 适合的语义颗粒度在哪里? 

知识本体:一个看上去 “有些糟糕的”(bad-structured)上层概念结构体系 

WordNet作为心理语言学家的实验品的根源 

√ Igavehimanovel,but the book bored him. 我送他一本小说,但这本书让他心烦。 

* I gave him a novel,but the catsup bored him. 我送他一本小说,但番茄酱让他心烦。 

语义关系信息通过考察句例和句式获取,上层结构排斥任何人工/理性知识注入


“有些糟糕的”上层概念结构体系,以名词为例


主语义关系(上下位关系)谬误的发掘 

同语义类的多继承现象(ring)与跨语义类的单继承关系现象(isolator)

1.2 兼容WN的中文概念词典 (CCD)的开发 

CCD作为双语WordNet 

提供汉英双语的概念对应 

可以直接复用现有的WordNet的理论、方法、技术 

全球WordNet资源建设的组成部分 

构造双语WordNet的焦点与难点 

两类不同的知识体系和概念对应 

大规模的复杂网络结构 

单一语言中包含约10 5 个概念节点,10 6 个语义关系 

实用、高效的双语WordNet构造模型的必要特征 

强调双语词典构造中的继承与转换 

英语语义网络的复用与调整 

通用的双语WordNet解决方案(语言无关性) 

方便双语词典的演化


双语WordNet构造方法与辅助软件 

实现继承:英语网络中上下位关系信息的抽取 

上下位关系形成的树结构 

树结构信息编码(例如“005001002”)的可计算性 

优化搜索算法 

实现转换:从英语网络到汉语网络的转化 

针对节点,不涉及网络结构的改变:机器+手工的方式 

可用语言资源与计算方法 

词典:双语词典, 现汉,词林,语法词典,语义词典,HowNet 2000等 

语料库:动态词义知识获取 

针对关系边,涉及网络结构的改变:纯手工的方式 

可视化的、数据敏感的语义树及其操作 

节点添加、修改、删除 

子树迁移


语言知识工程的质量控制:概念对应的语义原则和策略 

成词及词性原则 

the group following and attending to some important person 

{cortege retinue suite entourage} 

{随从,随员,左右,跟随,随行人员} 

准确性原则 

a very attractive or seductive looking woman 

{smasher stunner knockout beauty sweetheart peach lulu looker mantrap dish} 

{佳人,美人,美女,宝贝,心肝,佳丽,玉女 ,貂婵,狐狸精,绝色美女,绝代佳人,出水芙蓉} 

完备性原则 

someone who is very highly skilled 

{ace adept sensation maven virtuoso genius hotshot star whiz whizz wizard wiz} 

{专家,内行,大师,高手,巨匠,好手} 要不要加入 “大牛”、“牛人” 、“腕儿” 、“大腕” 等词语? 

语义原则的冲突与协调 

优先级别


质量控制的本质是什么? 何谓“同义”? 

单一语言中的“同义”约定 

“可替换性”定义的3种不同强度的约束 

最弱约束情形下的“同义”实例 

配偶/妻子/老婆/夫人/太太/爱人/媳妇/女人/内人/内子/主妇/老伴/ 

婆姨/婆娘/娘子/浑家/发妻/堂客/马子/领导/糟糠/浑人/山妻/贱内/ 

那口子/贤内助/孩他妈/孩他娘/娃他娘/崽他娘/女主人/纪检委/另一 

半/烧火婆/黄脸婆/女当家/屋里的/财政部长/… 

双语或多语言间的“同义”约定 

一件更加困难的事情 

研究与开发现状 

对PWN 1.6的覆盖率已经在90%以上 

6.6万名词概念,1.2万动词概念,2.1万修饰词概念 

基本满足概念对应的语义原则,语义质量持续提高


Offset Synset Hypernym Hyponym OtherRel Definition 

07632177 

教师 

教员 

老师 

先生 

师傅 

师爷 

师长 

阿姨 

导师 

老板 

孩子王 

臭老九 

07235322 070863320 

716230407 

209465072 

437670727 

965907297 

622073411 

760740109 

807414251 

074251800 

7494025 

******** 以教学为职业的人 


07331418 

丈夫 

先生 

夫君 

夫婿 

爱人 

老公 

郎君 

驸马 

驸马爷 

07602853 071094820 

719596807 

255726073 

28008 

******** 已婚男子; 

婚姻中女性一方的伴侣 


07414666 

先生 

师傅 

同志 

大哥 

老兄 

老弟 

07391044 ******** 对男子的一种称呼


CCD不仅仅是双语WordNet 

反映汉语的实际情况,对中文信息处理有切实帮助 

对概念、概念关系的界定、调整和发展 

增添汉语特有/显著的语义属性和特征 

简称(j),褒义(c),中性(n),贬义(d),正规(r),非正规(i)等 

涉及复杂结构的规划和调整 

分类原则、概念粒度等 

补充必要的组合关系信息 

自然语言处理任务和应用的客观需要 

搭配信息 

关注词义区分 (Word Sense Discrimination)及语言学证据的表现 

面向机器并影响人群,强调尽可能自动/半自动化的词义区分


词义区分的研究重要吗? 

“方向” 

“事情” 

(1) 指东、南、西、北等:在山里迷失了~ 

(2) 正对的位置;前进的目标:军队朝渡口的~行进 

(3) 情势:看~做事 

(1),(2) 例句互换看看如何? 

(1) 人类生活中的一切活动和所遇到的一切社会现象:~多,忙不过来 

(2) 事故;差错:出~就麻烦了 

(3) 职业;工作:在公司里找了一个~ 

“忙公司里的~”该标(1) /(3)? 

人分辨起来都困难的事情,机器(WSD)如何做好? 

为什么人分辨起来都困难? 

机器(WSD)有机会比人做得更好吗? Discrimination -> Disambiguation 

规范与方法的研究:“分义” vs. “分词”


词义区分的研究涉及的多种因素 

建立在可靠的数学方法上,形式化强 

促进词义问题的规范化与标准化 

只能从形式入手,如何从形式到意义(后验知识) 

人太聪明,可以有多重标准(语言,逻辑,认知与外部世界等) 

机器很笨,语言系统中的组合关系信息来得重要。舍我其谁? 

词义区分语言学证据的知识表示 

表示什么样的知识,如何表示这样的知识 

方法的开放性(对不同的词义,对不同的词义理论) 

词义区分语言学证据的知识获取 

稳定可靠、易于获取和使用的浅层(shllow)词义知识,如搭配信息 

WSD任务提出的要求


新的词义知识表示方法 

基本想法和策略 

强调通用、强势的概念体系 

理性原则:表达“粗粒”词义的聚合关系,综合“逻辑”, “社会存在”及“语言”等多种因素 

强调词的不同义项的区分手段和描写信息 

经验方法:表达“任一”词义的组合关系,只表现“语言使用”方面的显式证据 

“高层概念树+词义多元组”框架 

高层概念树 

参照SUMO+WordNet+CCD体系,计算生成方法 

单继承系统(结构化信息) vs. 语义原子的集合(无结构信息) 

适用多语言,封闭集,成员数 < 10,000,消歧依据:One Sense per Discourse/Topic 

词义多元组 

 

使用(usages)即意义(meaning),词义即搭配环境 

适用单语言,开放集,成员数 >100,000,消歧依据 :One Sense per Collocation


高层概念树的计算生成情况 

7000 

6000 

5000 

4000 

3000 

2000 

1000 

0 

1093 

66025 

66022 

1093 

6693 

2675 

394 350 350 84 84 

SUMO WordNet noun WordNet verb WordNet 

adjective 

Candidate Concept Coarse Concept Set 

WordNet adverb


“高层概念树+词义多元组”框架示意

2.1 什么是语料库 

在今天,仅仅将语料库视为存放语言材料的仓库, 

是令人无法忍受的观点。新一代的兆亿级的大规模 

语料库可以作为语言模型的训练和测试手段,来评 

价一个语言模型的质量;此外,诸如困惑度之类的 

统计方法也可利用语料库来评估一个语法模型对语 

料的解释能力。 

—— Geoffrey Leech, The State of The Art in Corpus 

Linguistics, 1991, In Aijmar, K. and Altenberg, B. , eds. , 

English Corpus Linguistics: Studies in Honor of Jan 

Svartvik, London: Longman, 1991.

关于语料库的三点基本认识 

语料库中存放的是在语言的实际使用中真实出现过 

的语言材料; 

语料库是以电子计算机为载体承载语言知识的基础 

资源; 

真实语料需要经过加工(分析和处理),才能成为 

有用的资源;

语料库的分类 

口语语料 

书面语料 

共时语料 

历时语料 

平衡语料 

专门语料 

监测语料 

样本语料 

单语 

双语 

多语 

词性标注语料 

树库语料 

词义标注语料 

平行语料库 

比较语料库

语料库示例_1 

北京大学计算语言所富士通人民日报标注语料库样例: 

历史/n 将/d 铭记/v 这个/r 坐标/n :/w 北纬/b 4 

1.1/m 度/q 、/w 东经/b 114.3/m 度/q ; 

/w 人们/n 将/d 铭记/v 这/r 一/m 时刻/n :/w 19 

98年/t 1月/t 10日/t 11时/t 50分/t 。/w 

…… 

[中国/ns 政府/n]nt 顺利/ad 恢复/v 对/p 香港/ns 行使 

/v 主权/n ,/w 并/c 按照/p “/w 一国两制/j ”/w 、/w 

“/w 港人治港/l ”/w 、/w 高度/d 自治/v 的/u 方针 

/n 保持/v 香港/ns 的/u 繁荣/an 稳定/an 。/w

语料库示例_2 

London-Lund英语口语语料库样例 

^what a_bout a cigar\ette# . / 

*((4 sylls))* / 

*I ^w\on't have one th/anks#* - - - / 

^aren't you .going to sit d/own# - / 

^[/\m]# - / 

^have my _coffee in p=eace# - - - / 

^quite a nice .room to !s\it in ((actually))# / 

*^\isn't* it# / 

*^y/\es#* - - - / 

转引自Tony McEnery & Andrew Wilson, 1996, Corpus Linguistics, p55

London-Lund英语口语语料库部分标记 

标记含义 

# 语调群的结束 (end of tone group) 

^ 语音开始 (onset) 

/ 上升型核心语调 (rising nuclear tone) 

\ 下降型核心语调 (falling nuclear tone) 

^ 先升后降型核心语调 (rise-fall nuclear tone) 

_ 平型核心语调 (level nuclear tone) 

[ ] 不完整的词语和音节符号 (enclose partial words and phonetic symbols) 

. 标准重音 (normal stress) 

! 高音高于前一个音节的重音 (booster: higher pitch than preceding prominent syllable) 

= 高音跟前一个音节相当的重音 (booster: continuance) 

(( )) 不清晰的音节 (unclear) 

* * 同步发音 (simultaneous speech) 

- 一个重音单位的停顿 (pause of one stress unit)

2.2 语料库发展简史 

Chomsky影响(20世纪50年代) 

第一代 (1970~ 80年代) 

第二代 (1980~ 90年代) 

第三代 (1990年代) 

第四代 ? (21世纪)

第一代语料库 

Brown语料库 

LOB语料库 

LLC语料库 

百万词级 

以语言研究为导向 

1960年代初,美国Brown大学,100万词次, 

当代美国英语,根据系统性原则采样,…… 

1970年代初,英国Lancaster大学,挪威Oslo 

大学,挪威Bergen大学,当代英国英语,…… 

1960年代初,由London大学Randolph Quirk主 

持,收集2000小时的谈话和广播等口语素材并 

整理成书面材料,由瑞典Lund大学J. Svartvik 

主持全部录入计算机,1975年建成……

第二代语料库 

COBUILD语料库 

Longman语料库 

千万词级 

词典编纂 - 应用导向 

建于1980年代,由英国Birmingham大学 

与Collins出版社合作完成,规模达2000万 

词次,基于该语料库出版的Collins 

Cobuild词典(1987)受到了广泛的好评 

建于1980年代,包括三个语料库: 

LLELC语料库(Longman/Lancaster英语 

语料库) 

LSC语料库(Longman口语语料库) 

LCLE(Longman英语学习语料库) 

目标是编撰英语学习词典,为外国人学 

习英语服务,词典规模达5000万词次

第三代语料库 

ACL/DCI语料库 

UPenn树库 

LDC 

超大规模(上亿词级) 

标准编码体系 

深度标注/多语种 

NLP应用 

美国计算语言学会倡议发起“数据采集 

计划”(Data Collection Initiative), 

由宾州大学M.Liberman主持,保存语 

料原始文本形式以及SGML标注信息

宾州大学树库(UPenn Treebank) 

美国Pennsylvania大学1980年代末开始发起 

由该校计算机系M.Marcus主持 

1993年,完成了对近300万英语词的句子语法结构标注 

2000年发布中文树库(第一版) 

10万词,4185个句子,325 data files(新华社语料) 

2004年发布中文树库 4.0版 

404,156 words, 664,633 Hanzi, 15,162 sentences, and 

838 data files(大陆、香港、台湾语料)

宾州大学中文树库示例 

他还提出一系列具体措施和政策要点。 

他/PN 还/AD 提出/VV 一/CD 系列/M 具体/JJ 措施/NN 和/CC 政策/NN 

要点/NN 。/PU

2.3 语料库的设计 

语料库三方面属性值 

A. 语料本身规模百万词级 | 千万词级 | 亿万词级 | … 

领域政治 | 经济 | 体育 | 心理学 | … 

体裁文学 | 应用文 | 新闻 | … 

时代共时 | 历时 

语体书面语 | 口语 

语种单语 | 双语 | 多语 

双语平行语料库 | 双语比较语料库 

语言层次语音(音节,韵律) | 语法(词,句,…) 

B. 语料加工数据形式 Text文本 | HTML文本 | 数据库 | … 

编码体系 TEI标准 | 自定义编码体系 | … 

加工层次词性 | 句法 | 语义 | 语篇 | … |双语句子对齐 | 词对齐 | … 

加工方式自动 | 人机互助 | 人工 

C. 语料应用应用领域通用 | 词典编纂 | 机器翻译 | … 

辅助软件检索工具 | 人机界面 | 数据接口 | …

语料的选取 

精品原则 

有影响力原则 

随机挑选原则 

高流通度原则 

典型性原则 

易于获得原则 

具有统计样本意义原则 

符合语言规范原则

语料库的编码体系 

SGML(标准置标语言) 

http://www.w3.org/MarkUp/SGML/ 

XML (可扩展的置标语言) 

http://www.w3.org/TR/REC-xml 

TEI (文档编码计划) 

http://www.tei-c.org/ 

CES (语料库编码标准) 

http://www.tei-c.org/Applications/index-co02.html 

范围缩 

小,针 

对性加 

强 

冯志伟,1998,《标准通用置标语言SGML及其在自然语言处理中的应 

用》,载《当代语言学》1998年第4期。

CES标准(Corpus Encoding Standard) 

语料库/n 标记/n 应该/v 有/v 规范/n 

 

… 

 

 

语料库 

标记 

应该 

有 

规范 

 

 

… 

 

语料库A: 不符合CES 

语料库B: 符合CES

2.4 语料库的加工 

语料库标注(Annotation) 

(1) 词性标记(Part-of-speech tagging) 

(2) 句法层次和范畴标记(Grammatical parsing) 

(3) 词义标记(Word sense tagging) 

(4) 篇章指代标记(Anaphoric annotation) 

(5) 韵律标记(Prosodic annotation) 

…… 

http://www.comp.lancs.ac.uk/computing/research/ucrel/annotation.html

语料库加工工具 

分类工具名称功能描述 

文件处理工 

具 

语言处理工 

具 

文本过滤器将不同的文件格式转成为纯文本文件格式 

文本分类器自动判别文本领域 

语料库辅助校对工具及 

一致性检查工具 

按照语料库加工规范,对语料质量进行管 

理 

分词与词性标注工具对语料进行词语识别,词性标记处理 

词义标注工具对词义进行标注 

浅层分析工具对语块(chunk)进行标注 

句法分析工具对句子进行完全句法分析 

双语语料对齐工具对双语语料进行各个层级(段落、句子、小 

句、词)的对齐加工

双语语料库(Bilingual Corpora)加工 

段落对齐 

句子对齐 

短语对齐 

词对齐

双语句子对齐 

基于长度(length-based)的对齐方法 Gale & Church ( 1993 ) 

纯粹基于句子的长度来估计对齐可能性 

资源要求少,算法效率相对较高 

Church, Kenneth W. & Mercer, R. L., Introduction to the special issue on computational 

linguistics using large corpors, In Computational Linguistics, Vol. 19, No.1, 1993. 

基于词(word-based)的对齐方法 

一般要依赖词典资源,算法效率相对较低

双语句子对齐示例 

中国支持在平等参与、协商一 

致、求同存异、循序渐进的基 

础上,开展多层次、多渠道、 

多形式的地区安全对话与合作。 

中国参加了东盟地区论坛、亚 

洲建立协作与建立信任措施会 

议、亚太安全合作理事会和东 

北亚合作对话会等活动,主张 

通过这些政府和民间讨论安全 

问题的重要渠道,增进各国的 

相互了解与信任,促进地区和 

平与稳定。 

…… 

China advocates regional-security dialogue and cooperation at 

different levels, through various channels and in different forms. 

Such dialogue and cooperation should follow these principles: 

participation on an equal footing, reaching unanmimity through 

consultation, seeking common ground while reserving 

differences, and proceeding in an orderly way and step by step. 

China has participated in the ASEAN Regional Forum (ARF), 

Conference on Interaction and Confidence-Building 

Measures in Asia (CICA), Council on Security Cooperation in 

Asia and Pacific Regional (CSCAP), Northeast Asia 

Cooperation Dialogue (NEACD) and other activities, holding 

that all countries should further mutual understanding and 

trust by discussions on security issues through these 

important governmental and non-governmental channels, so 

as to promote regional peace and stability. 

……

双语句子对齐问题 

s 1 

s 2 

s 3 

s 4 

… 

s m 

t 1 

t 2 

t 3 

t 4 

… 

t n 

影响对齐猜测 

的两个因素: 

• 配对模式 

• 句长差距

句子配对模式(记做Match) 

Gale & Church(1993) 定义了六种配对模式,在实际语料 1 

中的分布频度为: 

句子配对模式 

(Match) 

出现次数概率 

P(Match) 

1-0 或 0-1 13 0.0099 

1-1 1167 0.89 

1-2 或 2-1 117 0.089 

2-2 15 0.011 

1312 1.00 

Note1: UBS/Union Bank of Switzerland出版的经济报告,同时使用英、 

法、德三种语言

句长相关性 Gale & Church(1993)

2.5 语料库应用 

支持自然语言处理应用系统开发 

支持语言学研究和语言教学研究

语料库对NLP的支持 

基于大规模语料库的语音识别 

基于大规模语料库的音字转换技术(中文输入) 

基于大规模语料库的自动文本校对技术 

利用语料库训练HMM模型进行分词,词性标注,词义标注等 

基于语料库的句法分析 

基于语料库的机器翻译 

基于机器学习技术,通过语料库获取语言知识,包括搭配特征, 

句法规则等 

基于语料库的语言模型训练和语法模型评价 

支持NLP自动评测

中文音字转换(续) 

拼音串(无声调) xue xi dian nao ji shu 

候选字串雪系点脑机树共有 

学 

学 

洗电 

西颠 

闹给述 

挠记书 

14×98×41×1 

5×167×68 = 

95.8亿种可能性 

…… 

候选词串学习电脑级数共有 

血洗 

血洗 

…… 

电脑 

电脑 

奇数 

基数 

2×1×7=14种 

可能性 

正确文字串学习电脑技术

基于语料库的语言研究 

Concordance (索引 —— 相关集列) 

Collocation (搭配的定量研究) 

Cobuild Concordance and Collocations Sampler 

http://titania.cobuild.collins.co.uk/form.html 

台湾“中研院”现代汉语平衡语料库 

http://www.sinica.edu.tw/ftms-bin/kiwi.sh 

孙茂松等,1997,《汉语搭配定量分析初探》,载《中国语文》 

1997年第1期。pp29-38。

关于搭配的描述与定义 

搭配是重复出现的 

“大房子” —— “大手笔” —— “大文科” / “大历史” 

搭配是不可类推的(自由组合 —— 受限组合) 

“吃白菜” —— “吃豆腐” ——“喝西北风” 

搭配一般具有正常的句法结构 

“戴高帽” —— ? “戴高” —— “风马牛不相及” 

搭配通常与领域相关 

“语言习得” ——“学说话” “风险投资”

搭配的量化分析_1 

语料库:90-91年新华社新闻语料库,1000万字,710万词 

搭配强度: 重复出现越多,搭配强度越大 

MI ( wi 

, w j ) = log2 

S( 

w , w 

K 表示w j 相对于w i 的 

位置 

-表示在左,+表示在 

右(+号一般略去) 

i 

j 

) 

= 

log 

2 

N 

p( 

w , w 

p( 

w 

5 

∑ 

k 5 

+ 

= − 

Count( 

w 

i 

i 

j 

) p( 

w 

Count 

i 

) 

j 

k 

) 

( w , w 

) Count( 

w 

K= -5, -4, -3, -2, -1, 1, 2, 3, 4, 5 

N 表示语料库规模 

N 

= 

i 

j 

j 

) 

7 . 1 × 

) 

10 

6

搭配强度的量化分析示例 

候选搭配: (能力,弱) (能力,大) 

通过语料库统计得到: 

Count ( 能力 , 弱 ) = 1 Count ( 能力 , 弱 ) = 3 Count ( 能力 , 弱 ) = 5 


…… 

− 3 

− 5 

1 

( 能力 , 大 ) = 

Count ( 能力 , 大 ) = 9 


能力 ) = 

6 

2241 

1 

Count ( 能力 , 大 ) = 4 Count ( 能力 , 大 ) = 8 

− 4 

…… Count( 

能力 , 大 ) = 5 


弱 ) = 177 

2 

− 3 

5 


大 ) = 19913

搭配强度的量化分析示例(续) 

S( 

能力 , 弱 ) 

= 

S( 

能力 , 大 ) = log 

同理可得: 

log 

2 

2 

7. 

1 

6 

× 10 ( 1 + 3 + 

2241 × 177 

5) 

= 

7. 

33 

6 

7. 

1× 

10 ( 6+ 

4+ 

8+ 

4+ 

2+ 

9+ 

6+ 

4+ 

6+ 

5) 

= 

2241× 

19913 

3. 

10 

S( 能力 , 强 ) = 7. 

45 S( 能力 , 差 ) = 6. 

63 S( 

能力 , 小 ) = 0. 

74 

与“能力”的搭配能力: 强 > 弱 > 差 > 大 > 小


搭配的离散度方差公式 

均值公式 

n 

w 

w 


w 

w 


n 

n 

k 

j 

i 

k 

j 

i 

2 

) 

, 

( 

) 

, 

( 

∑ − 

= 

= 

n 

w 

w 


w 

w 


w 

w 

u 

n 

n 

k 

j 

i 

j 

i 

k 

j 

i 

2 

)) 

, 

( 

) 

, 

( 

(( 

) 

, 

( 

2 

∑ − 

= 

− 

= 

5 

= 

n 

离散度反映两个成分共现的分布情况。离散度越高,越可能是搭配

搭配离散度的量化分析示例 

候选搭配: (能力,丧失) (能力,方面) 

通过语料库统计得到: 

Count 能力 , 丧失 ) Count ( 能力 , 丧失 ) = 1 Count ( 能力 , 丧失 ) = 8 

− 4 ( = −3 

Count 能力 , 方面 ) = Count ( 能力 , 方面 ) = 2 Count ( 能力 , 方面 ) = 3 


− 4 ( 1 

− 2 

8 

( 能力 , 方面 ) = Count−1( 

能力 , 方面 ) = Count2( 

能力 , 方面 ) = 1 

Count 10次 

6 

4 

2 

0 

-5 -4 -3 -2 -1 1 2 3 4 5 

K 

− 2 

− 3 

(能力,丧失) 

(能力,方面) 

共现 

10次 

共现

搭配离散度的量化分析示例(续) 

1 

5 

2 

8 

1 

1 

) 

, 

( = 

× 

+ 

+ 

= 

丧失 

能力 

Count 1 

5 

2 

1 

2 

1 

1 

3 

2 

) 

, 

( = 

× 

+ 

+ 

= 

+ 

+ 

+ 

方面 

能力 


60 

. 

5 

10 

) 

1 

8 

( 

) 

1 

1 

( 

) 

1 

1 

( 

) 

, 

( 

2 

2 

2 

= 

− 

+ 

− 

+ 

− 

= 

丧失 

能力 

u 

00 

. 

1 

10 

) 

1 

1 

( 

3 

) 

1 

3 

( 

) 

1 

2 

( 

2 

) 

, 

( 

2 

2 

2 

= 

− 

× 

+ 

− 

+ 

− 

× 

= 

方面 

能力 

u 

“丧失”与“能力”构成搭配关系,而“方面”跟“能力”不构成搭配关系


搭配的尖峰位置度量 

) 

, 

( 

) 

, 

( 

) 

, 

( 

( 

) 

, 

( 

j 

i 

j 

i 

j 

i 

k 

j 

i 

k 

w 

w 

u 

w 

w 


w 

w 


w 

w 

Z 

− 

= 

) 

, 

( 

) 

, 

( 

) 

, 

( 

) 

, 

( 

2 

2 

丧失 

能力 

丧失 

能力 

丧失 

能力 

丧失 

能力 

u 



Z 

− 

= 

− 

− 

6 

. 

5 

1 

8 − 

= 

96 

. 

2 

= 

“丧失”在 -2 位置形成尖锋

“尖锋位置”的语言学含义 

反映W j 与W i 可能形成的句法结构 

能力 - 具有尖峰位置 -3, -2 述宾结构 

能力 - 差尖锋位置 1 主谓结构 

能力 - 提高尖峰位置 -4,-3; 1,3 述宾|主谓 

Z −3 

( 能力 , 提高 ) > Z1( 

能力 , 提高 ) 

能力 - 吞吐尖峰位置 -1 定中结构

进一步阅读文献 

Gale, W. & Church,K., A program for aligning sentence in bilingual corpora, In 

Computational linguistics, Vol.19, No.1, 1993. 

刘昕,周明,黄昌宁,1995,基于长度算法的中英双语文本对齐的试验 , 陈力 

为等主编《计算语言学进展与应用》,清华大学出版社。 

孙宏林,1997,《从标注语料库中归纳语法规则:“V+N”序列试验分析》,陈力 

为等主编《语言工程》,清华大学出版社,pp157-163。 

《当代语言学》1998年第1期,语料库语言学专刊。 

Graeme Kennedy, 1998, An Introduction to Corpus Linguistics, Addison Wesley 

Longman Limited. (外语教育与研究出版社2000年原版引进) 

Anthony Woods, Paul Fletcher, Arthur Hughes,1986, Statistics in Language 

Studies, Cambridge University Press. (外语教育与研究出版社2000年原版引进) 

黄昌宁, 李涓子,2002,《语料库语言学》,商务印书馆。

复习思考题 

1. 访问台湾中研院“现代汉语平衡语料库”网站,查询“能力”这 

个词在语料中的使用情况,撰写分析报告; 

2. 访问网上语料库资源 

LDC(Linguistic Data Consortium) 

http://www.ldc.upenn.edu/Catalog/index.html 

Upenn 中文树库 

http://www.ldc.upenn.edu/Catalog/LDC2000T48.html 

Livac共时语料库 

http://www.rcl.cityu.edu.hk/livac/search.php?lang=sc

Count - 北京大学中国语言学研究中心

You also want an ePaper? Increase the reach of your titles

Delete template?

Save as template?