Count - 北京大学中国语言学研究中心
Count - 北京大学中国语言学研究中心
Count - 北京大学中国语言学研究中心
Create successful ePaper yourself
Turn your PDF publications into a flip-book with our unique Google optimized e-Paper software.
搭配的量化分析_1<br />
语料库:90-91年新华社新闻语料库,1000万字,710万词<br />
搭配强度: 重复出现越多,搭配强度越大<br />
MI ( wi<br />
, w j ) = log2<br />
S(<br />
w , w<br />
K 表示w j 相对于w i 的<br />
位置<br />
-表示在左,+表示在<br />
右(+号一般略去)<br />
i<br />
j<br />
)<br />
=<br />
log<br />
2<br />
N<br />
p(<br />
w , w<br />
p(<br />
w<br />
5<br />
∑<br />
k 5<br />
+<br />
= −<br />
<strong>Count</strong>(<br />
w<br />
i<br />
i<br />
j<br />
) p(<br />
w<br />
<strong>Count</strong><br />
i<br />
)<br />
j<br />
k<br />
)<br />
( w , w<br />
) <strong>Count</strong>(<br />
w<br />
K= -5, -4, -3, -2, -1, 1, 2, 3, 4, 5<br />
N 表示语料库规模<br />
N<br />
=<br />
i<br />
j<br />
j<br />
)<br />
7 . 1 ×<br />
)<br />
10<br />
6