admin管理员组

文章数量:1569312

2024年7月11日发(作者:)

第24卷第5期 

中文信息学报 

Vo1.24,NO.5 

2010年9月 

JOURNAL OF CHINESE INFORMATION PROCESSING 

Sep.,2010 

文章编号:1003—0077(2010)05—0046—04 

班智达藏文标注词典设计 

才智杰,才让卓玛 

(青海师范大学藏文信息研究中心,青海西宁810008) 

摘 要:语料库加工是一项庞大的语言工程,其中分词标注是最基础性的工作,而分词标注词典是标注系统的重要 

组成,词典设计的优劣直接关系着分词标注的速度和效率。在设计国家语委项目《班智达藏文自动标注系统》的基 

础上,给出了分词标注词典库的结构及词典库索引查询算法。对85万字节藏语实验语料的分词和标注,分词准确 

率迭99 ,标注准确率迭97 。 

关键词:藏语语料库;分词;标注;词典;索引 

中图分类号:TP391 文献标识码:A 

Design of Tibetan Part of Speech Tagging Dictionary 

CAIzhii ie,CAIrangzhuoma 

(Tibetan Intellectual Information Processing Centre of Qinghai Normal University,Xining,Qinghai 810008,China) 

Abstract:Corpus processing is a complicated proj ect of language engineering,in which the segmentation and tagging 

are the fundamental work.The part—of speech tagging dictionary is an exxential composition of the taggging 

process,relating directly tO the speed and efficiency of tagging.Based on design of project“Ban Zhi Da Titetan Au— 

tO—tagging System”supported by the National Language Committee.this paper presents the construction of tagging 

dictionary and its index and search algorithm.The experiment on the 850 KB corpus of Tibetan shows that word 

segmentation accuracy rate can reach 99 and tagging accuracy rate can reach 97 . 

Key words:corpus of Tibetan;segmentation;tagging;dictionory;index 

究人员已意识到藏文自动分词标注的重要性,在借 

l 引言 

鉴汉语分词标注研究已有成功经验的基础上,藏文 

自动分词标注也取得了一些有价值的研究成果。目 

大规模语料库是除自然资源以外的重要资源, 

前藏文分词标注主要采用基于词典的分词标注,基 

各国目前已把实现大规模真实文本的处理作为自然 

于词典的分词标注是把分词标注所需的各种信息都 

语言处理今后一个时期的战略目标,从大规模的语 

以词典的形式存储,在整个分词过程中都需要频繁 

料库中提取、归纳、分析、概括出所需要的知识和信 

地访问词典以获得词语信息。因此词典的设计和查 

息。藏文和汉文都是字的序列,词之间没有间隔标 

记,使得词的界定缺乏自然标准,这就需要分词。分 

询是整个分词标注系统的关键。《班智达藏文自动 

词是理解自然语言的第一步,在此基础上标注词性。 

标注系统》的研制为藏文输入法研究、藏文电子词典 

分词、标注的语料可供划分短语、抽取概念以及分析 

建设、藏文字词频统计、搜索引擎的设计和实现、机 

主题,以至自然语言理解,最终实现智能化llj。 

器翻译系统的开发、网络信息安全、藏文自动分析等 

近年来随着藏文信息处理技术的不断发展,研 

方面的研究奠定了基础。 

收稿日期:2009—08—25定稿日期:2009 10—09 

基金项目:国家语委资助项目(MZ05 118);国家社会科学基金资助项目(07BYY035,09XYY024) 

作者简介:才智杰(197O ),男,副教授,主要研究方向为藏文信息处理;才让卓玛(197O一),女,副教授,主要研究方向为 

藏文信息处理。 

5期 才智杰等:班智达藏文标注词典设计 47 

大匹配算法。先将待切分文本分块,然后按照一定 

2藏文自动标注的过程 

《班智达藏文自动标注系统》采用模块化设计, 

由知识库管理模块、知识库模块、句子分块模块、块 

分词模块、标注模块和校正模块等六部分组成。 

自动标注系统的总体设计思想是基于词典的最 

的策略将待分析的字串与词典中的词条进行匹配, 

若在词典中找不到某个字串,则将字串缩小继续查 

找,否则匹配成功,识别出一个词,并加以标注。藏 

文分词标注需要四步完成 :文本切分成句,句切 

分成块,块切分成词,词性标注,其处理过程如图1 

所示。 

图1分词标注流程 

由表1可以看出班智达藏文分词标注词典库中 

3 词典设计 

3.1主词典库设计 

长度最小的是1个字符,长度最大的达4O个字符, 

词条基本集中在1~2O个字符之间,20个字符以上 

的词条共467条,约占总词条数的0.49 ,随字符 

数的增加词条数递减。通过在85万字节藏语语料 

词典库是基于词典的分词标注系统的核心,由 

于《班智达藏文自动标注系统》采用基于词典匹配的 

分词方法,因而词典库设计的合理性直接影响其性 

能。通过对85万字节原始藏语语料的统计及切分 

统计,文本中出现的词绝大部分是3~13个字符(在 

词典库中共有87 672条,占总词条的91.4 )构成 

的词,少部分由1、2、14~2o个字符(在词典库中共 

有7 831条,占总词条的8.11 )构成的词,20个以 

实验,班智达藏文自动标注词典库共收录了95 970 

条词,词条分布见表1。 

表1 班智达藏文自动标注词典词条分布统计表 

上字符组成的词出现的频率很低。假若按常规模式 

建立词典库,一方面由于词典库规模太大而增加模 

式匹配次数,分词速度将受到影响;另一方面,由于 

词长 词条数 词长 词条数 词长 词条数 

词间字符数悬浮太大而出现数据冗余再现,浪费系 

统资源。因此,为了减少查词典的次数和计算量,提 

高藏文分词标注的速度,班智达藏文自动标注系统 

在建立词典库时按词条字符数分成高频用库、常规 

(字符数) (条) (字符数) (条) (字符数) (条) 

1 449 l5 1 099 29 9 

2 

3 

4 

5 

6 

7 

8 

9 

1 999 

4 381 

1O 934 

】7 253 

l4 1O1 

8 665 

6 403 

6 186 

16 

l7 

18 

19 

2O 

2l 

22 

23 

719 

624 

488 

340 

244 

l36 

9O 

68 

3O 

31 

32 

33 

34 

35 

36 

37 

4 

8 

6 

5 

2 

O 

O 

O 

库和稀疏库等三种,并针对“最大匹配算法”的实际 

需要,设计了藏文分词的“最大匹配索引法”。 

整个词库采用线性表组织,并通过分块和索引 

的方法来提高词库的检索速度,以减少进行匹配的 

词条数。首先对词条按字符数分块,字符数相同的 

词条放到同一组,并组内排序。一级索引加在各个 

分组上,一级索引记录组成块的字符数length和该 

项块的首地址head1,再根据下一分组块的首地址 

1O 

11 

6 O65 

5 792 

24 

25 

43 

35 

38 

39 

O 

1 

确定该分组的终止地址,组首地址可通过哈希函数 

厂(7z)一(n一1)×3o十1确定。二级索引是加在一级 

索引内部,记录词条的字符数length、首字符wH 

12 

l3 

14 

4 749 

3 143 

1 869 

26 

27 

28 

24 

23 

12 

4O 1 

和length个字符且首字符为wH组成的词在库中 

首地址,在同一组内部由于有很多的词条,二级索引 

是按词的首字符建立,它加在以不同字符开头的词 

48 中文信息学报 

条组中,这样通过二级索引可以进一步缩小查找范 

词”采用汉字“状”汉语拼音的首字母“z”作为标记代 

围。使用这种结构存储库,不但可以提高查询速度, 

码。库结构描述如下: 

同时解决了由于藏语词条间字符数悬浮太大而出现 

Typedefine struct index1 

的数据冗余现象。 

{int length;//描述组成词的字符数 

在藏语词语标注分类体系的构建上,根据藏语 

int head1;//描述length个字符组成的词在库中首 

语料库自动切分和标注的实际需要,采用先分虚实 

地址 

词,再确定大类,在大类的基础上分出小类,再分出 

}ID1; 

不同深度的子类。大类类划分为21个一级类,6O 

Typedefine struet index2 

{int length;//描述组成词的字符数 

个二级类,二级类是在确定了基本属性的基础上对 

string[- ̄WH;//描述词的首字符 

级类的分解,也是对词类信息的进一步丰富。依 

int head2;//描述length个字符且首字符为WH组 

据国际通常做法,标记代码主要采用英文术语中的 

成的词在库中首地址 

字母。例如,“名词”,采用英文术语“noun”的首字 

)ID2; 

Typedefine struct data 

母“n”作为标记代码;“数词”,采用英文术语“nH— 

{sting[-]word;//存储词 

meral”的第三个字母“m”作为标记代码。藏语独有 

Char G1;//存储一级词性 

的或使用英文术语字母不便的,依据国内通常做法, 

Char G2;//存储二级词性 

标记代码采用汉语拼音字母。如,“格助词”采用汉 

}DT: 

字“格”汉语拼音的首字母“g”作为标记代码;“状态 

库结构中部分内容的索引表如图2所示。 

Word G1 G2 

length(n) WH Head2 

,n n n 

l ,n l 

闻 n n 

ength(n) fI

Headl 

n)=(n一1) 30+1 

l 闻 2 

h h 

l 1 

l 3 

2 31 

1 

,q‘ n n 

3 6l 

2 丌l 450 

1’ n n 

2 l訇 478 

‘ 

40 l18 

2 529 

a S 

2 

。击 n n 

图2索引表结构示意图 

3.2临界库设计 

瑚’司 目萄瑚’目 瑚’ ’ ’ ’ ’ ’因 ’因仅’ 

’ ’ ’ 3 ’ ’ ’目 ’ ’ ’ ’ 昌 ’ 

用常规模式匹配的方式进行分词对分词速度的 

影响非常大,为使提高分词速度可把藏文文本以几 

硐’目击 ’q ’因 q’ ’3瑚’酉1’q吾 ’ 萄闽瑚’§ ’ 

个特殊的藏文格助词 ’ ’ 甜言1 ’ ’雹 (以下 

稍’面 1 

把这几个格助词简称为特殊格助词)为临界符进行 

分块 ]。临界库是指凡是含特殊格助词 

3.3临时库设计 

’ ’ ’ ’ 对’ 珂’ 目’ N的词组成的词条库。由于藏 

未登录词的识别是分词技术的难点 ],基于词 

文中含这几个特殊格助词的词不足百条,临界库的 

典的模式匹配分词标注系统而言未登录词的识别就 

规模很小,因而分块速度非常快。 

更为重要。为解决未登录词的识别问题,班智达藏 

例如对下面藏文文本直接利用最大匹配算法其 

文自动标注系统中建立临时库后采用智能和人工两 

时间复杂度为35 1≈1.O3×1O ,而先用特殊格助词 

种方法识别未登录词。智能识别法:对无法分词的 

分块然后再切分其时间复杂度为3 1十2 1+9 1+16 1 

字符串,统计这个子串在整篇文章中出现的频率,若 

+11 1≈2.09×10¨,有效地提高了切分速度。 

频率较高则将此视为一新词,把该词自动添加到临 

5期 才智杰等:班智达藏文标注词典设计 49 

时库,这种将词库与词频统计相结合的方法可提高 

未登录词的识别率,通过实验用这种方法能够识别 

85 以上的未登录词;人工识别法:人工阅读文本 

时若发现某未登录词,则选择该词利用添加功能把 

词添加到临时库。通过知识库管理模块把临时库中 

新抽取出的词条添加到主词典库,这样在实际应用 

确定DT中的首地址和终地址,在DT中双用折半 

查找算法找到词再 ’ 因,把 弼’ 磊酮切为一个词 

并加以标注;然后读取字串 己i碣’击 ’q ’q,该字串 

的长度为8个字符,根据哈希函数求得ID2中的首 

地址为211,终地址为240,在ID2的地址为21l和 

240间用折半查找算法找到 ,由该条记录的head2 

值确定DT中的首地址和终地址,在DT中双用折 

中,可不断扩充系统的词库,提高信息的查全率。 

半查找算法查找字串 弼‘蕾 ’目 ,由于字串 

4词库索引查询算法 

4.1索引查询算法 

索引查询算法是索引搜索策略的形式化描述和 

具体实现,由以上分词标注库结构描述可知,索引查 

询算法的主要特点是通过建立二级索引减少查询词 

库的次数,从而提高分词标注系统的性能lc]。具体 

算法如下: 

1)按照“最大匹配切分算法”从文本开头取出 

个最大待查字串; 

2)求出该字串的长度,并根据哈希函数.厂(n) 

( 一1)×30+1确定ID2的首地址和终地址; 

3)在ID2的首地址到终地址问利用折半查找 

算法查找字串中的首字符,根据head2字段确定 

DT中的首地址和终地址; 

4)在DT的首地址到终地址间利用折半查找 

算法查找字串。若字串在词典库存在,则分词并加 

以标注,否则缩小字串并转至2)。 

4.2索引查询过程举例 

下面结合3.1和4.1给出的结构和算法,通过 

个分词标注实例来介绍分词标注词典库中索引查 

找的具体实现过程。 

例句: 瑚’q蔷 ’ ’ 硎’毒 ’司茸’司I(建立适当 

的坐标系。) 

本句分词标注时用特殊格助词 分块,先读取 

字串 硎’ 磊因,该字串的长度为5个字符,根据哈希 

函数厂( )一( ~1)×30+1求得ID2中的首地址 

为121,终地址为150,在ID2的地址为12l和150 

间用折半查找算法找到R,由该条记录的head2值 

毒 ’司 ’司在DT不存在,将字串缩小为 

可『 捌’击气’司青,用同样方法可判断字串 酉列’若 ’q 

在DT也不存在,将字串缩小为 击 ,用索引查 

询找到词 ’击 ,把 硐’击 切为一个词并加以 

标注;同样可把目茸’司切为一个词并标注词性。分词 

标注结果为: 硎’ 击 ’ta§ ’ ’击 ’ n司吾’司州。 

5 结束语 

藏文自动分词标注的研究,将推动机器翻译、语 

音合成、文字识别技术的发展。随着歧义性研究的 

进展,还可进一步提高分词准确率。 

参考文献 

[1]陈玉忠,李保利,俞士汶,等.基于格助词和接续特征的 

书面藏文分词方案FJ].语言文字应用,2003,(1):75— 

82. 

[2]才智杰.藏文自动切分系统中紧缩词的识别[J].中文 

信息学报,2009,23(1):35—37,43. 

[3]孙茂松,黄昌宁,等.中文姓名的自动辨识[J].中文信 

息学报,1995,9(2):16—27. 

1-43孙茂松,邹嘉彦,等.汉语自动分词研究评述[J].当代 

语言学,2001,(1):22—32. 

[5] 李庆虎,陈玉健,孙家广.一种中文分词词典新机 

制——双字哈希机制[J].中文信息学报,2003,17(4): 

13—18. 

[6]陈玉忠,李保利,俞士汶,等.藏文自动分词系统的设计 

与实现[J].中文信息学报,2003,17(3):15-20. 

[7] 陈玉忠,俞士汶.藏文信息处理的研究现状与展望[J]. 

中国藏学,2003,(4):97—107. 

本文标签: 标注分词词典自动系统