![]() |
| 首页>汉语拼音讨论>汉语拼音与汉语信息处理技术——俞士汶 | |
|
|
|
俞士汶 苏祺 胡景贺 (北京大学计算语言学研究所 北京 100871) [摘要] 也许制订《汉语拼音方案》的先驱们当初并没有清晰地预见到这项成果在今天的信息技术中所发挥的重要作用,笔者仍由衷地钦佩先驱们的睿智和奉献。 本文探讨汉语拼音与汉语信息处理技术的关系。介绍北京大学计算语言学研究所在汉语信息处理基础研究和应用研究中是如何运用汉语拼音的。重点介绍一个从汉语文本到汉语拼音的自动转换软件:语言学原理、实现技术、主要性能指标、多领域的应用。 [关键词] 汉语拼音, 信息技术,中文输入技术,现代汉语语法信息词典,文本-拼音自动转换技术 Pinyin and Chinese information processing technology Abstract Although the forerunners who formulated the Scheme for the Chinese Phonetic Alphabet (Pinyin) may not have foreseen its significant influence on the present information technology, the authors respect them for their sagacity and their dedication sincerely. In this paper the authors discuss the relation between Pinyin and Chinese information processing technology and introduce the application of Pinyin in the researches of Chinese information processing conducted in the Institute of Computational Linguistics, Peking University. The paper concentrates on an automatic Chinese to Pinyin conversion software, its linguistics principle, implementation, main performance and application of many fields. Keyword Chinese Pinyin, information technology, Chinese input technology, the Grammatical Knowledge-base of Contemporary Chinese, automatic text-to-Pinyin technology 1. 从信息处理的视角评价汉语拼音的历史功绩 《汉语拼音方案》公布已经45周年了。在中国社会生活的方方面面都可以见到《汉语拼音方案》的影响,国际标准化组织(ISO)早已规定汉语拼音是拼写汉语的国际标准(1982年)。关于汉语拼音的历史功绩,相信有众多的权威学者已经撰文论述。[1]更明确指出,“离开拼音就谈不上现代化的一切”。大家知道,一二年级的小学生识字不多时,可以用汉语拼音给爸爸妈妈留言。汉语拼音对普及教育做出了重大的贡献。中国虽然从秦始皇起便实现了“书同文”,可是至今还不能“语同音”。据说,中国自清朝雍正年间起便开始推广普通话,长时期收效甚微,只是在最近几十年才有比较显著的成绩。固然与经济、教育、科学、文化发展水平有密切关系,固然同现代有了广播、电视、音像技术有密切关系,而有了汉语拼音,汉字有了方便的注音符号系统也是一个重要的原因。笔者不是语文工作者,这些认识自然肤浅,还是集中讨论汉语拼音在信息技术中的作用吧。 应当承认,在文字书写机械化(打字)的进程中,汉字落伍了。西方在19世纪发明了打字机,它将“写字”改变为“打字”, 英文“打字”还可以不看稿,可以“听打”和“想打”,打字机在欧美普及到几乎人人都能使用的程度,知识创新在一定程度上实现了机械化。虽然有过中文打字机,因其笨重、操作不便,未能普及。电报曾是文字通讯的主导技术,可是用电报传送汉字离不开电报码本,远没有字母拼音文字方便。当代已步入信息化社会。社会的信息化离不开计算机的普遍使用。可是计算机技术是在英语世界发展起来的。计算机与英语文化的适应性为计算机在英语国家的迅速普及、广泛应用提供了最大的方便[2]。键盘是人机交互的基本工具之一。键盘继承了打字机的模式,欧美人使用计算机可以说是驾轻就熟。为了让汉字文化赶上信息化的进程,志士仁人在“计算机中文化”和“中文计算机化”两条战线上努力拼搏。已经取得的显著成果之一就是基本上解决了利用普通键盘输入汉字的问题。现在大多数人使用的是拼音输入方式。汉语拼音为实现计算机中文化功不可没,而且确实如王均先生所言,汉语拼音方案是最佳方案。如果45年前,不用汉语拼音方案替代注音字母,如果不抛弃第一次公布的草案(记得曾用另行设计的拖尾巴的符号,或许是国际音标,表示zh, ch, sh, ng等字母组合),果断地采用拉丁字母的《汉语拼音方案》,那么,计算机的中文化,首先是中文输入技术的普及一定会遭遇更多一重的障碍。 其实,在个人计算机于1980年代普及之前,科研人员已经在计算机技术的研究和普及工作中用上了汉语拼音。1970年代初,北京大学研制成功我国最早的百万次集成电路计算机(150机,又叫DJS-11机)。当时这台国产计算机的先进之处还在于它配备了完整的软件系统,包括多道程序操作系统和直接提供给科学计算工作者使用的高级程序设计语言BD-200[3]。那个年代流行的FORTRAN, COBOL等高级语言的命令(语句)都是用英文表述的,适应当时的政治气候和科技人员的英语水平,BD-200改用汉语拼音(或缩写)表示各种语句的定义符,例如条件语句用#RU,#ZE,#FZ代替if, then, else。BD-200一度相当普及。150机操作系统的命令及输出信息也是用汉语拼音表示的,如用FP,QFP,ZG分别代表“分配(设备)”、“去分配”、“暂挂(程序)”等命令。150机及其软件系统对我国计算机技术发展的贡献是载入了史册的,它的记功簿上也应该有《汉语拼音》的名字。150机不会处理汉字。那时科技人员的变通处理正符合《国家通用语言文字法》关于“《汉语拼音方案》……,并用于汉字不便或不能使用的领域”。应当说,在那些既不便或不能使用汉字、也不便或不能使用英文的场合,汉语拼音成了最好的唯一的选择。 从信息处理技术角度看,《汉语拼音方案》的历史功绩可谓大矣。 2. 大型语言工程与汉语拼音 北京大学计算语言学研究所(以下简称“北大计算语言所”)自1986年成立以来,完成了若干面向信息处理的大型语言工程。这些语言工程或多或少都得益于《汉语拼音方案》的利用。以下按时间先后介绍4项语言工程。本节介绍前3项,第4项留待第3节专门介绍。 2.1 以词为基础的中文语句输入方法 1980年代中期,适应个人计算机的迅速普及,汉字键盘输入技术不断发展。当时以字为输入单位的字形编码输入技术是主流,这种技术同当时的硬件水平、价格也是适应的。局限于以字为输入单位,拼音输入是缺乏优势的:每个汉字对应的汉语拼音平均包含的字母数目多,同音字多又造成重码率高。当硬件价格下降到在计算机中存储一部数以万计的词典已不再是承受不起的负担时,以词为单位的输入技术自然会应运而生。尽管跟同音字相比,同音词的比率要小得多,但同音词依然存在,仍然需要由人消歧、选择。自然容易想到以语句为单位输入中文,词与词之间的约束关系有助于计算机自动消歧。现在这样的技术已经流行了,不过错误仍经常发生。例如,在中文模式下,键入“pianyiheyongdegongju”后,自动变换为“便宜和用的工具”,其实,希望输入的是“便宜合用的工具”;键入“chaoyangqushixindeshangyezhongxin”后,自动变换为“潮阳趋势信的商业中信”,其实,希望输入的是“朝阳区是新的商业中心”。可以发现,输入错误主要是由切分错误拖累的。将汉语拼音一个音节一个音节地连在一起键入,表面上是模拟了书面汉语一个字一个字地连在一起写的传统,其实这并不符合国家标准GB/T16159-1996《汉语拼音正词法基本规则》:以词为拼写单位,一个词内部的音节要连写,两词之间要留空格。现在,很多学者呼吁发挥汉语拼音在信息时代的作用[4],强烈主张规范运用汉语拼音正词法[5]。如何让使用越来越广泛的键盘拼音输入法同《汉语拼音正词法基本规则》相适应,是一个需要面对的技术问题。 北大计算语言所曾于1986至1987年间,开发了一个以词为基础、以语句为单位的中文输入软件[6]。方案以及实现技术的要点如下: 如果想输入“会议进行得很顺利”这句中文,用户只要键入: huiyi jinxing de hen shunli 实际上就是按照正词法规则输入这句话的汉语拼音,然后按变换键(回车键),计算机就能将这串按词连写规则键入的拼音自动变换为 会议进行得很顺利 为了实现这个变换,机器里配备了一部词典、一套语法规则和一个拼音-汉字变换程序。词典格式为 词条 拼音 词类 小类 频级 的 de u 1 0 地 de u 1 1 得 de u 1 1 很 hen d 1 0 狠 hen a 2 3 恨 hen v 4 3 回忆 huiyi n 7 3 回忆 huiyi v 7 3 会议 huiyi n 7 2 会意 huiyi v 7 3 金星 jinxing n 4 3 尽兴 jinxing d 5 3 进行 jinxing v 7 2 顺利 shunli a 3 2 规则用上下文无关语法公式描述。拼音-汉字变换程序通过分析规则、查词典得到如下句法树: 再考虑“频级”因素,不难正确选择出“会议进行得很顺利”。文献[6]主要介绍了自然语言处理技术在中文输入中的应用。如果注意到当时中文键盘输入技术的主流还是以字为单位的编码技术,少量的词输入不过是字输入的点缀,那么可以认为笔者实现的“以词为基础,以语句为输入单位”的技术是相当先进的。现在从规范运用汉语拼音的角度重新评价这项技术,可以得到一些启示。 (1) 周有光先生指出汉字输入经过了三个发展阶段[5]:整字输入、编码输入和拼音输入。可以认为,笔者于1988年发表的论文[6]及其相关技术对拼音输入的发展起了正面的促进作用。 (2) 该项技术规定以词为连写单位,词内部的音节连写,语句的两个词之间留空格。这个规定完全符合1988年7月才公布的《汉语拼音正词法基本规则》。甚至连一些细节也符合,例如,动词和“着”、“了”、“过”连写。然而,笔者不是语文工作者,在《汉语拼音正词法基本规则》发布之后很晚才知道有这个规则。这从另一个侧面反映了《汉语拼音正词法基本规则》是符合一般人的认知规律的。 (3) 现在的拼音输入技术取消了“词与词之间留空格”的限制,从实现的角度看,要克服更多的困难,技术上有进步,似乎更方便用户。但明显的缺点是人击键输入汉语拼音的过程与《汉语拼音正词法基本规则》相悖。随着“一语双文”逐渐出现在社会生活和网络文化中,日益需要“篇章级的汉语拼音与汉字的相互转换技术”,何苦在输入拼音时反而不遵守正词法基本规则呢。 (4) 社会现代化了,语文生活必然也随之现代化。现代中国人对于“词”这个概念已经不陌生了,日常生活中频繁使用的“电话”、“电影”、“电视”只能是“词”,无法再回到两个自立的“字”。如果键盘输入技术遵守《汉语拼音正词法基本规则》,既可以提高语句输入一次变换的正确率,又可以进一步促进“词”的概念的普及和规范,无疑这是有益于推进语文生活现代化的。为了汉语信息处理应用技术早日回报社会,一些学者早已呼吁将汉字文本由“按句连写”(每句用句号等隔开)改为“按词连写”(词与词之间留空格)[7,8]。如果大多数人都习惯了“词间留空格的语句输入技术”,“按词连写”的汉字文本的阅读、写作就比较容易普及、汉语自动分析就少一重障碍,所以这些都是有益于社会的现代化和信息化的。 2.2 现代汉语语法信息词典 上节介绍的“以词为基础、以语句为单位”的中文输入技术未能付诸实用,原因很多。主要原因是笔者及其同仁在其后的相当长的时间内把主要精力转向了计算语言学的基础研究。在拼音-汉字变换软件中,应用了包含汉语语法知识的词典和语法规则库,这是创新点。但是,当时做这件事却是打了一场“遭遇战”,完成的是“急就章”。因此,认识到要想在计算语言学领域有所作为,必须系统、深入地学习语法知识并将人能理解的知识转化为计算机可操作的数据格式,有关机器翻译的研究当然更加深了这种认识。应用研究的实践所提出的需求是研制《现代汉语语法信息词典》的原动力。 《现代汉语语法信息词典》已有17年的研制历史。很多人已经了解,它是一部面向汉语信息处理的、以数据库文件形式组织的机器可利用的电子词典。这部词典已产生了广泛影响。详细介绍这部词典的《现代汉语语法信息词典详解(第二版)》已由清华大学出版社于2003年2月出版(第一版出版于1998年)。 《现代汉语语法信息词典》利用了汉语拼音。它的总库有7.3万多个记录。每个记录都有如下同汉语拼音相关的字段:“词语”、“全拼音”、“同音调”、“拼音”、“同音”、“音节数”。 例如, 词语 词类 同形 全拼音 同音调 拼音 同音 音节数 合计 v A he2ji4 1 heji 2 2 合计 v B he2ji5 1 heji 2 2 条理 n tiao2li3 2 tiaoli 3 2 调理 v tiao2li3 2 tiaoli 3 2 条例 n tiao2li3 1 tiaoli 3 2 这里,“全拼音”和“拼音”的差别是一个带声调,另一个不带声调。附在音节后的数字代表声调,用“5”代表轻声可以保证按全拼音排序时,轻声排在相同音节的最后。“同音调”的值是整个库中“全拼音”相同的词语的个数。“同音”的值则是忽略声调、“拼音”相同的词语的个数。尽管“同音调”、“拼音”、“同音”、“音节数”这几个字段的值可以根据整个库的“全拼音”统计得到,但是显式地设立这几个字段可以提高自然语言处理程序的效率。为了能表示出汉语拼音的全部音节,还采用“v”代替韵母“ü”。对此,可能会觉得别扭,因为“v”是辅音字母,当韵母用确实不自然。不过,之所以如此变通不仅是因为26个字母中没有“ü”,而正好在汉语拼音中“v”又没用,还因为如此可以保证“lü”、“nü”正好紧排在“lu”、“nu”之后,符合《现代汉语词典》的排序规则。 汉语的文本中并没有拼音信息,如果局限于文本检索、自动摘要、机器翻译等实际应用,《现代汉语语法信息词典》似乎没有必要引入汉语拼音。但对于这样的大型语言工程,必须考虑到它的更广的潜在应用领域(如:语音技术),汉语拼音这个字段是不能忽略的。事实上,汉语拼音的引入对于编制词典的索引带来很大的方便。在机器内部,词典可以按汉字的内部码排序(一个汉字可以发不同的音,但只有一个内部码),而作为印刷品,常用汉字范围内的汉语拼音索引是最方便的。《现代汉语语法信息词典详解》(第一版和第二版)的总表都是按照汉语拼音排序的,如果开发之初,不设立汉语拼音字段,就会碰到很大麻烦。 7.3万多词语的“全拼音”的生成采用了计算机辅助技术[9],如果完全由人工填写,不仅工作量大,还容易出错。 数据库中“词语”、“词类”、“全拼音”这3个字段能够唯一地标识每个记录。不过,“全拼音”字段较长,不方便。为了提高处理效率,另设立一个“同形”字段以标识同形词[10]。例如,有两个“合计”,都是动词,但读音不同,它们的“同形”字段的值分别为“A”、“B”。 在数据库中,“词语”、“词类”、“同形”组合成了主关键字(Primary Key),它是每个记录的唯一标识。 总之,《现代汉语语法信息词典》数据结构的总体设计既立足于汉语拼音,又不拘泥于汉语拼音,希望这个经验有借鉴意义。 2.3 注音语料库 语料库语言学的要旨是让计算机从急速增长的大规模真实语料中直接学习到自动处理语言信息的知识。不过,原始语料的利用价值或者说无指导的机器学习的潜力是有局限性的。经过不同深度加工的语料库有更广泛的用途。在有了《现代汉语语法信息词典》之后,北大计算语言所又在进行另一项大规模的语言工程:对数千万字的原始语料进行包括词语切分、词性标注在内的基本加工。指导这种加工的规范(《规范2001》)已在《中文信息学报》2002年第5期和第6期连载[11]。由于应用需求的驱动,北大标注语料库的规模、深度以及加工技术都在不断地发展。最近又制订了《北大语料库加工规范:切分?词性标注?注音》(《规范2003》),已在新加坡的《汉语语言与计算学报》上发表[12],并完成了依据《规范2003》 的一部分样例的加工。摘取一段这样的样例如下: 咱们/rr 中国/ns 这么/rz 大{da4}/a 的{de5}/ud 一个/mq 多/a 民族/n 的{de5}/ud 国家/n 如果/c 不/df 团结/a ,/wd 就/d 不/df 可能/vu 发展/v 经济/n ,/wd 人民/n 生活/n 水平/n 也/d 就/d 不/df 可能/vu 得到/v 改善/vn 和{he2}/c 提高/vn 。/wj 加工以后,词语之间有了空格,斜杠之后的字母是该词语的词性标记。已发表的《规范2003》的标记集包括105个标记[12],它们表示了词法、句法范畴的信息。另外,语料库还对多音词加注了汉语拼音,例如:大{da4}/a,的{de5}/ud,和{he2}/c 。“大”、“的”、“和”是多音词(字),紧接着这些词之后、斜杠之前的花括号中的汉语拼音表他们在当前文本中正确读音。至于单音词的读音可以在附加的词典中查到。 大规模的注音语料库可以为汉字-拼音的相互变换提供丰富的统计信息和规律信息,有助于这些技术更上一层楼,当然也有助于语音技术的发展。 3. 文本-拼音自动转换软件介绍 为了实现大规模语料的注音,北大计算语言所近年来开发了一个“文本-拼音自动转换软件”[13]。本软件是通用型的,可以用于词典编纂、教材编写以及远程汉语教学等领域。 摘录一段最近的新闻语料(2003年6月16日《北京青年报》)以纯文本格式输入计算机,经过文本-拼音自动转换软件处理后,可以输出如下结果(拼音标注流): 为/v[wei4] 落实/v[luo4shi2] 国务院/nt[guo2wu4yuan4] 、/w[、] 卫生部/nt[wei4sheng1bu4] 领导/v[ling3dao3] 关于/p[guan1yu2] 开展/v[kai1zhan3] SARS/n[SARS] 康复者/n[kang1fu4zhe3] 捐献/v[juan1xian4] 血浆/n[xue4jiang1] 用于/v[yong4yu2] 临床/d[lin2chuang2] 治疗/v[zhi4liao2] 的/u[de5] 重要/a[zhong4yao4] 指示/n[zhi3shi4] ,/w[,] …… (注:这里的结果未经人工校对。切分和注音都完全正确,词性标注个别有错,未改正。) 3.1 文本-拼音自动转换软件的流程和原理 文本-拼音自动转换软件的流程图如下所示。 从流程图了解到,当以纯文本文件作为输入时,第一步是进行词语切分和词性标注。当然,也可以直接针对汉字串进行“汉字-拼音变换”,但是单个汉字的多音现象十分严重,而很多多音字在合成词中已经唯一地确定了读音。如“得”有“de2”、“de5”、“dei3”3种读音,但在“得寸进尺”、“得到”、“得心应手”、“得意”等词语中只读“de2”。合成词“地道”仍有两个读音:“di4dao4”、“di4dao5”。但读“di4dao4”时一定是名词,读“di4dao5”时一定是形容词。在正确切分与标注的基础上注音,自然有相当高的准确度。北大计算语言所自1992年起便开发了词语切分和词性标注软件[15],并经多位博士生的不断改进,功能和性能指标日益提高(读者可在北大计算语言所的网页www.icl.pku.edu.cn上测试“切分、标注、注音”软件)。“文本-拼音自动转换”软件借助已有的“词语切分和词性标注软件”这个宝贵的资源,自然是明智的决策。 系统中有一部基础词典。基础词典继承了《现代汉语语法信息词典》中的“词语”、“词类”、“全拼音”等信息,另外也增加了关于“读音频率”的信息,即有的词(字)尽管有多个音,但不同音的使用频率是有明显差异的。利用“读音频率” 信息,可进一步提高注音的准确率。 需要注意的是,属于同一词类的同形词仍可以有不同的读音,如同属动词的“挨”既读“ai1”又读“ai2”,“调配” 既读“diao4pei4” 又读“tiao2pei4”,“合计” 既读“he2ji4” 又读“he2ji5”。这是关注的重点,也是难点。 系统中加入了基于专家知识的同类多音词的读音规则库,以便进行后处理。同类多音词的读音规则主要是根据上下文环境判断该词在具体语境中的读音。规则库独立于程序代码之外,便于维护和扩充。规则包括上下文出现的汉字、词语、词性以及这些相互间的位置关系。 “文本-拼音自动转换”软件的另一个难点是对于未定词的处理。当然它同样是切分标注软件永远需要对付的难题。只要切分标注软件能将词典中未登录的一串汉字正确地判断为“词语”,利用“汉字-拼音变换”技术[9]给它注音是不困难的,尽管不能保证百分之百地正确。 3.2文本-拼音自动转换软件性能分析 为了能够真实反映文本-拼音自动转换软件的效果,北大计算语言所曾选用多种领域的新闻语料进行了测试。已购买了该软件许可使用权的用户也进行过测试。测试结果表明,正确率和转换速度都达到令人满意的程度。 可能会提出这样的疑问,既然文本-拼音自动转换软件立足于切分、标注软件,那么文本-拼音自动转换软件的正确率就不会比切分、标注软件更能令人满意。这种考虑是有道理的。例如,“学校中将流行……”如果加工为 “学校/n 中将/n 流行/v ……”,其中的“将”的读音就被标注为“jiang4”,其实应该读“jiang1”,正确的切分、标注是“学校/n 中/f 将/d 流行/v ……”。但是,有相当多的情况,切分、标注不正确,并不妨碍注音的正确性。例如,“明星和平常人……”很容易错误地处理成“明星/n 和平/n 常人/n……”,而正确的是“明星/n 和/p 平常人/n……”。不论哪种情况,“和”的读音都会正确地标注为“he2”。实际测试结果表明,文本-拼音自动转换软件的注音正确率确实高于切分、标注的正确率。不过,如果直接针对汉字串进行读音标注,其结果要差得多。从上述分析可以看出,“文本-拼音自动转换”软件仍然贯彻了“以词为基础,以语句为基本变换单位”的理念,同《汉语拼音正词法基本规则》是并行不悖的。 表面上看,从汉字到拼音的变换似乎比从拼音到汉字要容易。其实不然。例如,“儿子长了2厘米”和“裤子长了2厘米”中的“长”读不同的音,要让机器能自动判断,需要给机器配备多少知识?也许知道“长”是动词还是形容词就够了。又如,“调配”可以读“diao4pei4”,也可以读“tiao2pei4”,使用频率大概差不多,两个词又都是动词,而且都是及物动词。人大概知道“调配人力、设备、工具或材料”时读“diao4pei4”,“调配颜色、饺子馅儿或药剂”时读“tiao2pei4”。但是,如果在给地图着色时说“把安徽、江西、江苏、浙江这几个省的颜色重新调配一下”,这时“调配”该读什么呢?如果一个字的两个读音仅声调有差别,那区分就更困难了。如“奔”读“ben1”和“ben4”,“为”读“wei2”和“wei4”,“载”读“zai3”和“zai4”,甚至“奔命”可以读“ben1ming4”,也可以读“ben4ming4”。一个人如果在文章中会正确地读这些单音节词和双音节词的音,一定是挺有学问的吧。 由此可见,从汉字到拼音的变换要达到高准确度同样是很困难的,也要进行深入的句法分析、语义分析和语境分析,最终也涉及到汉语理解的问题。 4. 结语 本文主要从语言工程实践的角度讨论了汉语拼音的价值和历史功绩,即使仅仅局限于信息处理技术领域,也是不够深入、不够全面的。笔者从科学研究实践深切地感受到汉语拼音的重要性,由衷地钦佩制订汉语拼音方案的先驱们的睿智和奉献,认为他们把握了汉语现代化的正确方向。现在仍然有很多学者在继续推进语文现代化的工作[15],笔者以为,这是极其重要的,应当给予支持。当然,很多认识和做法都可以讨论,但对于中国人来说,必须加强母语——汉语的教学应当是没有疑问的。[15]提到现在竟然有人主张“小学体音美和中学数理化要以英语为教学语言”,笔者感到吃惊。一位在实行双语制国家生活的学者曾语重心长地同我谈起,“两种语言都能对付,却不能运用任何一种语言进行创造性思维,这样的人群是出不了大师级英才的”。笔者同意这种看法。 本文介绍的几项大规模语言工程都是北京大学计算语言学研究所全体同仁长期共同努力取得的成果。关于文本-拼音自动转换软件,笔者应当特别感谢张竑同学,她于2000年完成的原型系统是这个软件发展的基础。 参考文献 [1]王均,再论汉语拼音方案是最佳方案,《语言文字应用》,2003年第2期,1-9 [2]俞士汶,信息技术中的语言文化特点,见:苏培成等编《语文现代化论文集》,121-138,北京:商务印书馆,2002年10月第1版 [3]杨芙清、俞士汶,操作系统结构分析,北京:北京大学出版社,1986年第一版 [4]冯志伟,发挥汉语拼音在信息时代的作用,见:苏培成等编《语文现代化论文集》,41-44,北京:商务印书馆,2002年10月第1版 [5]周有光,拼音正词法和国际互联网,见:苏培成等编《语文现代化论文集》,64-69,北京:商务印书馆,2002年10月第1版 [6]俞士汶,中文输入中语法分析技术的应用,《中文信息学报》,1988年,第2卷第3期,20-26 [7]陈力为,汉语书面语的分词问题——一个有关全民的信息化问题,见罗振生、袁毓林主编《计算机时代的汉语和汉字研究》,7-10,北京:清华大学出版社,1996年11月 [8]俞士汶,关于受限的规则汉语的设想,见王均主编《语文现代化论丛》,193-205,山东教育出版社,1995年10月 [9]朱学锋,计算机辅助编制机器辞典,《中文信息学报》,1989年,第3卷第4期 [10]俞士汶、段慧明、朱学锋,语言工程中同形及兼类词语的处理策略,见黄昌宁、张普主编,《自然语言理解与机器翻译》,211-218,北京:清华大学出版社,2001 [11]俞士汶、段慧明、朱学锋、孙斌,北京大学现代汉语语料库基本加工规范,《中文信息学报》,2002年第5期49-64;第6期58-65 [12]俞士汶、段慧明、朱学锋、孙斌、常宝宝,北大语料库加工规范:切分?词性标注?注音,《汉语语言与计算学报》(新加坡),2003年第2期,121-158 [13]Zhang Hong, Yu Jiangsheng, Zhan Weidong, Disambiguation of Chinese Polyphonic Characters, Proceedings of the First International Workshop on MultiMedia Annotation (MMA2001), 2001, Japan [14] Zhou Qiang, Yu Shiwen, Blending Segmentation with Tagging In Chinese Language Corpus Processing, Proceedings of COLING-94, Vol.2. 1274-1279, Aug. 1994 [15] 马庆株,“抓住机遇,扎实推进语文改革——规范汉字及其拼写工具的完善”,《语言文字应用》,2003年第2期,10-16 (三名作者都是北京大学计算语言学研究所的,俞士汶:教授,苏祺:博士研究生,胡景贺:硕士研究生) 首页>汉语拼音讨论>汉语拼音与汉语信息处理技术——俞士汶 本站所有作品均属个人收藏,除无版权作品、作者放弃版权作品以外,其版权均归 作者或版权持有人所有,任何单位和个人不得将之用于商业用途,否则后果自负! |
|
![]() |
![]() |
![]() |
![]() |
| 电子邮件 | linsxiaovbing@hotmail.com | 邮件 |