教育资源为主的文档平台

当前位置: 查字典文档网> 所有文档分类> 论文> 其他论文> 试论中文信息处理与现代汉语语法

试论中文信息处理与现代汉语语法

上传者:网友
|
翻新时间:2023-02-28

试论中文信息处理与现代汉语语法

"

论文关键词:中文信息处理 现代汉语语法 句处理

论文摘要:用计算机来处理汉语信息包括“字处理”、“词处理”和“句处理”三个阶段。“句处理”是实现自然语言的处理与理解这一关键性的技术难关。其中遇到的问题比较多:词性的判断;短语、句子的结构分析;歧义现象分析等等,最根本的方法是语言学家尽可能地把语言中的这些现象通过归纳、分析、总结出规律,再用形式化的方式描述出来,以便利于计算机处理。

用计算机来处理汉语信息,就是汉语信息处理,又称中文信息处理。中文信息处理包括“字处理”、“词处理”和“句处理”。“字处理”、“词处理”分别与汉字和词汇有关,在此主要谈谈“句处理”。

句处理的主要内容是,怎样使计算机理解自然语言(如现代汉语)的句子的意思,又怎样使计算机生成符合自然语言规则的句子。“句处理”所需要的语言知识,将是一种涉及到语音、语义、语法、语用等诸方面的综合性知识。目前。大家都深感现有的关于汉语的知识远远不能满足中文句处理的需要。单就句法方面的情况说。在中文信息处理过程中将会不断遇到我们想象不到的问题,许多问题在人看来还是比较容易解决的,但计算机就解决不了。也有一些问题,本身在学术界就有不同的观点,那么,就给中文信息处理增加了更大的困难。

用计算机来处理中文信息,遇到了很多困难,从现代汉语语法的角度来看,主要有以下一些问题:

一、词性的判断

由于汉语缺乏形态。汉语的词性判断主要是根据词的语法功能,不同的词,词性意义可能不同,同一个词出现在不同的地方,词性意义也可能不同,汉语中,大多数词有固定的词性,但有些词的用法比较特殊。例如:

1.他花了十块钱买了一盆花。

2.你用那个锁把门锁上。

3.他比雷锋还雷锋。 目前,在中文信息处理中,是这样来定义兼类词的:亢世勇认为“兼类词有广义兼类词和狭义兼类词。广义兼类词就是中文信息处理中所说的现代汉语的同形词,对于计算机而言,只要词形相同,不管读音是否相同、意义是否相通,是同形异音词、同形同音词,还是一词多义、一词多种用法,都是相同的,都要从多个当中选一个。狭义的兼类词就是指一般的现代汉语著作定义的,‘同形同音、意义上有一定的联系,且具有两类或两类以上词的语法功能的词”’。陆俭明认为,兼类词是“指同字形、同音而意义不同或词性不同的词”。如果按这种定义理解,以上三个句子中的两个“花”、“锁”、“雷锋”都可以称之为兼类词。因为,中文信息处理的目的是让计算机能根据具体环境判断出词的词性,从而准确理解其中的含义就可以了。尽管如此,但是,汉语词类是多功能的,一类词不需要发生词形变化就可以充当不同的句子成分,不同类的词可以充当相同的句子成分,这样就给兼类词区分带来了更多的麻烦。因而,兼类词的选择是计算机词性自动标注的一个“瓶颈”。尽管信息处理专家运用了规则排歧、统计概率排歧或者两者结合起来等多种方法进行排歧,但到目前为止,还没有一种方法、一种系统能够彻底解决这个问题。

二、短语、句子的结构分析

由于汉语缺乏形态。所以。语序和虚词成了汉语中表示语法的主要手段。有些短语、句子的结构不好理解,需要形式和意义结合起来分析。例如:

A组:a。陕西+甘肃+宁夏 (“陕西+甘肃+宁夏”三者为联合关系)

b.中国+(北京+陕西)(“中国”与“北京陕西”是偏正关系.“北京”与“陕西”是联合关系)

C.中国(陕西(西安))(“中国”与“陕西西安”是偏正关系,“陕西”与“西安”也是偏正关系)这一组中的abe三个短语对人来说,都很容易分清楚,但计算机目前还很难区分,要让计算机分辨清楚,就得把三个处所名词组合在一起构成a类、b类、e类不同关系的条件与规则研究清楚,并将这些条件与规则加以形式化输入到计算机内。

B组:开始讨论(述宾关系)分析研究(联合关系)研究结束(主谓关系)

取下来(述补关系) 看完再说(连谓关系) 叫他回来(兼语关系)

生产管理(定中关系) 讽刺说(状中关系) 介绍写(不构成合法的句法关系)

这组是现代汉语里“动词性词语+动词性词语”构成的种种不同的结构关系,对人来说,通过讲解大致可以分辨,可是让计算机要分清楚,就非常难,因为我们至今还没有总结出“动词性词语+动词性词语”构成各种不同句法关系的具体规则。换句话说,“动词性词语+动词性词语”在什么条件下一定构成合法的什么句法关系,能构成什么样不同的句法关系,我们至今还说不清楚。 "

C组:天气好——好天气(主谓——偏正)很好——好得很(偏正——述补)

来人了。——人来了。(述宾——主谓)

一张票三元钱。——三元钱一张票。(主谓——主谓)这一组都是由于语序的不同而形成的结构和意义都不同的短语和句子。这些结构对人而言,稍加学习就可以理解,但这些给计算机理解意思增加了难度。需要人们把这些语序的变化形成的不同的结构概括出规律来,再用形式化的方式描述出来。输入到计算机里。

三、歧义现象

现代汉语短语结构的歧义是进行汉语句法分析的一大障碍。“句处理”要解决的核心问题是排歧问题,计算机面对的歧义,不只是我们人所能感觉到的诸如下面这样一些句子的歧义现象:

(1)他正在输血。(他正给病人输血。/他病了,正输血。)

(2)看望的是病人。(你看望的那个人是病人。/看望你的那个人是病人。)

(3)我们急需进口产品。(我们急需进口的产品。/我们急需从国外进口产品。)

某些在人看来不存在歧义的句子计算机会认为有歧义.例如:

(4)a他被警察叫去罚了一百块钱。 其实以上所举的例子都存在歧义问题,因此,也可以这么说,“句处理”要解决的核心问题是排歧问题。

中文信息“句处理”的研究工作,上个世纪80年代就开始了,最早进行“句处理”研究工作就是基于规则展开的,但上个世纪90年代初,基于规则的“句处理”研究工作遇到了重重困难与难关,主要是语言学家所提供的语言规则远远不能满足信息处理的需要。目前,为了解决好中文信息处理中的“句处理”难题,出现了一个竞相研究、竞相发展的局面。对于句处理,提出的各种策略和途径,归纳起来。主要有基于规则和基于统计这两种策略。基于规则的研究者,一般求诸专家的理性知识,由人来对语言知识进行抽象:基于统计者,一般求助于计算机对大规模语料库真实文本的统计分析,由计算机来抽象出语言知识。各种策略和途径,目前,我们还很难说哪一种是唯一正确的。各种策略和途径,表面看不同,其实,最终都需要依赖可靠的汉语知识来驱动计算机正确处理自然语言(汉语)。因此,“无论是比较传统的基于规则的处理策略,还是90年代以来方兴未艾的基于统计的方法,在对语言知识的需求这一点上实际上都是共同的。所不同者,走规则路线的研究者一般求诸专家的理性知识,由人来对语言知识进行抽象(比如以带有合一条件的规则形式给出)。而走统计路线的研究者一般求助于计算机对大规模的语料库的统计分析,由计算机来抽象出语言知识(比如以一定的数据结构记录的统计结果等)。两种路线孰优孰劣,不能笼统判断,只能跟具体的应用目标结合起来,由实践结果来评价。”目前,越来越多的学者提倡把两种方法结合起来使用。因此,相信在不久的将来,我们会攻克难关,实现计算机对自然语言的处理与理解的目标,使中文信息处理技术处于世界领先地位。

参考文献:

2.亢世勇:面向信息处理的现代汉语语法研究[M].上海:上海辞书出版社,2004,177。

3.陆俭明:现代汉语语法研究教程(第三版),[M].北京:北京大学出版社。2005年,51。

4.詹卫东:面向中文信息处理的现代汉语短语结构规则研究[M].北京:清华大学出版社,2000,2。

下载文档

版权声明:此文档由查字典文档网用户提供,如用于商业用途请与作者联系,查字典文档网保持最终解释权!

网友最新关注

观看世界乒乓球锦标赛
小猴到此一游
人蚁大战
帮奶奶穿针引线
过"清明节"
玩水上气球
学跳集体舞
放风筝
玩降落伞
动物表演
快乐的运动会
我的愿望
上口语交际课
第一次洗碗
清明扫墓
医院门诊部2006年工作总结及2007年思路
先进班组汇报材料
规范重大案件审理 促进稽查质量提高
人寿保险公司工作报告
公司2006年工作总结
仁布县受援互动后的巨大变化
秘书局工作总结
卫生局二00五年度工作总结
税务所开展保持共产党员先进性教育活动“回头看”总结
2006年上半年卫生局工作情况及下半年工作安排
社区综治工作总结
卫生局2005年度工作总结和2006年度工作思路
浅谈如何提高税务协查质量
区农业科技服务团驻村科技服务工作总结
卫生局工作总结
剥夺村集体的经济权力
中国农史研究的回顾与展望(3)
如何根治农村的乱收费
21世纪初叶:中国农民负担治理的转型阶段
##市农业产业化经营发展规划
册书与明清以来两湖乡村基层赋税征收
村民自治所面临的挑战
从荷兰看都市农业的发展方向
关于推进农村小康社会建设若干重要问题的意见
乡镇体制改革:官本位体制向民本位体制转变
近代华北农村人口消长及其流动
村籍、地缘与业缘——一个中部中国村庄的社会分层
政府治理是新农村建设的关键
城乡关系视野中的新农村建设
新村治构想:村民自治与合作社改革可以并轨
有关《科利亚的木匣》的战争
《科利亚的木匣》教学实录与评析
会动的帽子
《科利亚的木匣》词语理解
参考资料
《科利亚的木匣》教学实录
《科利亚的木匣》近反义词
《科利亚的木匣》教学反思
贫困
《科利亚的木匣》教学实录与评析
《科利亚的木匣》多音字组词
《科利亚的木匣》同音字组词
盲人问太阳
《科利亚的木匣》形近字组词
中国古代兵器纵谈序言