您好,欢迎来到佳博论文网!

特征结构及其汉语语义资源建设

论文摘要

汉语语义分析,特别是大规模真实文本的语义分析,一直是当前自然语言处理的难点。传统依存分析法等标注方法在处理汉语特殊句型和特殊语言现象如主谓谓语句、连动句等句型时遇到一系列难题。基于语义方法建构的标注语料库,是自然语言处理基础研究和应用技术研究的基础。本文为汉语提出了一个语义分析模型——“特征结构”,并基于特征结构模型,并进一步运用特征结构模型分析了汉语语言学界争议较大的特殊句式(主谓谓语句、连动句等)。研究结果表明,特征结构模型在分析汉语语句时,比传统依存分析法能包含更多的语义关联,并能在语言学理论研究范围内解释汉语特殊句型的范围、类型及其特点等疑难问题。本研究为中文信息处理提供了一种语义分析方法,也提供了一个可以为各大研究机构共享的汉语句子级语义资源;同时也为汉语语言学理论中某些问题的解释提供了一个别样的视角。全文分六章,主要内容及观点如下:第一章:引论。主要包括课题研究背景、国内外研究现状分析、研究对象界定、研究内容等内容。第二章:特征结构模型。主要包括特征结构模型的界定,特征结构的特点:用特征三元组反映概念关联和关联种类,特征三元组允许多重关联和交叉关联,特征三元组允许嵌套和递归。特征结构的形式化表示为特征结构图,是一个可递归的无向图。特征结构的判定方法是基于提问的方法,研究了各种句式中提问的条件、提问针对的成分以及特征词在其中的分布等。在大规模真实语料中,特征结构三元组的类型可以分为六类。第三章:汉语特征结构资源建设。本语料库的语料来源于宾州中文树库的生语料、国内近三年中文新闻语料以及中小学语文课本。标注方式采用人工标注和计算机标注软件相结合的方法。设计并编写了汉语语义资源标注软件“语言标注平台”。研究了特征结构的判定标准。本章重点在于提出了详细地特征结构标注标准。第四章:主谓谓语句的特征结构研究。本章首先回顾了语言学界对主谓谓语句的研究成果和争论内容,根据汉语主谓谓语句的语法特点,分析了面向自然语言处理时的标注难点,然后运用特征结构模型对语言学界讨论过的十三种类型的主谓谓语句进行了细致的语义描述和分析,总结出了六种语义模型。将现有的传统依存分析方法和特征结构分析方法对主谓谓语句的分析结果进行了对比,结果表明,特征结构分析方法包含了更多的语义信息。第五章:连动句的特征结构研究。本章首先回顾了语言学界对连动句的研究成果和争论焦点,总结了汉语连动句的语法特点,然后分析了面向自然语言处理时连动句的标注难点。运用特征结构模型对语言学界讨论较多的16个连动句分别进行了细致地语义描述和分析,总结出了四类语义模型。将现有的传统依存分析方法和特征结构分析方法对连动句的分析结果进行了对比,结果表明,传统依存语法无法表示连动句中主语和除第一个谓语动词之外的其他谓语动词之间的语义关系,无法表示连动句中某个谓语动词的宾语与其他谓语动词之间的语义关系,也无法准确表示两个或多个谓语动词之间的语义关系。与传统依存分析法相比,特征结构模型能够描述更多的语义关系对,因此包含更加丰富的语义信息。另外,特征结构模型能够对传统依存分析法不能解释的语言现象做出解释,比如对连动句句式的判定、对连动句和紧缩复句的区分、对复杂的杂糅句式的语义分析等。特征结构模型在一定程度上推进了语言学理论的深化和发展,也为面向汉语的自然语言处理提供了一种新颖的语义分析方法。第六章:总结。包括评估、研究特色、应用价值、下一步研究计划等内容。本文主要创新点在以下三方面:(一)提出特征结构模型,探讨汉语语句的语义表示机制。(二)基于特征结构模型,对汉语语句进行语义标注,探寻适合汉语独特特点的语义分析方法和标注标准。(三)运用特征结构模型探讨了汉语特殊句型的语义分析方案,并尝试以新的视角来解释语言学理论中的争议问题。