您好,欢迎来到佳博论文网!

机器翻译系统中英语从句的识别研究

论文摘要

在英汉机器翻译系统中为了实现对各种复杂语句的正确分析,必须首先完成从句识别的任务。从句是一个至少包含一个主语和谓语并且表达一个观点的语法单元。而从句识别是指将句子按照其语法结构标注出从句层次的过程,它隶属于浅层句法分析的范畴。浅层句法分析的主要任务是语块的识别和分析,它使句法分析的任务在某种程度上得到简化,也是对句子进一步分析的基础。 在自然语言处理中,特征模板选择的是否合适、特征表示的是否恰当都会给标注带来很大的影响,所以本文通过学习优秀模型的特征模板,结合本文模型的特点,提出了用词汇特征、句子特征描述语法规则的方法。实验证明,这种特征描述方式是十分有效的,尤其是在从句句尾识别中作用更加明显。 本文采用基于最大熵原理和基于Bagging算法的两种方法来完成从句识别。首先,在基于最大熵原理的方法中,将整个从句识别任务分为:从句句首识别、从句句尾识别和完整从句识别三部分。其中第三部分比较复杂,因此又分成:多重判别、生成从句候选集和从句标注三个模块。对于前两部分和第三部分中的多重判别模块、生成从句候选集模块都可以看作是普通的分类问题,均需要经过选择特征模板、训练模型、测试三个阶段。另外,通过分析句子规律以及人分析从句的思维过程,本文提出了通过距离矩阵等获取从句矩阵的从句候选对象提取算法。其次,在最大熵模型的基础之上,本文又提出了基于Bagging算法的从句识别方法。它利用Bootstrap思想获得多个不同的训练集,然后分别训练出识别模型并测试,最后用改进的加权求和法集成各分类器的结果得到最终标注结果。实验结果表明:在本文提出的特征前提下,文中的两种方法与HMM、Memory-Based等方法相比具有更高的识别率;并且基于Bagging算法的从句识别方法较基于最大熵原理的方法相比,识别率有一定提高。 另外,本文还针对样本选择、最大熵的平滑问题和Bagging算法中的一些具体参数进行了实验,并且根据实验结果确定了模型取最佳结果时的一系列参数。