浅探河北省主要旅游景点旅游文本语料库建设中 的人名标注问题
2016-04-08 点击:498 次
作者: |
杨婷婷 李洁 |
作者单位: |
张家口市第五中学(北校区);河北大学外国语学院 |
摘要: |
本文以河北省主要旅游景点的旅游文本为主、初步
建立起一个小型封闭的语料库,并针对该语料库自动分词
过程中人名的识别与切分出现的问题进行分析探讨。所收
集语料来源于河北省主要旅游景点旅游文本,共计73471
字,通过对语料的分词处理发现人名标注出现问题的频率
较高。笔者将人名在语料自动切分中出现的问题归为三类,
分别探讨问题出现的原因,并根据现有研究成果和旅游文
本语料的特点为解决此问题做出简单设想,分析想法的可
行性。 |
关键词: |
旅游文本;语料库;人名 |
中图分类号: |
H030 |
基金项目: |
本文系2014 年度河北省社会科学基金青年项目“河北省主要旅游目的地公示语多语对照语料库建设研究”(项目编号: HB14YY038)的阶段性研究成果。 |