摘要
文章提出了一种在真实文本中抽取中文信息结构的方法—利用大规模基于语义依存关系的语料库对《知网》的中文信息结构模式进行训练,用这些带概率的模式作为规则建立部分依存分析器,从而从真实文本中最大限度地抽取符合知网中文信息结构定义的短语。该研究除了对将要建立的基于语义依存关系的语言模型是个有益的补充外,对于文本理解、对话系统甚至语音合成中的重音预测、韵律建模等等方面都有十分广阔的应用前景。
An approach of extracting Chinese Message Structure from real texts is presented in this paper.The authors used the annotated corpus based on semantic dependent relations for Chinese Message Structure patterns' training.With those patterns as rules,they built a partial dependency parser,so as to extract CMS from real texts as most as possible.The description of the training algorithm,experimental results and some conclusion are given.
出处
《计算机工程与应用》
CSCD
北大核心
2002年第18期56-58,共3页
Computer Engineering and Applications
基金
国家863高技术研究发展计划项目(编号:863-306-ZD03-02-1)
985重大项目"人机自然语言交互技术"(编号:985校-22-攻关-06)资助