摘要
基于隐主题马尔科夫模型,消除LDA主题模型的主题独立假设,使得文摘生成过程中充分利用文章的结构信息,并结合基于内容的多特征方法提高文摘质量。提出在不破坏文章结构的前提下,从单文档扩展到多文档的自动文摘策略,最终搭建完善的自动文摘系统。在DUC2007标准数据集上的实验证明了隐主题马尔科夫模型和文档特征的优越性,所实现的自动文摘系统ROUGE值有明显提高。
Based on hidden topic Markov model (HTMM), the authors eliminate assumption limitation in LDA (latent dirichlet allocation) to exploit the structure information during generating summary, and use multi-features based on document content to improve the summary quality. Furthermore, a method for developing single-document summarization to multi-document summarization without breaking document structure is proposed, to achieve the perfect automatic summarization system. Meanwhile, experiment results on the standard dataset DUC2007 show the advantage of HTMM and multi-feature. Compared with the performace of LDA, ROUGE values are improved based on HTMM with multi-features.
出处
《北京大学学报(自然科学版)》
EI
CAS
CSCD
北大核心
2014年第1期187-193,共7页
Acta Scientiarum Naturalium Universitatis Pekinensis
基金
国家自然科学基金(61370130)
科技部国际科技合作计划(K11F100010)
中央高校基本科研业务费专项资金(2010JBZ2007)
中国科学院计算技术研究所智能信息处理重点实验室开放课题(IIP2010-4)
北京交通大学人才基金(2011RC034)资助
关键词
隐主题马尔科夫模型
多特征
多文档自动文摘
hidden topic Markov model
multi-features
multi-document summarization