中文网页语义标注：由句子到RDF表示被引量：31

Semantic Annotation of Chinese Web Pages:From Sentences to RDF Representations

下载PDF

导出

摘要语义网远景的实现需要自动化的语义标注方法.提出了一种在领域本体指导下,针对中文网页的语义标注方法.运用统计学方法与自然语言处理技术,以文档中句子为处理对象,采取识别和组合两个阶段来完成句子向RDF表示的映射.它具有以下特点:以统计方法获得领域相关词汇,构造领域词汇标注列表作为外部领域知识,降低对通用语言本体的依赖;显式的属性类型标注方法识别出句子中表达关系的词汇,标注为属性类型,利于后续关系抽取;构造句子的句法依存关系树(森林),按照依存关系对词汇进行组合,形成RDF陈述.实验结果显示此方法较基于主谓宾语法关系的语义标注方法更为有效. The Semantic Web aims to leverage the World Wide Web to a Web of data,where machines are able to process annotations and relations between resources,and where implicit information can be derived from utilizing ontologies and shared vocabularies.To fulfill the vision of the Semantic Web,a method of automatic semantic annotation is needed.Proposed in this paper is a methodology for semantic annotation of Chinese Web pages,which is guided by domain ontology.The statistical method and the natural language processing technology are employed,and the mapping from sentences to RDF representations are realized through the identification phase and the grouping phase.The major technical contributions are：the domain lexicon constructed by the statistical method rather than the linguistic ontology is used as the external domain knowledge;the explicit property type tagging algorithm is used to recognize both instances and properties contained in sentences to facilitate relation extraction;after building dependency trees or dependency forests of sentences,the identified instances and properties can be grouped into RDF statements according to the dependency relationship among Chinese words.The experimental result shows that compared with the semantic annotation method based on the grammatical relationship of subject-verb-object,this method is significantly more effective.

作者荆涛左万利孙吉贵车海燕

机构地区吉林大学计算机科学与技术学院

出处《计算机研究与发展》 EI CSCD 北大核心 2008年第7期1221-1231,共11页 Journal of Computer Research and Development

基金国家自然科学基金重大项目(60496321) 吉林省科技发展计划基金项目(20070533)

关键词自然语言处理依存关系类型标注关系抽取本体 natural language processing dependency relationship type tagging relation extraction ontology

分类号 TP391 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

参考文献22

1Berners-Lee T, Hendler J, Lassila O. The Semantic Web [J]. Scientific American Magazine, 2001, 284(5):28-37
2Ciravegna F, Wilks Y. Designing adaptive information extraction for the Semantic Web in amilcare [G]//Handschuh S, Staab S, eds. Annotation for the Semantic Web, Frontiers in Artificial Intelligence and Applications. Amsterdam: IOS Press, 2003:112-127
3Handschuh S, Staab S, Ciravegna F. S-CREAM: Semiautomatic Creation of metadata [C] //Proc of EKAW 2002. Berlin: Springer, 2002:358-372
4Handschuh S, Staab S, Maedche A. CREAM: Creating relational metadata with a component-based, omology-driven annotation framework [G] //Proc of the 1st Int'l Conf on Knowledge Capture. New York: ACM, 2001:76-83
5Dill S, Tomlin J, et al. SemTag and seeker: Bootstrapping the Semantic Web via automated semantic annotation [C]// Proc of the 12th Int'l Conf on World Wide Web. New York: ACM, 2003: 178-186
6Kiryakov A, Popov B, Terziev I, et al. Semantic annotation, indexing, and retrieval [J]. Journal of Web Semantics, 2004, 2(1) : 49-79
7Alani H, Kim S, Millard D, etal. Automatic ontology-based knowledge extraction from Web documents [J]. Intelligent Systems, 2003, 18(1): 14-21
8Lai Y, Wang R. Towards automatic knowledge acquisition from text based on ontology-centric knowledge representation and acquisition [C]//Proc of the K-CAP 2003 Workshop on Knowledge Markup and Semantic Annotation (Semannot'2003). New York: ACM, 2003
9Schutz A, Buitelaar P. RelExt : A tool for relation extraction from text in ontology extension [C] //Proc of the 4th Int'l Semantic Web Conf (ISWC). Berlin: Springer, 2005: 593- 606
10Miller G, Beckwith R, Fellbaum C, et al. Introduction to WordNet: An on-line lexical database [J]. International Journal of Lexicography, 1990, 3(4) : 235-244

二级参考文献55

1刘群,张华平,俞鸿魁,程学旗.基于层叠隐马模型的汉语词法分析[J].计算机研究与发展,2004,41(8):1421-1429. 被引量：198
2邹纲,刘洋,刘群,孟遥,于浩,西野文人,亢世勇.面向Internet的中文新词语检测[J].中文信息学报,2004,18(6):1-9. 被引量：59
3孙茂松,黄昌宁,高海燕,方捷.中文姓名的自动辨识[J].中文信息学报,1995,9(2):16-27. 被引量：87
4罗智勇,宋柔.现代汉语自动分词中专名的一体化、快速识别方法[C]//Ji Dong-Hong.国际中文电脑学术会议,新加坡,2001:323-328.
5罗智勇宋柔.现代汉语自动分词中专名的一体化、快速识别方法[A]..ICCC,Singapore[C].,2001．11..
6Ji Heng, Luo Zhen-Shen. Inverse name frequency model and rules based on Chinese name identifying. In: Huang ChangNing, Zhang Pu ed.. Natural Language Understanding and Machine Translation. Beijing: Tsinghua University Press,2001, 123 - 128( in Chinese)(季姮,罗振声.基于反比概率模型和规则的中文姓名自动辨识系统.见:黄昌宁,张普编.自然语言理解与机器翻译.北京:清华大学出版社,2001,123-128)
7Zhen Jia-Heng, Liu Kai-Ying. Discussion on strategy of surname and personal name processing in Chinese word segmentation. In: Chen Li-Wei ed.. Research and Application of Computational Linguistics. Beijing: Beijing Institute of Linguistics and Culture Press, 1993(in Chinese)(郑家恒刘开瑛.自动分词系统中姓氏人名的处理策略探讨.见:陈力为编.计算语言研究与应用.北京:北京语言学院出版社,1993)
8Song Rou, Zhu Hong et al.. Approach of personal name recognition based on corpus and rules. In: Chen Li Wei ed.. Research and Application of Computational Linguistics. Beijing:Beijing Institute of Linguistics and Culture Press, 1993(in Chinese)(宋柔,朱宏等.基于语料库和规则库的人名识别法.见:陈力为编.计算语言研究与应用.北京:北京语言学院出版社,1993)
9Wang Sheng, Huang De-Gen, Yang Yuan-Sheng. Chinese person name recognition based on mixture of statistics and rules.In: Huang Chang-Ning, Dong Zhen-Dong ed.. Corpora of Computational Linguistics. Beijing: Tsinghua University Press, 1999 (in Chinese)(王省,黄德根,杨元生.基于统计和规则相结合的中文姓名识别.见:黄昌宁,董振东编.计算语言学文集.北京:清华大学出版社,1999)
10Chen Xiao-He. Automatic Analysis of Modern Chinese. Beijing: Beijing University Linguistics and Culture Press, 2000,104-114(in Chinese)(陈小荷.现代汉语自动分析.北京:北京语言文化大学出版社, 2000, 104-114 )

共引文献394

1彭骁男,周兰江,张建安,周枫.融合多特征的老挝语人名地名命名实体识别[J].中国水运（下半月）,2020,20(3):74-77. 被引量：1
2张博凯,李想.基于知识图谱的Android端农技智能问答系统研究[J].农业机械学报,2021,52(S01):164-171. 被引量：12
3成于思,施云涛.融合词典特征的Bi-LSTM-WCRF中文人名识别[J].中文信息学报,2020(4):69-76. 被引量：7
4宋凯丽,李云岭,姚露露.基于条件随机场的分词标注一体化地址解析方法[J].测绘地理信息,2021,46(S01):185-187. 被引量：4
5钱爱兵,江岚.基于改进TF-IDF的中文网页关键词抽取——以新闻网页为例[J].情报理论与实践,2008,31(6):945-950. 被引量：29
6毛姝洁,张雪虎.基于兴趣点简称的检索方法研究[J].太原理工大学学报,2008,39(S1):52-55. 被引量：1
7张素香,高国洋,戚银城.基于条件随机场的中国人名识别方法[J].郑州大学学报（理学版）,2009,41(2):40-43. 被引量：7
8罗安,王勇,张福浩,刘纪平.基于角色标注的中文POI名称语义分类方法[J].测绘通报,2012(S1):521-524. 被引量：3
9刘群,张华平,俞鸿魁,程学旗.基于层叠隐马模型的汉语词法分析[J].计算机研究与发展,2004,41(8):1421-1429. 被引量：198
10车海燕,孙吉贵,荆涛,白曦.一个基于本体主题的中文知识获取方法[J].计算机科学与探索,2007,1(2):206-215. 被引量：5

同被引文献461

1方卫东,袁华,刘卫红.基于Web挖掘的领域本体自动学习[J].清华大学学报（自然科学版）,2005,45(S1):1729-1733. 被引量：31
2魏勇刚,张国春,常勇,袁方.基于词性分析和领域知识的Deep Web语义标注[J].郑州大学学报（理学版）,2009,41(1):52-55. 被引量：7
3戚涌,徐永红,刘凤玉.基于潜在语义标引的WEB文档自动分类[J].计算机工程与应用,2004,40(22):28-31. 被引量：9
4张琪玉.文献主题的构成因素及层次[J].图书情报知识,1985,2(1):39-41. 被引量：17
5周明建,高济,李飞.基于本体论的Web信息抽取[J].计算机辅助设计与图形学学报,2004,16(4):535-541. 被引量：34
6凌海云,左志宏,陈兰,段恩泽,袁军英.语义标注元数据及其抽取技术[J].计算机应用研究,2004,21(7):147-149. 被引量：9
7陈智,隋光远,皮秀云.论知识点是人的认知单位[J].心理科学,2002,25(3):369-370. 被引量：23
8叶鹰,金更达.基于元数据的信息组织与基于本体论的知识组织[J].大学图书馆学报,2004,22(4):43-47. 被引量：47
9赵心,蔡智,洪流,蔡庆生.一种基于关联规则的中文概念集生成算法[J].计算机科学,2004,31(7):175-177. 被引量：5
10温有奎,徐端颐,潘龙法.基于XML平台的知识元本体推理[J].情报学报,2004,23(6):643-648. 被引量：20

引证文献31

1郭崇慧,许蒙.一种基于众包模式的试题知识点标注方法[J].信息与管理研究,2019,0(6):64-72. 被引量：3
2盛泳潘,付雪峰,吴天星.基于开放域抽取的多文档概念图构建研究[J].计算机应用研究,2020,37(1):19-25. 被引量：2
3张玉峰,蔡皎洁.基于数据挖掘的Web文本语义分析与标注研究[J].情报理论与实践,2010,33(2):85-88. 被引量：7
4常平梅,李冠宇,张俊.基于本体集成的语义标注模型设计[J].计算机工程与设计,2010,31(5):1125-1129. 被引量：6
5金灿.面向不同结构化程度数据源的本体学习方法研究[J].计算机时代,2010(8):10-13. 被引量：1
6刘鹏博,车海燕,陈伟.知识抽取技术综述[J].计算机应用研究,2010,27(9):3222-3226. 被引量：15
7牟冬梅,范轶,王丽伟.数字资源语义互联研究(Ⅲ)——语义标注子系统的设计与实现[J].现代图书情报技术,2010(9):13-17. 被引量：2
8李慧颖,瞿裕忠.基于关键词的语义网数据查询研究综述[J].计算机科学,2011,38(7):18-23. 被引量：7
9施秀丽,江莉莉.非结构化文档的标记方法研究[J].中国管理信息化,2012,15(4):61-61.
10祝锡永,周益辉,李晟.语义Web环境中基于本体推理的协同标注[J].浙江理工大学学报（自然科学版）,2012,29(4):555-559. 被引量：1

二级引证文献213

1陈财森,向阳霞,寇应展,刘会英.面向装备作战数据的知识图谱平台构建[J].装甲兵学报,2022(5):105-110. 被引量：1
2魏伟,郭崇慧,邢小宇.基于语义关联规则的试题知识点标注及试题推荐[J].数据分析与知识发现,2020,4(2):182-191. 被引量：9
3盛泳潘,付雪峰,吴天星.基于开放域抽取的多文档概念图构建研究[J].计算机应用研究,2020,37(1):19-25. 被引量：2
4路威,赵丽君.兵要知识图谱的构建与应用研究[J].测绘地理信息,2022,47(4):119-123. 被引量：3
5周锐,邢琳悦.基于知识图谱的城市公共危机信息资源融合研究[J].国家治理现代化研究,2021(1):108-124. 被引量：1
6胡哲,郑诚.一种改进的基于领域本体的概念语义相似度算法[J].齐齐哈尔大学学报（自然科学版）,2013,29(1):1-6. 被引量：1
7涂鼎,陈岭,陈根才,吴勇,王敬昌.基于多路层次聚类的商品评论数据概念分类构建[J].计算机研究与发展,2013,50(S2):208-215. 被引量：3
8朱红艳,宋艳辉.社会网络分析视角下的我国竞争情报研究进展分析[J].现代情报,2010,30(10):18-22. 被引量：2
9黄金霞,景丽.面向VIVO本体的数据摄取工具[J].现代图书情报技术,2011(2):16-20. 被引量：7
10马骏涛,宋欣,李光伟.基于生物医学领域本体语义Web的构建探讨[J].科技情报开发与经济,2011,21(8):138-140.

1谢方立,周国民,王健.基于节点类型标注的网页主题信息抽取方法[J].计算机科学,2016,43(S2):31-34. 被引量：4
2李枫林,毛展展.应用本体构建方法研究及案例分析[J].图书馆学研究,2014(19):31-41. 被引量：5
3李恪.表达关系传递性的方法[J].计算机工程与应用,1997,33(8):40-43.
4彭程.基于本体论的电子商务自然语言研究[J].微计算机信息,2008,24(18):152-154.
5朱霞.高考英语试题完成句子应答方略[J].中学生英语（中旬刊）,2011(11):32-33.
6赵高长,覃飞.基于主成分分析的高校排课算法研究[J].长春大学学报,2015,25(2):45-51. 被引量：2
7于淼,吕雅娟,苏劲松,李贤华.规则和统计相结合的中文地址翻译方法[J].中文信息学报,2012,26(3):49-53. 被引量：5
8田卫东,黄勇.频繁子树模式在中心词识别中的应用研究[J].微电子学与计算机,2015,32(11):27-32. 被引量：1
9张锦,罗钊.基于VSM主题爬虫爬行策略的研究[J].信息通信,2014,27(2):37-38.
10田卫东,虞勇勇.基于频繁依存子树模式的中心词提取方法研究[J].中文信息学报,2016,30(3):133-142. 被引量：1

计算机研究与发展

2008年第7期

浏览历史

内容加载中请稍等...

中文网页语义标注：由句子到RDF表示被引量：31

参考文献22

二级参考文献55

共引文献394

同被引文献461

引证文献31

二级引证文献213

相关作者

相关机构

相关主题

浏览历史

中文网页语义标注：由句子到RDF表示 被引量：31

参考文献22

二级参考文献55

共引文献394

同被引文献461

引证文献31

二级引证文献213

相关作者

相关机构

相关主题

浏览历史

中文网页语义标注：由句子到RDF表示被引量：31