基于文本密度的藏文网页正文提取方法被引量：3

A content extraction method of Tibetan Web based on text density

下载PDF

导出

摘要互联网的发展带动了另一种形式的信息传播,人们越来越多地依赖于电子产品,Web网页也随之变为了最大的信息源,利用好这些资源便涉及信息提取。为了从Web网页中获取关键藏文信息,文章提出了基于文本密度的藏文网页正文提取方法,利用半结构化的HTML网页中正文内容的连续性特点,结合正则表达式过滤HTML标签。此方法针对主题型网页,类似新闻类网页中的正文提取具有较高的准确率。 The development of the Internet has led to another form of information dissemination, people are increasingly relying on electronic products, Web also become the largest source of information, and the use of these resources will involve the extraction of information. In order to obtain the key Tibetan information from the Web, this paper proposes a method to extract the Web text based on text density, which uses the continuity characteristics of semi-structured text content in HTML pages and the regular expression. This method has higher accuracy for text extraction in theme pages and similar news pages.

作者洛松求培安见才让 Luosong Qiupei Anjian Cairang(Computer Science Qinghai University for Nationalities, Xining, Qinghai 810007, China)

机构地区青海民族大学计算机学院

出处《计算机时代》 2017年第8期46-47,51,共3页 Computer Era

基金青海省科技厅项目资助(2016-ZJ-Y04)

关键词藏文信息藏文网页正文提取 HTML WEB网页 Tibetan information Tibetan Web content extraction HTML Web

分类号 TP391 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

参考文献4

1才让叁智,赵栋材.基于DIV标签分段的藏文网页正文提取研究[J].西藏大学学报（社会科学版）,2016,31(2):70-77. 被引量：4
2刘汇丹,诺明花,马龙龙,吴健,贺也平.Web藏文文本资源挖掘与利用研究[J].中文信息学报,2015,29(1):170-177. 被引量：6
3张云洋,刘芳.基于Unicode的藏文网页搜索探讨[J].科技情报开发与经济,2014,24(11):143-144. 被引量：3
4安见才让.藏语句子相似度算法的研究[J].中文信息学报,2011,25(4):110-114. 被引量：14

二级参考文献34

1黄玲,陈龙.基于网页分块的正文信息提取方法[J].计算机应用,2008,28(S2):326-328. 被引量：13
2王荣波,池哲儒.基于词类串的汉语句子结构相似度计算方法[J].中文信息学报,2005,19(1):21-29. 被引量：28
3张奇,黄萱菁,吴立德.一种新的句子相似度度量及其在文本自动摘要中的应用[J].中文信息学报,2005,19(2):93-99. 被引量：34
4张亮,冯冲,陈肇雄,黄河燕.基于语句相似度计算的FAQ自动回复系统设计与实现[J].小型微型计算机系统,2006,27(4):720-723. 被引量：19
5侯宏旭,刘群,那顺乌日图.基于实例的汉蒙机器翻译[J].中文信息学报,2007,21(4):65-72. 被引量：16
6Federica Mandreoli, Riccardo Martoglia, and Paolo Tiberio. Searching Similar(Sub) Sentences for Exampie-Based Machine Translation [C]//Atti del Decimo ConvegnoNazionale su Sistemi Evoluti per Basi di Dati (SEBD 2002),Isolad Elba,Italy,2002.
7刘汇丹,芮建武,吴健.藏文网页的编码识别与转换[G]//中文信息处理前沿进展:中国中文信息学会二十五周年学术会议论文集.北京:中国中文信息学会,2006.
8孙媛,罗桑强巴,杨锐,等.藏语自动分词方案的设计[c]//第十二届中国少数民族语言文字信息处理学术研讨会论文集,2009.
9Huidan Liu, Minghua Nuo, Longlong Ma, et al. Ti- betan Word Segmentation as Syllable Tagging Using Conditional Random Fields [C]//Proceedings of the 25th Pacific Asia Conference on Language, Informa- tion and Computation. 2011:168-177.
10孙萌,才智杰,姜文斌,等.基于判别式分类和重排序技术的藏文分词[c]//第十三届中国少数民族语言文字信息处理学术研讨会论文集,2011.

共引文献23

1才藏太,赵海兴,才让加.汉藏句子自动对齐技术研究[J].青海师范大学学报（自然科学版）,2022,38(1):1-3.
2于洪志,夏建华,万福成,陈新一.基于藏语句多特征融合的主观题自动评分算法[J].计算机工程与应用,2014,50(5):216-220. 被引量：1
3群毛措,安见才让.藏文问答系统中答案抽取方法的研究[J].中国科技博览,2016,0(3):249-249.
4任恺.计算机辅助少数民族语言文字学习[J].文教资料,2015(31):9-10.
5群毛措,安见才让.藏文问答系统中答案抽取算法的研究[J].电子技术与软件工程,2016(4):158-158. 被引量：1
6李成龙,多拉.藏语单句相似度计算模型研究[J].中国科技纵横,2016,0(6):220-221. 被引量：1
7群毛措,安见才让.中小学藏语文问答系统中答案抽取算法的研究[J].电脑知识与技术,2016,0(2):101-101.
8才让叁智,赵栋材.基于DIV标签分段的藏文网页正文提取研究[J].西藏大学学报（社会科学版）,2016,31(2):70-77. 被引量：4
9马宁,万福成.藏文客户关系管理系统的设计与实现[J].西北民族大学学报（自然科学版）,2016,37(3):20-23.
10艾金勇.融合语义知识的藏文网页关键词提取方法研究[J].图书馆学研究,2017(3):59-64. 被引量：4

同被引文献72

1李永宏,孔江平,于洪志.藏语文-音自动规则转换及其实现[J].清华大学学报（自然科学版）,2008,48(S1):621-626. 被引量：20
2尼玛扎西,李志蜀,群诺,普顿,拥措,陈安龙.一种在移动电话上实现藏文处理的方法[J].四川大学学报（工程科学版）,2009,41(1):162-167. 被引量：9
3索南尖措.藏语动词的黏着性及屈折性变化研究[J].西藏大学学报（社会科学版）,2013,28(4):70-75. 被引量：2
4德吉梅朵.面向藏语语料库建设的数量词的分类研究[J].剑南文学（经典教苑）（下）,2013(1):228-229. 被引量：1
5王维兰,陈万军.藏文字丁、音节频度及其信息熵[J].术语标准化与信息技术,2004(2):27-31. 被引量：17
6罗圣仪,江虹.藏文轻印刷系统[J].计算机世界月刊,1993(7):73-73. 被引量：2
7高定国,龚育昌.现代藏字全集的属性统计研究[J].中文信息学报,2005,19(1):71-75. 被引量：32
8扎西次仁.藏文的排序规则及其计算机自动排序的实现[J].中国藏学,1999(4):128-135. 被引量：16
9江荻,董颖红.藏字叠加结构线性处理统计分析[J].中文信息,1994,11(4):44-46. 被引量：11
10彭寿全,黄可,万国根,袁文君.外挂式藏汉英混合处理系统[J].中文信息学报,1994,8(2):47-53. 被引量：3

引证文献3

1高定国.藏文信息处理研究进展[J].广西科学院学报,2018,34(1):1-11. 被引量：7
2凌霞.存储高可用性的技术标准与实现方法[J].电子技术与软件工程,2018(10):163-165.
3平措.基于Web环境下藏文信息的处理技术[J].神州,2017,0(33):210-210.

二级引证文献7

1张瑞.藏文在线评论情感分析研究综述[J].智库时代,2018(35):206-208. 被引量：2
2头旦才让,尼玛扎西.改革开放以来西藏藏文信息化发展综述[J].西藏研究,2018(5):182-187. 被引量：5
3严李强,周建朋,冯郅皓.藏文词库自扩充学习算法的设计与实现[J].高原科学研究,2019,3(3):106-112. 被引量：1
4苗晗,车文刚,朱倩倩.一种藏文雕刻字体多样性表达方法[J].信息技术,2020,44(9):129-132.
5马爽.中国少数民族文字网络搜索引擎关键技术研究[J].无线互联科技,2020,17(13):84-86. 被引量：1
6尕藏才让.不同自然语言的信息处理方法差异概述--以藏汉文本检查技术为例[J].计算机应用文摘,2022,38(3):97-100.
7群诺,格勒尼玛,曹玺,达瓦追玛,洛桑嘎登.《自然语言处理》课程教学模式改革与探索——以西藏大学为例[J].高原科学研究,2024,8(3):125-132.

1范媚琳,司明皎,孟媛.论坛正文内容提取通用方法的研究[J].科技风,2017(14):81-81.
2扎西拉旦,安见才让.基于XML文档的藏文网页倒排索引的研究与实现[J].软件工程,2017,20(6):12-14. 被引量：2

计算机时代

2017年第8期

浏览历史

内容加载中请稍等...

基于文本密度的藏文网页正文提取方法被引量：3

参考文献4

二级参考文献34

共引文献23

同被引文献72

引证文献3

二级引证文献7

相关作者

相关机构

相关主题

浏览历史

基于文本密度的藏文网页正文提取方法 被引量：3

参考文献4

二级参考文献34

共引文献23

同被引文献72

引证文献3

二级引证文献7

相关作者

相关机构

相关主题

浏览历史

基于文本密度的藏文网页正文提取方法被引量：3