期刊文献+
共找到44篇文章
< 1 2 3 >
每页显示 20 50 100
Automatic User Goals Identification Based on Anchor Text and Click-Through Data 被引量:5
1
作者 YUAN Xiaojie DOU Zhicheng ZHANG Lu LIU Fang 《Wuhan University Journal of Natural Sciences》 CAS 2008年第4期495-500,共6页
Understanding the underlying goal behind a user's Web query has been proved to be helpful to improve the quality of search. This paper focuses on the problem of automatic identification of query types according to th... Understanding the underlying goal behind a user's Web query has been proved to be helpful to improve the quality of search. This paper focuses on the problem of automatic identification of query types according to the goals. Four novel entropy-based features extracted from anchor data and click-through data are proposed, and a support vector machines (SVM) classifier is used to identify the user's goal based on these features. Experi- mental results show that the proposed entropy-based features are more effective than those reported in previous work. By combin- ing multiple features the goals for more than 97% of the queries studied can be correctly identified. Besides these, this paper reaches the following important conclusions: First, anchor-based features are more effective than click-through-based features; Second, the number of sites is more reliable than the number of links; Third, click-distribution- based features are more effective than session-based ones. 展开更多
关键词 query classification user goals anchor text click-through data information retrieval
下载PDF
挖掘文本框位置特性的anchor-free自然场景文本检测 被引量:2
2
作者 卢利琼 吴东 +1 位作者 吴涛 刘瑶 《计算机应用研究》 CSCD 北大核心 2021年第8期2556-2560,共5页
针对现有优秀的anchor-free文本检测方法只挖掘了文本框几何特性而没有考虑文本框位置特性且缺乏有效的过滤机制,提出了挖掘文本框位置特性的anchor-free自然场景文本检测方法。该方法以ResNet50作为卷积神经网络的主干网络,将多个不同... 针对现有优秀的anchor-free文本检测方法只挖掘了文本框几何特性而没有考虑文本框位置特性且缺乏有效的过滤机制,提出了挖掘文本框位置特性的anchor-free自然场景文本检测方法。该方法以ResNet50作为卷积神经网络的主干网络,将多个不同尺寸的特征层融合后预测文本框的几何特性和位置特性,最后辅之以二层过滤机制得到最终的检测文本框。在公开的数据集ICDAR2013和ICDAR2011上F值分别达到了0.870和0.861,证明了该方法的有效性。 展开更多
关键词 自然场景图像 文本检测 位置特性 anchor-free 卷积神经网络
下载PDF
不完全匹配的语音和文本语句级对齐 被引量:1
3
作者 徐锴 陶冶 李辉 《计算机系统应用》 2023年第4期300-307,共8页
语音文本自动对齐技术广泛应用于语音识别与合成、内容制作等领域,其主要目的是将语音和相应的参考文本在语句、单词、音素等级别的单元进行对齐,并获得语音与参考文本之间的时间对位信息.最新的先进对齐方法大多基于语音识别,一方面,... 语音文本自动对齐技术广泛应用于语音识别与合成、内容制作等领域,其主要目的是将语音和相应的参考文本在语句、单词、音素等级别的单元进行对齐,并获得语音与参考文本之间的时间对位信息.最新的先进对齐方法大多基于语音识别,一方面,准确率受限于语音识别效果,识别字错误率高时文语对齐精度明显下降,识别字错误率对对齐精度影响较大;另一方面,这种对齐方法不能有效处理不完全匹配的长篇幅语音和文本的对齐.该文提出一种基于锚点和韵律信息的文语对齐方法,通过基于边界锚点加权的片段标注将语料划分为对齐段和未对齐段,针对未对齐段使用双门限端点检测方法提取韵律信息,并检测语句边界,降低了基于语音识别的对齐方法对语音识别效果的依赖程度.实验结果表明,与目前先进的基于语音识别的文语对齐方法比较,即使在识别字错误率为0.52时,该文所提方法的对齐准确率仍能提升45%以上;在音频文本不匹配程度为0.5时,该文所提方法能提高3%. 展开更多
关键词 语音文本对齐 韵律信息 锚点 自动语音识别 端点检测
下载PDF
一种基于关系模型的场景文本检测方法
4
作者 陈旸 赵尔敦 吴靖 《计算机与数字工程》 2023年第4期871-876,共6页
基于深度学习的文本检测方法在自然场景文本检测中取得了令人瞩目的成效,但是目前的文本检测模型大多忽略了文本区域之间的关系特征。因此论文在深度学习的基础上,结合注意力机制中的关系模型,提出了一种基于关系模型的自然场景文本检... 基于深度学习的文本检测方法在自然场景文本检测中取得了令人瞩目的成效,但是目前的文本检测模型大多忽略了文本区域之间的关系特征。因此论文在深度学习的基础上,结合注意力机制中的关系模型,提出了一种基于关系模型的自然场景文本检测方法,该方法先利用自动设置锚的卷积神经网络来提取文本候选区域,然后利用关系模型结合候选文字区域之间的关系,从而准确提取文字区域。在ICDAR2013和ICDAR2015数据集上的实验结果表明,与其他算法相比,论文提出的算法能取得更鲁棒的综合性能,在自然场景文本上有较好的应用前景。 展开更多
关键词 深度学习 关系模型 锚自生成网络 场景文本检测
下载PDF
信息锚对消费者网购意愿的影响研究
5
作者 宗毅 田容 《天津商业大学学报》 2023年第1期39-45,共7页
网购情境下,消费者购买意愿更加依赖于对信息的视觉感知。为探究信息对消费者网购意愿的影响,引入精细加工可能性模型(ELM)将产品自身线索划分为文字描述锚与有形展示锚,解释两类信息锚对消费者网购意愿的影响;并考虑性别与产品对信息... 网购情境下,消费者购买意愿更加依赖于对信息的视觉感知。为探究信息对消费者网购意愿的影响,引入精细加工可能性模型(ELM)将产品自身线索划分为文字描述锚与有形展示锚,解释两类信息锚对消费者网购意愿的影响;并考虑性别与产品对信息锚对消费者网购意愿关系的影响。通过情景模拟实验法与问卷调查开展研究并收集实验数据,应用SPSS软件对实验数据进行预处理与方差分析,以检验信息锚对消费者网购意愿的影响。研究结果表明:信息锚显著地影响消费者网购意愿;相对于男性而言,女性更容易受到信息锚的影响;相对于便利品而言,信息锚影响下消费者对选购品的网购意愿差异更大。在此基础之上,提出具有针对性的营销策略:根据消费者性别特征与产品属性,设计有效的信息锚,提高消费者感知信息锚说服力,能够促进消费者购买的发生。 展开更多
关键词 信息锚 文字描述锚 有形展示锚 消费者网购意愿 ELM模型
下载PDF
基于链接描述文本及其上下文的Web信息检索 被引量:22
6
作者 张敏 高剑峰 马少平 《计算机研究与发展》 EI CSCD 北大核心 2004年第1期221-226,共6页
文档之间的超链接结构是Web信息检索和传统信息检索的最大区别之一 ,由此产生了基于超链接结构的检索技术 描述了链接描述文档的概念 ,并在此基础上研究链接文本 (anchortext)及其上下文信息在检索中的作用 通过使用超过 16 9万篇网页... 文档之间的超链接结构是Web信息检索和传统信息检索的最大区别之一 ,由此产生了基于超链接结构的检索技术 描述了链接描述文档的概念 ,并在此基础上研究链接文本 (anchortext)及其上下文信息在检索中的作用 通过使用超过 16 9万篇网页的大规模真实数据集以及TREC2 0 0 1提供的相关文档及评价方法进行测试 ,得到如下结论 :首先 ,链接描述文档对网页主题的概括有高度的精确性 ,但是对网页内容的描述有极大的不完全性 ;其次 ,与传统检索方法相比 ,使用链接文本在已知网页定位的任务上能够使系统性能提高 96 % ,但是链接文本及其上下文信息无法在未知信息查询任务上改善检索性能 ;最后 ,把基于链接描述文本的方法与传统方法相结合 ,能够在检索性能上提高近 16 % 展开更多
关键词 链接文本 链接描述文档 WEB信息检索
下载PDF
基于锚文本相似度的PageRank改进算法 被引量:14
7
作者 王钟斐 王彪 《计算机工程》 CAS CSCD 北大核心 2010年第24期258-260,共3页
分析搜索引擎Google的PageRank算法,给出其存在的3个问题及针对这3个问题提出的改进。结合锚文本相似度提出一种改进的PageRank算法,利用Nutch对传统PageRank算法和改进后的PageRank算法进行实验分析与比较。实验结果表明,改进的PageRan... 分析搜索引擎Google的PageRank算法,给出其存在的3个问题及针对这3个问题提出的改进。结合锚文本相似度提出一种改进的PageRank算法,利用Nutch对传统PageRank算法和改进后的PageRank算法进行实验分析与比较。实验结果表明,改进的PageRank算法提高了搜索结果的查准率,有利于减少主题漂移现象。 展开更多
关键词 PAGERANK算法 锚文本 相似度 主题漂移
下载PDF
基于质心向量的增量式主题爬行 被引量:4
8
作者 王辉 左万利 +3 位作者 王晖昱 宁爱军 孙志伟 满春雷 《计算机研究与发展》 EI CSCD 北大核心 2009年第2期217-224,共8页
研究如何在一个网页内部进行有选择的爬行.使用TFIDF-2模型以及Max,Ave,Sum三个启发式规则分别计算文档特征权重和质心特征权重,在此基础上构建与根集文档相对应的质心向量,利用它作为前端分类器指导主题爬行.使用前后端分类器分别给Fro... 研究如何在一个网页内部进行有选择的爬行.使用TFIDF-2模型以及Max,Ave,Sum三个启发式规则分别计算文档特征权重和质心特征权重,在此基础上构建与根集文档相对应的质心向量,利用它作为前端分类器指导主题爬行.使用前后端分类器分别给Frontier中的各个锚文本打分,将它们的打分求和,从中选择打分最高的链接,下载其对应的网页.实验结果表明,在质心向量的指导下,爬行程序借助于锚文本便可以准确地预测链接所指向网页的相关性;另外,双分类器框架还使得爬行策略具有增量爬行的能力. 展开更多
关键词 文档特征权重 质心特征权重 主题爬行 锚文本 质心向量
下载PDF
基于PageRank和锚文本的网页排序研究 被引量:6
9
作者 刘菁菁 林鸿飞 赵晶 《计算机工程与应用》 CSCD 北大核心 2007年第10期170-173,共4页
网页和纯文本结构差异性决定了传统的IR排序技术不能适应网络发展。为合理排序检索结果,引入了基于文献引文分析法原理的链接分析方法。该方法对被多个网页链接的网页赋予较高评价,同时考虑锚文本与查询词的相似度。源网页质量参差不齐... 网页和纯文本结构差异性决定了传统的IR排序技术不能适应网络发展。为合理排序检索结果,引入了基于文献引文分析法原理的链接分析方法。该方法对被多个网页链接的网页赋予较高评价,同时考虑锚文本与查询词的相似度。源网页质量参差不齐,链向相同网页的锚文本质量也有优劣之分,但高质量源网页的锚文本不一定比质量低源网页的准确。对相似度高的锚文本加以修正,即通过计算查询词和锚文本相似度,对于相似度较高但源于PageRank值低的源网页的锚文本加以补偿,并重新排序查询结果。 展开更多
关键词 链接分析 锚文本 PAGERANK 网页排序
下载PDF
基于HTML文档结构的向量空间模型的改进 被引量:10
10
作者 胡健 陆一鸣 马范援 《情报学报》 CSSCI 北大核心 2005年第4期433-437,共5页
根据HTML文档不同标签域的分布特征和对文档内容的代表能力不同,我们提出了一种改进的向量模型(PFTF),并通过trec12的查询实验,比较了传统向量模型与PFTF模型对单个标签域以及多个文档表示结果的结合的检索性能.实验结果表明,PFTF模型... 根据HTML文档不同标签域的分布特征和对文档内容的代表能力不同,我们提出了一种改进的向量模型(PFTF),并通过trec12的查询实验,比较了传统向量模型与PFTF模型对单个标签域以及多个文档表示结果的结合的检索性能.实验结果表明,PFTF模型对于这两个方面都有提高. 展开更多
关键词 HTML文档结构 信息检索 向量空间模型链接文本TREC 向量空间模型 HTML文档 文档结构 向量模型 分布特征 检索性能 标签
下载PDF
一种有效的专题信息集中和检索策略 被引量:4
11
作者 王宇新 刘海峰 +1 位作者 郭禾 陈鑫 《计算机应用研究》 CSCD 北大核心 2010年第6期2106-2108,共3页
Internet上专题资源网页汇聚和检索是垂直搜索引擎中的核心问题,HITS算法是早期解决这个问题的经典算法,很多文献对它进行了改进,但无论索引的主题相关率还是引擎的查准率都有提高的余地。提出一种基于锚文本和标题信息过滤并结合网页... Internet上专题资源网页汇聚和检索是垂直搜索引擎中的核心问题,HITS算法是早期解决这个问题的经典算法,很多文献对它进行了改进,但无论索引的主题相关率还是引擎的查准率都有提高的余地。提出一种基于锚文本和标题信息过滤并结合网页内容相关度判断的HITS专题检索策略,利用专题训练集判断主题相关度,很好地解决了只依靠查询字符串判断的弊端。实验表明,此策略能很好地提高专题信息汇聚精确度和检索的准确率,并且减少了非相关URL的下载量。 展开更多
关键词 HITS算法 锚文本 网页标题 专题相关度 向量模型 专题训练集
下载PDF
锚文本检索有效性分析 被引量:3
12
作者 周博 刘奕群 +2 位作者 张敏 金奕江 马少平 《软件学报》 EI CSCD 北大核心 2011年第8期1714-1724,共11页
锚文本对网络信息检索性能的提升作用已经得到验证,并被广泛地应用于商用网络搜索引擎.然而,锚文本制作的不可控性导致其中蕴含大量与目标网页不相关或具有作弊倾向的无用信息.另外,对于需要衡量检索结果服务质量的事务类查询,原始锚文... 锚文本对网络信息检索性能的提升作用已经得到验证,并被广泛地应用于商用网络搜索引擎.然而,锚文本制作的不可控性导致其中蕴含大量与目标网页不相关或具有作弊倾向的无用信息.另外,对于需要衡量检索结果服务质量的事务类查询,原始锚文本推荐的目标网页也往往与真实的用户体验不一致.为了解决上述问题,基于大规模真实用户的互联网浏览行为日志展开研究.首先提出了锚文本检索有效性的评估框架,然后分析了用户网络浏览点击行为与锚文本检索有效性之间的联系,挖掘了用户网络浏览点击行为中有助于筛选高质量锚文本的特征.基于这些特征,提出了两种超链接文档生成方法.实验结果表明,基于用户网络浏览点击行为特征筛选出的锚文本,与原始锚文本相比,能够明显地提升网络检索的性能. 展开更多
关键词 用户网络浏览行为 锚文本 网络信息检索
下载PDF
搜索引擎PageRank算法的改进 被引量:9
13
作者 杨劲松 凌培亮 《计算机工程》 CAS CSCD 北大核心 2009年第22期35-37,共3页
为了解决企业快速决策时信息检索的问题,提出一种改进的PageRank算法。在考虑网页产生时间因素的同时,通过锚文本与网页主题的相似度分析按权重分配网页各正向链接PageRank值,产生的PageRank值更贴合主题搜索引擎的要求,并保持算法的简... 为了解决企业快速决策时信息检索的问题,提出一种改进的PageRank算法。在考虑网页产生时间因素的同时,通过锚文本与网页主题的相似度分析按权重分配网页各正向链接PageRank值,产生的PageRank值更贴合主题搜索引擎的要求,并保持算法的简洁性。实验结果证明该改进算法能有效减少主题漂移现象,恰当提升新网页PageRank值。 展开更多
关键词 搜索引擎 锚文本 向量空间模型
下载PDF
搜索引擎的相关排序算法分析与优化 被引量:4
14
作者 蔡国民 王雅琳 《吉首大学学报(自然科学版)》 CAS 2006年第5期17-19,共3页
相关排序技术是搜索引擎结果处理的一个核心技术,其排序算法的优劣直接影响查准率.笔者阐述了现有排序算法的优缺点,分析了不同排序算法对查准率的影响,从根集的质量、噪音链接、查询分类几方面进行了优化并考虑了综合因素,提出了一种... 相关排序技术是搜索引擎结果处理的一个核心技术,其排序算法的优劣直接影响查准率.笔者阐述了现有排序算法的优缺点,分析了不同排序算法对查准率的影响,从根集的质量、噪音链接、查询分类几方面进行了优化并考虑了综合因素,提出了一种切实可行的相关排序实现方案. 展开更多
关键词 相关排序 查准率 PAGERANK 锚文本
下载PDF
知识、语言、语境和锚文本——知识检索系统界面的语用设计 被引量:3
15
作者 卢婷 朱震远 《情报理论与实践》 CSSCI 北大核心 2012年第6期114-119,共6页
知识检索过程必须借助于语言工具来实现,这一过程在用户同系统知识库的交互中,表现为知识→语言→知识→……的互相转换过程。在知识检索中普遍存在语境支持等语用现象,这些现象尤其集中存在于人机交互的检索界面,而其中的锚文本等及其... 知识检索过程必须借助于语言工具来实现,这一过程在用户同系统知识库的交互中,表现为知识→语言→知识→……的互相转换过程。在知识检索中普遍存在语境支持等语用现象,这些现象尤其集中存在于人机交互的检索界面,而其中的锚文本等及其分布构成了检索交流中重要的语境支持信息。知识检索系统界面的语用设计直接决定了系统检索的成效。系统界面及锚文本的语用设计的基本要求包括语境充分和整体优化等。 展开更多
关键词 知识检索 语用现象 语境 检索系统 锚文本
原文传递
基于锚文本相似度的链接算法 被引量:1
16
作者 刘菁菁 董静 +1 位作者 林鸿飞 叶正 《郑州大学学报(理学版)》 CAS 2007年第2期96-99,共4页
对链接算法在搜索引擎检索结果排序中的应用进行研究,提出基于Page Rank和锚文本对检索结果进行二次排序,合理评价网页重要程度.实验结果表明,该方法在一定程度上能提高检索效果.
关键词 链接分析 PAGERANK 锚文本 相似度
下载PDF
锚定叙事与群文阅读:内在的共通与理解的深入 被引量:5
17
作者 于泽元 边伟 王雁玲 《课程.教材.教法》 CSSCI 北大核心 2020年第7期63-71,共9页
群文阅读在实施过程中面临方法论缺失的困境。锚定叙事理论与群文阅读过程在逻辑与思维上存在高度共通性:在阅读形式层面,两者均为多文本整体性阅读;在阅读目的层面,两者均需达成意义融贯;在阅读本质层面,两者均需形成结构化理解;在阅... 群文阅读在实施过程中面临方法论缺失的困境。锚定叙事理论与群文阅读过程在逻辑与思维上存在高度共通性:在阅读形式层面,两者均为多文本整体性阅读;在阅读目的层面,两者均需达成意义融贯;在阅读本质层面,两者均需形成结构化理解;在阅读思维层面,两者均涉及比较与整合。锚定叙事理论可为群文阅读的展开过程提供方法论视野:一是内在锚定,即从群文中寻找一些关键的认知质点,而后将这些质点汇聚起来,通过比较与整合最终形成对文本的结构化理解;二是外在锚定,即对群文的深度理解应被锚定在当下最基本的文化规则或言语规范的基础之上。 展开更多
关键词 锚定叙事 群文阅读 共通性
下载PDF
一种图像主题网络爬虫的实现方法研究 被引量:2
18
作者 朱学芳 韩占校 《南京师范大学学报(工程技术版)》 CAS 2008年第4期115-117,166,共4页
针对一种图像主题爬虫进行了设计研究,采用了基于文字内容的启发式方法,实现了借助图像文件的锚文本及其上下文进行主题相关性判定,能更准确的抓取相关图像资源.还对网页实现了主题相关性判定,以便更有效地引导爬虫的爬行路经.经实验证... 针对一种图像主题爬虫进行了设计研究,采用了基于文字内容的启发式方法,实现了借助图像文件的锚文本及其上下文进行主题相关性判定,能更准确的抓取相关图像资源.还对网页实现了主题相关性判定,以便更有效地引导爬虫的爬行路经.经实验证明,本系统可起到一定的优化效果,为实现定向主题的图像信息采集奠定了良好的基础. 展开更多
关键词 链接锚文本链接上下文 网络爬虫 JXTA 主题爬虫
下载PDF
一种基于锚文本和改进C4.5决策树算法的主题爬行方法 被引量:1
19
作者 刘金红 陆余良 《计算机应用》 CSCD 北大核心 2006年第12期3012-3014,共3页
提出了一种基于锚文本和改进C4.5决策树算法的主题爬行方法:基于锚文本词项集训练决策树,然后基于决策树模型来计算网页的主题相关性和待爬行URL的优先级顺序。最后,应用该方法在四所大学网站网页数据集上针对“学术报告”主题进行了主... 提出了一种基于锚文本和改进C4.5决策树算法的主题爬行方法:基于锚文本词项集训练决策树,然后基于决策树模型来计算网页的主题相关性和待爬行URL的优先级顺序。最后,应用该方法在四所大学网站网页数据集上针对“学术报告”主题进行了主题爬行实验,并与两种标准的网络爬虫进行了性能对比,实验结果验证了该方法的有效性。 展开更多
关键词 主题网络爬虫 锚文本 决策树
下载PDF
基于Web超链接结构信息的网页分类技术研究 被引量:4
20
作者 郭淼霞 吴扬扬 《泉州师范学院学报》 2008年第4期25-29,47,共6页
充分利用相邻网页(包括链入和链出)的相关信息,提出一种基于Web超链接结构信息的网页分类改进方法.其方法分为5步:(1)预处理训练集,提取文本信息和超链接结构信息;(2)抽取特征向量和训练一个Web页面的全文本分类器;(3)根据网页的各个入... 充分利用相邻网页(包括链入和链出)的相关信息,提出一种基于Web超链接结构信息的网页分类改进方法.其方法分为5步:(1)预处理训练集,提取文本信息和超链接结构信息;(2)抽取特征向量和训练一个Web页面的全文本分类器;(3)根据网页的各个入口的锚点文本和扩展锚点文本创建虚文档,用虚文档代替Web页面全文本训练一个虚文档分类器;(4)利用Naive Bayes方法协调两个分类器得到初步分类结果;(5)利用链出网页对初步分类结果进行修正,得到最终分类结果.根据改进方法实现了网页自动分类原型系统,并进行分类实验,实验表明该方法有效提高了分类性能. 展开更多
关键词 网页分类 锚文本 链接 NAIVE BAYES
下载PDF
上一页 1 2 3 下一页 到第
使用帮助 返回顶部