期刊文献+
共找到838篇文章
< 1 2 42 >
每页显示 20 50 100
基于混合嵌入和胶囊网络的恶意URL分类模型
1
作者 于晓琪 金彦亮 《工业控制计算机》 2024年第2期114-116,共3页
作为最常见的网络安全威胁之一,恶意URL攻击每年都会造成巨大的经济损失,尽管研究人员已经提出了许多方法来检测恶意URL,但现有方法存在不能充分利用URL提供的有用信息和对URL中的区分性特征提取不充分的问题,导致分类性能不佳。提出了... 作为最常见的网络安全威胁之一,恶意URL攻击每年都会造成巨大的经济损失,尽管研究人员已经提出了许多方法来检测恶意URL,但现有方法存在不能充分利用URL提供的有用信息和对URL中的区分性特征提取不充分的问题,导致分类性能不佳。提出了一种基于混合嵌入和胶囊网络的恶意URL分类模型,引入高速网络和胶囊网络从URL的混合嵌入表示中提取区分性特征,提高了模型的分类性能。在公开数据集ISCX-URL2016上的实验结果表明,该文模型与其他基线方法相比,实现了更好的分类性能,能够有效应对混淆技术的多样性。 展开更多
关键词 恶意url分类 胶囊网络 高速网络 深度学习
下载PDF
数字馆藏URL管理的有关问题
2
作者 杜奕才 《现代情报》 北大核心 2005年第9期95-97,共3页
本文介绍国外图书馆在管理指向数字化馆藏URL方面的经验,主要列举了管理中的一些问题,集中于由馆员生成和维护的URL。
关键词 url管理 url类型 始点url 格式url
下载PDF
基于代价敏感学习的恶意URL检测研究
3
作者 蔡勍萌 王健 李鹏博 《信息安全学报》 CSCD 2023年第2期54-65,共12页
随着大数据时代的到来,恶意URL作为Web攻击的媒介渐渐威胁着用户的信息安全。传统的恶意URL检测手段如黑名单检测、签名匹配方法正逐步暴露缺陷,为此本文提出一种基于代价敏感学习策略的恶意URL检测模型。为提高卷积神经网络在恶意网页... 随着大数据时代的到来,恶意URL作为Web攻击的媒介渐渐威胁着用户的信息安全。传统的恶意URL检测手段如黑名单检测、签名匹配方法正逐步暴露缺陷,为此本文提出一种基于代价敏感学习策略的恶意URL检测模型。为提高卷积神经网络在恶意网页检测领域的性能,本文提出将URL数据结合HTTP请求信息作为原始数据样本进行特征提取,解决了单纯URL数据过于简单而造成特征提取困难的问题,通过实验对比了三种编码处理方式,根据实验结果选取了最佳字符编码的处理方式,保证了后续检测模型的效果。同时本文针对URL字符输入的特点,设计了适合URL检测的卷积神经网络模型,为了提取数据深层特征,使用了两层卷积层进行特征提取,其次本文在池化层选择使用BiLSTM算法提取数据的时序特征,同时将该网络的最后一个单元输出达到池化效果,避免了大量的模型计算,保证了模型的检测效率。同时为解决数据样本不均衡问题,在迭代过程中为其分配不同惩罚因子,改进了数据样本初始化权重的分配规则并进行了归一化处理,增加恶意样本在整体误差函数中的比重。实验结果表明本文模型在准确率、召回率以及检测效率上较优于其他主流检测模型,并对于不均衡数据集具有较好的抵抗能力。 展开更多
关键词 深度学习 恶意网页 url检测 代价敏感学习 神经网络
下载PDF
一种基于FTCNN-BILSTM的恶意URLs检测方法
4
作者 张凯洪 柳毅 《计算机应用与软件》 北大核心 2023年第11期295-301,共7页
针对目前恶意URL检测模型中泛化性不够好,准确率不够高的问题,提出一种基于字符嵌入编码的FTCNN-LSTM的恶意URL多分类检测方法。该方法对URL中的每一个字符进行向量化编码,并通过批规范化和定向Dropout对神经网络进行剪枝,并使用Focal L... 针对目前恶意URL检测模型中泛化性不够好,准确率不够高的问题,提出一种基于字符嵌入编码的FTCNN-LSTM的恶意URL多分类检测方法。该方法对URL中的每一个字符进行向量化编码,并通过批规范化和定向Dropout对神经网络进行剪枝,并使用Focal Loss损失函数解决数据集不平衡的问题。实验结果显示,与机器学习训练的模型相比,该方法在多分类上召回率提升了1.73%。该模型在ISCX-URL2016和malicious_phish URL数据集上的多分类平均预测结果均能达到98.63%以上,具有较好的泛化能力。 展开更多
关键词 恶意url检测 卷积神经网络 向量化 Focal Loss
下载PDF
基于Stacking集成学习的恶意URL检测系统设计与实现 被引量:1
5
作者 张永刚 吕鹏飞 +2 位作者 张悦 姚兴博 冯艳丽 《现代电子技术》 2023年第10期105-109,共5页
针对传统URL检测方法在恶意URL检测时存在的准确率不高、实时性差等问题,提出一种基于Stacking集成学习的算法模型。该模型采用机器学习单一方法中的岭分类、支持向量机、朴素贝叶斯作为初级学习器,采用逻辑回归作为次级学习器,通过初... 针对传统URL检测方法在恶意URL检测时存在的准确率不高、实时性差等问题,提出一种基于Stacking集成学习的算法模型。该模型采用机器学习单一方法中的岭分类、支持向量机、朴素贝叶斯作为初级学习器,采用逻辑回归作为次级学习器,通过初级学习器和次级学习器相结合的双层结构对URL进行检测。使用大量的URL数据集分别对单一方法中的模型和Stacking集成学习方法的模型进行训练,并对每种模型进行评估。评估结果表明,Stacking集成学习的算法模型对恶意URL检测的准确率可达98.75%,与其他模型相比提升0.75%以上。采用Flask作为开发框架,实现了恶意URL检测系统的功能,并对系统进行云端等部署,得到系统根据用户输入的URL链接可以输出URL的检测结果,具有较好的应用价值。 展开更多
关键词 恶意url检测 Stacking集成学习 检测系统设计 算法模型 模型评估 Flask框架
下载PDF
基于双层注意力机制的恶意URL检测
6
作者 赵云泽 蒋牧秋 +1 位作者 董伟 冯志 《网络安全与数据治理》 2023年第2期3-8,共6页
随着信息化技术的不断发展,网络空间中存在的威胁也在不断变化。其中,基于恶意URL的攻击手段层出不穷。针对恶意URL识别与检测问题进行了深入探究,设计并实现了具有双层注意力机制的Bi-LSTM网络模型对恶意URL进行识别和检测,并将其命名... 随着信息化技术的不断发展,网络空间中存在的威胁也在不断变化。其中,基于恶意URL的攻击手段层出不穷。针对恶意URL识别与检测问题进行了深入探究,设计并实现了具有双层注意力机制的Bi-LSTM网络模型对恶意URL进行识别和检测,并将其命名为A2Bi-LSTM。该模型分别在字符级别及单词级别对恶意URL中包含的可疑内容进行注意力权值的计算,进一步提升了恶意URL的识别精度。实验结果表明,A2Bi-LSTM对恶意URL的识别准确率达到97%,相较于传统检测模型有着更好的检测效果,能够有效应对此类攻击威胁,有助于网络空间安全体系的构建。 展开更多
关键词 恶意url 注意力机制 网络安全 深度学习
下载PDF
Malicious URL Classification Using Artificial Fish Swarm Optimization and Deep Learning
7
作者 Anwer Mustafa Hilal Aisha Hassan Abdalla Hashim +5 位作者 Heba G.Mohamed Mohamed K.Nour Mashael M.Asiri Ali M.Al-Sharafi Mahmoud Othman Abdelwahed Motwakel 《Computers, Materials & Continua》 SCIE EI 2023年第1期607-621,共15页
Cybersecurity-related solutions have become familiar since it ensures security and privacy against cyberattacks in this digital era.Malicious Uniform Resource Locators(URLs)can be embedded in email or Twitter and used... Cybersecurity-related solutions have become familiar since it ensures security and privacy against cyberattacks in this digital era.Malicious Uniform Resource Locators(URLs)can be embedded in email or Twitter and used to lure vulnerable internet users to implement malicious data in their systems.This may result in compromised security of the systems,scams,and other such cyberattacks.These attacks hijack huge quantities of the available data,incurring heavy financial loss.At the same time,Machine Learning(ML)and Deep Learning(DL)models paved the way for designing models that can detect malicious URLs accurately and classify them.With this motivation,the current article develops an Artificial Fish Swarm Algorithm(AFSA)with Deep Learning Enabled Malicious URL Detection and Classification(AFSADL-MURLC)model.The presented AFSADL-MURLC model intends to differentiate the malicious URLs from genuine URLs.To attain this,AFSADL-MURLC model initially carries out data preprocessing and makes use of glove-based word embedding technique.In addition,the created vector model is then passed onto Gated Recurrent Unit(GRU)classification to recognize the malicious URLs.Finally,AFSA is applied to the proposed model to enhance the efficiency of GRU model.The proposed AFSADL-MURLC technique was experimentally validated using benchmark dataset sourced from Kaggle repository.The simulation results confirmed the supremacy of the proposed AFSADL-MURLC model over recent approaches under distinct measures. 展开更多
关键词 Malicious url CYBERSECURITY deep learning machine learning metaheuristics gated recurrent unit
下载PDF
Machine Learning Techniques for Detecting Phishing URL Attacks
8
作者 Diana T.Mosa Mahmoud Y.Shams +2 位作者 Amr AAbohany El-Sayed M.El-kenawy M.Thabet 《Computers, Materials & Continua》 SCIE EI 2023年第4期1271-1290,共20页
Cyber Attacks are critical and destructive to all industry sectors.They affect social engineering by allowing unapproved access to a Personal Computer(PC)that breaks the corrupted system and threatens humans.The defen... Cyber Attacks are critical and destructive to all industry sectors.They affect social engineering by allowing unapproved access to a Personal Computer(PC)that breaks the corrupted system and threatens humans.The defense of security requires understanding the nature of Cyber Attacks,so prevention becomes easy and accurate by acquiring sufficient knowledge about various features of Cyber Attacks.Cyber-Security proposes appropriate actions that can handle and block attacks.A phishing attack is one of the cybercrimes in which users follow a link to illegal websites that will persuade them to divulge their private information.One of the online security challenges is the enormous number of daily transactions done via phishing sites.As Cyber-Security have a priority for all organizations,Cyber-Security risks are considered part of an organization’s risk management process.This paper presents a survey of different modern machine-learning approaches that handle phishing problems and detect with high-quality accuracy different phishing attacks.A dataset consisting of more than 11000 websites from the Kaggle dataset was utilized and studying the effect of 30 website features and the resulting class label indicating whether or not it is a phishing website(1 or−1).Furthermore,we determined the confusion matrices of Machine Learning models:Neural Networks(NN),Na飗e Bayes,and Adaboost,and the results indicated that the accuracies achieved were 90.23%,92.97%,and 95.43%,respectively. 展开更多
关键词 Cyber security phishing attack url phishing online social networks machine learning
下载PDF
Modelling an Efficient URL Phishing Detection Approach Based on a Dense Network Model
9
作者 A.Aldo Tenis R.Santhosh 《Computer Systems Science & Engineering》 SCIE EI 2023年第11期2625-2641,共17页
The social engineering cyber-attack is where culprits mislead the users by getting the login details which provides the information to the evil server called phishing.The deep learning approaches and the machine learn... The social engineering cyber-attack is where culprits mislead the users by getting the login details which provides the information to the evil server called phishing.The deep learning approaches and the machine learning are compared in the proposed system for presenting the methodology that can detect phishing websites via Uniform Resource Locator(URLs)analysis.The legal class is composed of the home pages with no inclusion of login forms in most of the present modern solutions,which deals with the detection of phishing.Contrarily,the URLs in both classes from the login page due,considering the representation of a real case scenario and the demonstration for obtaining the rate of false-positive with the existing approaches during the legal login pages provides the test having URLs.In addition,some model reduces the accuracy rather than training the base model and testing the latest URLs.In addition,a feature analysis is performed on the present phishing domains to identify various approaches to using the phishers in the campaign.A new dataset called the MUPD dataset is used for evaluation.Lastly,a prediction model,the Dense forward-backwards Long Short Term Memory(LSTM)model(d−FBLSTM),is presented for combining the forward and backward propagation of LSMT to obtain the accuracy of 98.5%on the initiated login URL dataset. 展开更多
关键词 Cyber-attack url phishing attack attention model prediction accuracy
下载PDF
一种基于BLCNA模型的恶意URL检测技术
10
作者 沈伍强 张金波 +1 位作者 许明杰 杨春松 《微型电脑应用》 2023年第12期62-65,共4页
针对传统方法对恶意URL识别准确度不高、耗时长的问题,提出一种基于注意力机制的神经网络联合模型(BLCNA)来检测恶意URL。提取URL的语义信息和视觉信息进行编码处理,结合双向长短期记忆网络(BiLSTM)和胶囊网络(CapsNet)构建神经网络联... 针对传统方法对恶意URL识别准确度不高、耗时长的问题,提出一种基于注意力机制的神经网络联合模型(BLCNA)来检测恶意URL。提取URL的语义信息和视觉信息进行编码处理,结合双向长短期记忆网络(BiLSTM)和胶囊网络(CapsNet)构建神经网络联合模型来同步捕获语义和视觉特征,利用注意力机制增加关键特征的权重,基于有效特征完成对URL的分类。实验结果表明,所提方法在检测恶意URL检测方面优于其他方法,准确率可以达到99.79%。 展开更多
关键词 电力网络安全 url 注意力机制 特征提取 神经网络
下载PDF
基于URL模式集的主题爬虫 被引量:17
11
作者 胡萍瑞 李石君 《计算机应用研究》 CSCD 北大核心 2018年第3期694-699,726,共7页
为提高主题爬虫的性能,依据站点信息组织的特点和URL的特征,提出一种基于URL模式集的主题爬虫。爬虫分两个阶段,在实验爬虫阶段,采集站点样本数据,采用基于URL前缀树的模式构建算法构建URL模式,形成模式关系图,并利用HITS算法分析该模... 为提高主题爬虫的性能,依据站点信息组织的特点和URL的特征,提出一种基于URL模式集的主题爬虫。爬虫分两个阶段,在实验爬虫阶段,采集站点样本数据,采用基于URL前缀树的模式构建算法构建URL模式,形成模式关系图,并利用HITS算法分析该模式关系图,计算出各模式的重要度;在聚焦爬虫阶段,无须预先下载页面,即可利用生成的URL模式判断页面是否主题相关和能否指导爬虫深入抓取,并根据URL模式的重要度预测待抓取链接优先级。实验表明,该爬虫相比现有的主题爬虫能快速引导爬虫抓取主题相关页面,保证爬虫的查准率和查全率,有效提高爬虫抓取效率。 展开更多
关键词 主题爬虫 url模式 url前缀树 模式关系图 url模式重要性
下载PDF
Phishing Website URL’s Detection Using NLP and Machine Learning Techniques
12
作者 Dinesh Kalla Sivaraju Kuraku 《Journal on Artificial Intelligence》 2023年第1期145-162,共18页
Phishing websites present a severe cybersecurity risk since they can lead to financial losses,data breaches,and user privacy violations.This study uses machine learning approaches to solve the problem of phishing webs... Phishing websites present a severe cybersecurity risk since they can lead to financial losses,data breaches,and user privacy violations.This study uses machine learning approaches to solve the problem of phishing website detection.Using artificial intelligence,the project aims to provide efficient techniques for locating and thwarting these dangerous websites.The study goals were attained by performing a thorough literature analysis to investigate several models and methods often used in phishing website identification.Logistic Regression,K-Nearest Neighbors,Decision Trees,Random Forests,Support Vector Classifiers,Linear Support Vector Classifiers,and Naive Bayes were all used in the inquiry.This research covers the benefits and drawbacks of several Machine Learning approaches,illuminating how well-suited each is to overcome the difficulties in locating and countering phishing website predictions.The insights gained from this literature review guide the selection and implementation of appropriate models and methods in future research and real-world applications related to phishing detections.The study evaluates and compares accuracy,precision and recalls of several machine learning models in detecting phishing website URL’s detection. 展开更多
关键词 CYBERSECURITY artificial intelligence machine learning NLP phishing detection spam detection phinshing website urls
下载PDF
一种快速的基于URL的垃圾邮件过滤系统 被引量:3
13
作者 詹川 卢显良 +1 位作者 侯孟书 邢茜 《计算机科学》 CSCD 北大核心 2005年第8期55-56,66,共3页
垃圾邮件是当前Internet上关注一个焦点问题,随着垃圾邮件的伪装技术的不断更新,以前主要的几种垃圾邮件过滤技术面临着新的挑战。针对目前垃圾邮件大都含有要宣传网站的URL地址的特点,我们构建了一个基于URL的垃圾邮件过滤系统,通过查... 垃圾邮件是当前Internet上关注一个焦点问题,随着垃圾邮件的伪装技术的不断更新,以前主要的几种垃圾邮件过滤技术面临着新的挑战。针对目前垃圾邮件大都含有要宣传网站的URL地址的特点,我们构建了一个基于URL的垃圾邮件过滤系统,通过查询邮件中是否含有URL黑名单中的URL地址,来识别垃圾邮件。在URL地址查询过程中,采用Hplf散列函数来加速查询。通过试验测试,该系统能有效地减少垃圾邮件的数量。 展开更多
关键词 url 垃圾邮件 邮件过滤 散列函数 邮件过滤系统 url地址 Internet 焦点问题 伪装技术 过滤技术
下载PDF
利用URL-Key进行查询分类 被引量:2
14
作者 李雪伟 吕学强 +1 位作者 董志安 刘克会 《北京大学学报(自然科学版)》 EI CAS CSCD 北大核心 2015年第2期220-226,共7页
针对查询分类问题,借助互联网中人工组织的分类网站领域URL,利用URL-key在各个类别中使用的频度,提出基于方差的领域URL-key识别方法,利用机器翻译、拼音翻译和搜索结果反馈等技术对URL-key进行过滤,构建领域URL-key。然后结合伪相关反... 针对查询分类问题,借助互联网中人工组织的分类网站领域URL,利用URL-key在各个类别中使用的频度,提出基于方差的领域URL-key识别方法,利用机器翻译、拼音翻译和搜索结果反馈等技术对URL-key进行过滤,构建领域URL-key。然后结合伪相关反馈技术,选取URL-key为特征,构建URL-key向量,利用SVM对查询串进行分类。实验结果表明,该方法不仅F值比对比方法提高7%,而且资源的使用也远远小于对比方法,提高了系统的时效性。 展开更多
关键词 查询分类 url url-key 伪相关反馈
下载PDF
基于CNN-XGBoost的恶意URL检测
15
作者 赵世雄 韩斌 张紫妍 《软件导刊》 2023年第5期150-157,共8页
目前在恶意URL的检测方法中,基于黑名单库的检测方法存在时效性低、防御不住未知攻击的问题,而基于机器学习的检测方法则过度依赖人工提取的特征且需耗费大量人力和时间。针对以上问题,提出一种CNN与XGBoost相结合的检测模型,利用CNN实... 目前在恶意URL的检测方法中,基于黑名单库的检测方法存在时效性低、防御不住未知攻击的问题,而基于机器学习的检测方法则过度依赖人工提取的特征且需耗费大量人力和时间。针对以上问题,提出一种CNN与XGBoost相结合的检测模型,利用CNN实现自动提取特征,通过XGBoost进行分类,采用FWA算法对XGBoost关键参数进行优化,并结合SVM、逻辑回归等多种分类器进行比较。实验结果表明,该模型可以自动提取特征实现主动防御,其精确率达到97.2%,比现有检测模型精确率提高3%~5%。 展开更多
关键词 卷积神经网络 机器学习 恶意url 烟花算法 网络安全
下载PDF
基于主题语义URL的信息搜索方法研究 被引量:2
16
作者 林晶 彭小宁 《计算机应用与软件》 CSCD 2015年第6期42-45,共4页
为提高主题网络爬虫的效率及收获率,提出一种基于主题语义URL的信息搜索方法。该方法将种子URL映射到主题树的主题结点上,以主题路径上的主题文本扩充种子URL的语义,引导爬虫高效准确地抓取主题页面,并利用链接重要度与页面重要度因子... 为提高主题网络爬虫的效率及收获率,提出一种基于主题语义URL的信息搜索方法。该方法将种子URL映射到主题树的主题结点上,以主题路径上的主题文本扩充种子URL的语义,引导爬虫高效准确地抓取主题页面,并利用链接重要度与页面重要度因子在抓取过程中自动选育新的URL优良种子。重点阐述上述搜索方法的原理及其在系统中的实现。实验结果表明,该搜索方法能有效改善网络爬虫的搜索效率及收获率,且种子链接的选育性能良好。 展开更多
关键词 主题树 url语义 搜索引擎 主题-url映射
下载PDF
一种基于MPAN的钓鱼URL检测方法 被引量:3
17
作者 张桥 卜佑军 +2 位作者 陈博 曹东伟 张稣荣 《信息工程大学学报》 2021年第4期443-449,共7页
为解决日益严峻的网络钓鱼问题,提出一种基于消息传递注意力网络(Message Passing Attention Network,MPAN)的钓鱼URL检测方法。此方法相对于传统的机器学习和黑名单检测方法,无需人工提取特征且能识别新出现的钓鱼网页。首先基于敏感... 为解决日益严峻的网络钓鱼问题,提出一种基于消息传递注意力网络(Message Passing Attention Network,MPAN)的钓鱼URL检测方法。此方法相对于传统的机器学习和黑名单检测方法,无需人工提取特征且能识别新出现的钓鱼网页。首先基于敏感词分词的方法对URL分词,以提升利用URL数据信息的程度。然后通过MPAN获取URL中长距离、非连续的单词交互信息,基于自动提取的特征检测钓鱼网页。实验结果表明,基于MPAN的钓鱼网页检测方法能够达到较高的准确率、召回率、F1值。 展开更多
关键词 消息传递注意力网络 钓鱼url 机器学习 黑名单 url分词
下载PDF
Web语料抓取中基于相似度的URL过滤规则生成算法
18
作者 陈荟慧 舒云星 林丽 《模式识别与人工智能》 EI CSCD 北大核心 2014年第7期631-637,共7页
Web语料是语料库的重要组成部分,但对冗余URL的访问开支影响大规模语料爬取工作的质量和效率,使用高效的URL过滤规则可提高Web爬取的质量和效率.因网站虚拟目录下的文件分布不均匀,为发现目标文件聚集区域,提出一种生成URL过滤规则的方... Web语料是语料库的重要组成部分,但对冗余URL的访问开支影响大规模语料爬取工作的质量和效率,使用高效的URL过滤规则可提高Web爬取的质量和效率.因网站虚拟目录下的文件分布不均匀,为发现目标文件聚集区域,提出一种生成URL过滤规则的方法.该方法使用正则表达式将URL元素通配化,归并相同元素后划分为子集,再计算子集内URL之间的相似度,并根据相似程度较高的URL构造虚拟目录树,基于虚拟目录树生成语料爬取的URL过滤规则和分类规则.文中详细介绍虚拟目录树的生成算法,并通过实验对比不同相似度阈值对目录树生成结果和URL过滤效果的影响. 展开更多
关键词 url相似度 Web语料爬取 url过滤 语料分类
下载PDF
一种面向大规模URL过滤的多模式串匹配算法 被引量:13
19
作者 刘燕兵 邵妍 +2 位作者 王勇 刘庆云 郭莉 《计算机学报》 EI CSCD 北大核心 2014年第5期1159-1169,共11页
对大量有害的URL进行过滤,是目前网络安全应用系统中所亟需的关键技术.使用经典的串匹配算法检测庞大的URL规则集,需要消耗大量的计算资源和存储资源,性能十分低下.该文设计了一种适合于大规模URL过滤的多模式串匹配算法——SOGOPT.该... 对大量有害的URL进行过滤,是目前网络安全应用系统中所亟需的关键技术.使用经典的串匹配算法检测庞大的URL规则集,需要消耗大量的计算资源和存储资源,性能十分低下.该文设计了一种适合于大规模URL过滤的多模式串匹配算法——SOGOPT.该算法在经典的SOG算法基础上,针对URL规则的特点,提出了最优窗口选择、模式串分组规约这两种优化技术,大幅度提高了SOG算法的匹配速度,在大规模URL规则集上效果尤其显著.该文设计的算法非常适合于大规模(100万级)URL实时在线匹配的应用环境. 展开更多
关键词 多模式串匹配 url过滤 最优窗口选择 模式串分组规约 信息安全 网络安全
下载PDF
基于URL主题的查询分类方法 被引量:14
20
作者 张宇 宋巍 +1 位作者 刘挺 李生 《计算机研究与发展》 EI CSCD 北大核心 2012年第6期1298-1305,共8页
互联网上很多资源蕴含人类群体智慧.分类网站目录人工地对网站按照主题进行组织.基于网站目录中具有主题标注的URL设计URL主题分类器,结合伪相关反馈技术以及搜索引擎查询日志,提出了自动、快速、有效的查询主题分类方法.具体地,方法为... 互联网上很多资源蕴含人类群体智慧.分类网站目录人工地对网站按照主题进行组织.基于网站目录中具有主题标注的URL设计URL主题分类器,结合伪相关反馈技术以及搜索引擎查询日志,提出了自动、快速、有效的查询主题分类方法.具体地,方法为2种策略的结合.策略1通过计算搜索结果中URL的主题分布预测查询主题,策略2基于查询日志点击关系,利用具有主题标注的URL,对查询进行标注获取数据并训练统计分类器预测查询主题.实验表明,方法可获得比当前最好算法更好的准确率,更好的在线处理效率并且可基于查询日志自动获取训练数据,具有良好的可扩展性. 展开更多
关键词 查询分类 url分类 查询日志 伪相关反馈 统计学习
下载PDF
上一页 1 2 42 下一页 到第
使用帮助 返回顶部