期刊文献+
共找到10篇文章
< 1 >
每页显示 20 50 100
基于自监督学习的委婉语识别方法 被引量:1
1
作者 胡玉雪 吴明民 +2 位作者 沙灜 曾智 张瑜琦 《中文信息学报》 CSCD 北大核心 2023年第10期55-63,75,共10页
委婉语常被用于社交媒体和暗网交易市场,以其表面含义掩盖潜在含义来逃避平台的监管,例如,用“weed”(杂草)代替“marijuana”(大麻)进行非法交易。委婉语识别是将给定的委婉语映射到特定的目标词(潜在含义)。当前委婉语识别的研究没有... 委婉语常被用于社交媒体和暗网交易市场,以其表面含义掩盖潜在含义来逃避平台的监管,例如,用“weed”(杂草)代替“marijuana”(大麻)进行非法交易。委婉语识别是将给定的委婉语映射到特定的目标词(潜在含义)。当前委婉语识别的研究没有获得广泛关注,一方面缺乏有效标注的数据集,另一方面现有方法主要关注委婉语句子中的单个词汇,忽略了委婉语的语境信息。针对上述问题,该文提出了双层自监督学习模型——DSLM(Double Self-supervised Learning Method)用于委婉语识别:外层自监督学习框架用来自动构建含标签数据集,以解决缺乏有效标注数据集的问题;内层使用语境对比学习方法,利用委婉语语境信息,拉近委婉语语境表示和目标词的语义距离。实验表明,该方法优于当前最先进的方法,且结果更稳定、模型收敛更快。 展开更多
关键词 委婉语识别 自监督学习 对比学习
下载PDF
中文变体词的识别与规范化综述 被引量:2
2
作者 沙灜 梁棋 王斌 《信息安全学报》 2016年第3期77-87,共11页
网络书写具有随意性、非正规性等特点。变体词就是网络语言作为一种不规范语言的显著特色,人们往往出于避免审查、表达情感、讽刺、娱乐等需求将相对严肃、规范、敏感的词用相对不规范、不敏感的词来代替,用来代替原来词的新词就叫做变... 网络书写具有随意性、非正规性等特点。变体词就是网络语言作为一种不规范语言的显著特色,人们往往出于避免审查、表达情感、讽刺、娱乐等需求将相对严肃、规范、敏感的词用相对不规范、不敏感的词来代替,用来代替原来词的新词就叫做变体词(Morph)。变体词和其对应的原来的词(目标实体词)会分别在非规范文本和规范文本中共存,甚至变体词会渗透到规范文本中。变体词使行文更加生动活泼,相关事件、消息也传播得更加广泛。但是因为变体词通常是某种隐喻,已不再是其表面字词的意义了,从而使网络上文体与正式文本(如新闻等)具有巨大的差异。由此如何识别出这些变体词及其所对应的目标实体词对于下游的自然语言处理技术具有重要的意义。本文首先介绍了变体词的定义和特征,变体词的生成规律,总结了当前变体词的识别和规范化的主要技术进展和成果,最后是此领域发展方向的展望。 展开更多
关键词 社交网络 变体词识别 变体词规范化 深度学习 神经网络 表示学习
下载PDF
一种针对Bencode编码实现的BitTorrent系统攻击方法
3
作者 沙灜 王昆 +1 位作者 谭建龙 郭莉 《计算机工程与应用》 CSCD 2012年第11期75-81,共7页
Bittorren(tBT)作为一种流行的P2P文件共享系统,其torrent文件以及扩展协议中的相关消息都是采用Bencode的编码方式。最初的Bittorrent系统是用python实现的,其中的Bencode编解码采用了递归的方式,后续的很多BT客户端实现都直接拷贝了... Bittorren(tBT)作为一种流行的P2P文件共享系统,其torrent文件以及扩展协议中的相关消息都是采用Bencode的编码方式。最初的Bittorrent系统是用python实现的,其中的Bencode编解码采用了递归的方式,后续的很多BT客户端实现都直接拷贝了这种方式。这就为针对Bencode编码实现的攻击提供了可能。首先构造了有一定递归深度的torrent文件以及扩展协议中的消息,实验发现对当前主流的BT客户端:比特精灵、迅雷(迷你迅雷)、比特彗星、FlashGet和TuoTu都会造成系统的崩溃。根据上述BT客户端的占有率,可知此种攻击全球覆盖率可达39.1%,对国内会达到70%以上。这是一种很有效的针对torrent以及swarm的攻击手段。最后给出此种攻击手段的防御手段。 展开更多
关键词 BITTORRENT系统 Bencode编码 堆栈溢出 远程攻击
下载PDF
新浪微博隐式组织发现 被引量:1
4
作者 刘程 沙灜 +1 位作者 姜波 郭莉 《中文信息学报》 CSCD 北大核心 2017年第2期139-145,219,共8页
社交网络中往往同时存在多种类型的账号,如正常个体用户、水军、僵尸粉、蓝V组织等。我们把其行为呈现为组织特性的个体账号,定义为隐式组织。隐式组织通常背后有相应的组织团队负责账号的运营,因此其行为模式呈现为组织的行为模式,有... 社交网络中往往同时存在多种类型的账号,如正常个体用户、水军、僵尸粉、蓝V组织等。我们把其行为呈现为组织特性的个体账号,定义为隐式组织。隐式组织通常背后有相应的组织团队负责账号的运营,因此其行为模式呈现为组织的行为模式,有别于个体账号。隐式组织的有效发现对于社交网络中舆情传播趋势分析、广告推荐等都有重要的意义。该文以新浪微博数据为例,在数据采集系统基础上,共人工标注了583个账号,提取了22个特征,使用朴素贝叶斯和决策树算法,实现了对隐式组织的有效识别,其准确率达86.4%,并分析得出了特征的重要程度排序。实验证明了社交网络中存在隐式组织,其行为特征是可以识别的。 展开更多
关键词 社交网络 隐式组织 机器学习算法
下载PDF
基于浏览器测试组件的社交网络数据获取技术研究 被引量:5
5
作者 陈学敏 沙灜 《信息网络安全》 2015年第5期56-61,共6页
社交网络数据获取是社交网络分析重要的前提条件。当前各大社交网络平台对于第三方爬虫的屏蔽措施日益复杂,传统的数据获取手段受到严峻的挑战。文章提出了一种基于浏览器测试组件的社交网络数据获取技术,通过模拟正常用户的行为以规避... 社交网络数据获取是社交网络分析重要的前提条件。当前各大社交网络平台对于第三方爬虫的屏蔽措施日益复杂,传统的数据获取手段受到严峻的挑战。文章提出了一种基于浏览器测试组件的社交网络数据获取技术,通过模拟正常用户的行为以规避社交网络对于传统网络爬虫的限制,实现目标数据的高效获取。该系统分别获取了QQ群即时聊天信息和非即时资料信息。对于即时聊天信息获取,经过实验测试和结果对比,发现即时信息采集的采全率达99%以上,准确率达100%。对于非即时资料,分别获取了群公告、群成员列表、群共享文件和共享相册等数据,通过数据抽样对比,采全率和准确率均达到100%。实验证明基于浏览器测试组件的社交网络数据获取技术有其一定的数据获取优势。 展开更多
关键词 社交网络 数据获取 用户行为模拟 浏览器测试组件
下载PDF
基于字词联合的变体词规范化研究 被引量:1
6
作者 施振辉 沙灜 +3 位作者 梁棋 李锐 邱泳钦 王斌 《计算机系统应用》 2017年第10期29-35,共7页
社交网络中的文本具有随意性和非正规性等特点,一种常见现象是社交网络文本中存在大量变体词.人们往往为了避免审查、表达情感等将原来的词用变体词替代,原来的词成为目标词.本文研究变体词的规范化任务,即找到变体词所对应的初始目标词... 社交网络中的文本具有随意性和非正规性等特点,一种常见现象是社交网络文本中存在大量变体词.人们往往为了避免审查、表达情感等将原来的词用变体词替代,原来的词成为目标词.本文研究变体词的规范化任务,即找到变体词所对应的初始目标词.本文利用变体词所在文本的时间和语义,结合变体词词性,提出了一种时间和语义结合的方法获取候选目标词,然后提出基于字词联合的词向量方法对候选目标词排序.我们的方法不需要额外的标注数据,实验结果表明,相比于当前最好的方法在准确性上具有一定的提升,针对与目标词存在相同的字的变体词其性能更好. 展开更多
关键词 变体词 变体词规范化 社交网络 词向量 字词联合训练
下载PDF
基于有效上下文信息的变体词还原方法
7
作者 游绩榕 沙灜 +1 位作者 梁棋 王斌 《计算机应用研究》 CSCD 北大核心 2019年第6期1737-1740,1747,共5页
在社交网络上,用户常创造一些变体词来替代部分实体名词,将这些变体词还原为原目标词是自然语言处理中的一项重要工作。针对现有变体词还原方法准确率不够高的问题,提出了基于有效上下文信息的变体词还原方法。该方法利用点互信息抽取... 在社交网络上,用户常创造一些变体词来替代部分实体名词,将这些变体词还原为原目标词是自然语言处理中的一项重要工作。针对现有变体词还原方法准确率不够高的问题,提出了基于有效上下文信息的变体词还原方法。该方法利用点互信息抽取出变体词和候选目标词的有效上下文信息,并将其融合进自编码器模型中,获得变体词和候选目标词更准确的编码,并依据此计算相似度进行候选目标词排序,更准确地实现了变体词还原任务。实验表明,该方法较当前主流的几种方法相比效果有显著提升,提高了变体词还原的准确率。 展开更多
关键词 变体词 变体词还原 自编码器 有效上下文信息 词嵌入 神经网络
下载PDF
面向主题的社交网络采集技术 被引量:1
8
作者 郑楷坚 沙灜 《计算机系统应用》 2016年第10期173-179,共7页
社交网络数据采集是开展社交网络分析的基础.针对当前面向主题的社交网络数据采集技术采集数据少、召回率低的问题,本文提出基于内置搜索引擎和基于通用搜索引擎相结合的主题消息采集方法,并将LDA(Latent Dirichlet Allocation,隐含狄... 社交网络数据采集是开展社交网络分析的基础.针对当前面向主题的社交网络数据采集技术采集数据少、召回率低的问题,本文提出基于内置搜索引擎和基于通用搜索引擎相结合的主题消息采集方法,并将LDA(Latent Dirichlet Allocation,隐含狄利克雷分布)模型应用于主题关键词的迭代扩展,并提出了一种基于用户生存值的高效扩展策略.实验结果表明本文提出的方法可以使面向主题的社交网络数据采集系统在保证一定准确率的情况下进一步获取主题相关数据. 展开更多
关键词 社交网络 主题采集 内置搜索 通用搜索 主题模型 LDA
下载PDF
基于DIND的大数据实验平台探索与应用研究
9
作者 胡玉雪 徐勋光 +1 位作者 王海燕 沙灜 《实验室研究与探索》 CAS 北大核心 2022年第12期295-299,324,共6页
大数据实验教学平台是大数据专业人才培养的基础设施和关键保障。针对目前大数据集群部署复杂、资源利用率较低等问题,综合考虑大数据专业人才培养方案、行业技能要求、资源利用率等因素,提出了基于容器嵌套技术(docker in docker, DIND... 大数据实验教学平台是大数据专业人才培养的基础设施和关键保障。针对目前大数据集群部署复杂、资源利用率较低等问题,综合考虑大数据专业人才培养方案、行业技能要求、资源利用率等因素,提出了基于容器嵌套技术(docker in docker, DIND)的大数据实验平台建设方案。平台主要由内外两层Docker容器组成:外层Docker容器提供大数据实验基础环境和交互式界面,内层Docker容器提供大数据计算集群环境。平台具有贴合培养方案、集群部署快、资源利用率高、投入成本低、使用便捷等优点。4个学期的教学实践表明,学生实验完成度高、实验投入时间长、能很好掌握大数据专业知识,实现了提高教学质量、培养学生工程实践能力的目的。 展开更多
关键词 大数据 实验教学平台 大数据集群 DIND容器嵌套 Docker容器
下载PDF
上一页 1 下一页 到第
使用帮助 返回顶部