基于关联规则挖掘的分布式小文件存储方法被引量：8

Approach of Distributed Small File Storage Based on Association Rule Mining

下载PDF

导出

摘要 Hadoop分布式文件系统(HDFS)设计之初是针对大文件的处理,但无法高效地针对小文件进行存储,因此提出了一种基于关联规则挖掘的高效的小文件存储方法——ARMFS。ARMFS通过对Hadoop系统的审计日志进行关联规则挖掘,获得小文件间的关联性,通过文件合并算法将小文件合并存储至HDFS;在请求HDFS文件时,根据关联规则挖掘得到的高频访问表和预取机制表提出预取算法来进一步提高文件访问效率。实验结果表明,ARMFS方法明显提高了NameNode的内存使用效率,对于小文件的下载速度和访问效率的改善十分有效。 Hadoop distributed file system （HDFS） is previously designed for large file processing,but it is not effective for small file storage. This paper proposes an efficient method of distributed small file storage by means of association rule mining and named ARMFS. By analyzing the audit logs to obtain the association of small files,these small files are merged and compressed to HDFS via file merge algorithm. When requesting HDFS file,the prefetching algorithm is further proposed to improve the access efficiency according to the high frequency access table and prefetching table that is based on association rules. The experiment results show that the ARMFS method can significantly improve the memory efficiency on NameNode and the access efficiency of the small file on HDFS.

作者钱能武郭卫斌范贵生

机构地区华东理工大学信息科学与工程学院

出处《华东理工大学学报（自然科学版）》 CAS CSCD 北大核心 2016年第5期708-714,共7页 Journal of East China University of Science and Technology

基金国家自然科学基金(61300041 61272198)

关键词 HDFS 关联规则挖掘小文件关联性预取 HDFS association rule mining the association of small files prefetching

分类号 TP316.4 [自动化与计算机技术—计算机软件与理论]

引文网络
相关文献

参考文献2

1陶利民,黄林鹏.Cherry:一种无须子集检查的闭合频繁集挖掘算法[J].软件学报,2008,19(2):379-388. 被引量：6
2鲍东星,李晓明.一种基于近似LRU算法的高缓方案[J].计算机工程,2007,33(9):272-274. 被引量：4

二级参考文献10

1颜跃进,李舟军,陈火旺.基于FP-Tree有效挖掘最大频繁项集[J].软件学报,2005,16(2):215-222. 被引量：68
2陆介平,杨明,孙志挥,鞠时光.快速挖掘全局最大频繁项目集[J].软件学报,2005,16(4):553-560. 被引量：27
3Peir J K,Hsu W W,Smith A J.Functional Implementation Techniques for CPU Cache Memories[J].IEEE Transaction on Computers,1999,48(2):100-110.
4Jouppi N P.Improving Direct Mapping Cache Performance by the Addition of a Small Full Associative Cache and Prefetch Buffers[C]// Proceedings of the 17th International Symposium on Computer Architecture,Seattle.1990:364-373.
5Kurpanek G,Chan G,Zheng K,et al.PA7200:A PA-RISC Processor with Integrated High Performance MP Bus Interface[C]//Proceedings of IEEE International Computer Conference,San Francisco.1994:375-382.
6Lee Jung-Hoon,Lee Jang-Soo,Kim Shin-Dug.A Selective Temporal and Aggressive Spatial Cache System Based on Time Interval[C] //Proceedings of the IEEE International Conference on Computer Design,Austin.2000:287-293.
7Lee Jung-Hoon,Kim Shin-Dug,Weems C C.Application-adaptive Intelligent Cache Memory System[J].ACM Transactions on Embedded Computing Systems,2002,1(1):56-78.
8Burger D,Austin T M.Evaluating Future Processors:The Simple Scalar Tool Set[R].Madison:University of Wisconsin,1997.
9Tam E S,Rivers J A,Tyson G S,et al.Mlcache:A Flexible Multilateral Cache Simulater[C]//Proceedings of the 6th International Symposium on Modeling,Analysis and Simulation of Computer and Telecommunication Systems,Montreal.1998:19-26.
10宋余庆,朱玉全,孙志挥,陈耿.基于FP-Tree的最大频繁项目集挖掘及更新算法[J].软件学报,2003,14(9):1586-1592. 被引量：164

共引文献8

1徐红艳,陈锋,张森林,冯勇.一种存在全局站点的分布式增量挖掘算法[J].辽宁大学学报（自然科学版）,2013,40(1):41-47.
2王新锋,刘建国,蒋旭,杨磊,杨会民.基于前缀匹配的二进制搜索算法及仿真[J].系统仿真学报,2009,21(13):4198-4201. 被引量：1
3姚金武,霍剑青,杨旭,袁泉,王晓蒲.基于C/S的RBI专家系统的设计与实现[J].中国科学技术大学学报,2010,40(6):629-634. 被引量：3
4马青霞,李广水,孙梅.频繁模式挖掘进展及典型应用[J].计算机工程与应用,2011,47(15):138-144. 被引量：6
5李秦,张馨东,童甲佳,李宇博.基于频繁模式表的关联分类器构建算法研究[J].计算机应用与软件,2011,28(6):39-42.
6何波.基于FP-tree的快速挖掘全局最大频繁项集算法[J].计算机集成制造系统,2011,17(7):1547-1552. 被引量：2
7陈光鹏,杨育彬,高阳,商琳.一种基于MapReduce的频繁闭项集挖掘算法[J].模式识别与人工智能,2012,25(2):220-224. 被引量：18
8满毅,章炯民,徐晓锦.一种基于朴素贝叶斯算法的OLAP缓存机制[J].计算机工程与应用,2017,53(6):85-90. 被引量：5

同被引文献67

1黄海燕,刘欣.数据挖掘中的关联规则方法[J].软件导刊,2009,8(5):173-175. 被引量：1
2康剑斌,汪海山,贾惠波.基于磁带库的磁盘缓存策略[J].仪器仪表学报,2009,30(6):1281-1284. 被引量：3
3尹洋,刘振军,许鲁.一种基于磁盘介质的网络存储系统缓存[J].软件学报,2009,20(10):2752-2765. 被引量：4
4陈慧光,肖创柏,高允翔,高朝勤.一种基于取回代价的LFU图片缓存算法及在WAP浏览器应用[J].中国电子商情（通信市场）,2009(5):94-99. 被引量：1
5韩向春,田玉根.基于预测的Web缓存替换算法[J].计算机工程与设计,2010,31(1):110-113. 被引量：10
6张娜,武亮亮.Ameco使用健康管理系统提高机队管理水平[J].国际航空,2010(6):34-35. 被引量：1
7魏晓玲.MD5加密算法的研究及应用[J].信息技术,2010,34(7):145-147. 被引量：51
8王峰,雷葆华.Hadoop分布式文件系统的模型分析[J].电信科学,2010,26(12):95-99. 被引量：22
9李建国,袁平鹏.一种基于分布式开放资源管理服务的“云存储”(ppStore)方案研究[J].计算机应用与软件,2011,28(10):208-210. 被引量：5
10王涛,朱怡安,黄姝娟.基于改进LRU替换策略的共享Cache划分[J].微电子学与计算机,2012,29(1):80-83. 被引量：2

引证文献8

1刘君.基于Hadoop的海量小文件存储优化方法[J].厦门理工学院学报,2017,25(3):34-39. 被引量：1
2肖利群,杨开林.移动平台终端信息存储数据类型识别仿真[J].计算机仿真,2017,34(8):395-398. 被引量：3
3李玉涛,殷笑茹,马彬.气象云盘综合应用系统的设计与实现[J].计算机应用与软件,2018,35(9):38-43. 被引量：1
4王子炫,魏力,张育平.基于磁光虚拟存储系统的文件调度算法[J].计算机与现代化,2019(5):7-12. 被引量：1
5徐敏,胡聪,王萍,张翠翠,王鹏.基于软件定义存储的小文件性能优化研究[J].信息技术,2021,45(4):35-39. 被引量：1
6梁四香.浅析推荐系统的分类[J].科学技术创新,2021(32):66-68.
7杜科星,张小芳,张晓,赵晓南.基于频繁序列挖掘的文件系统缓存算法设计[J].计算机应用研究,2022,39(3):831-835. 被引量：2
8丁世来,陈克澎,葛智君,李浩波,舒宁.多源试验数据重构与融合存储技术研究[J].电子产品可靠性与环境试验,2022,40(1):11-15. 被引量：3

二级引证文献12

1徐歆冰.基于匹配算法的轨迹分布模式自适应识别仿真[J].计算机仿真,2019,36(11):410-413.
2李果,陈富汉,郭瑞鹏,黄容生.基于国密算法的智能终端安全芯片信息存储[J].电子设计工程,2020,28(7):55-58. 被引量：2
3李锐.基于机器学习的数据类型识别方法[J].信息与电脑,2021,33(16):150-153.
4胡琼.大数据环境中计算机网络安全存储研究[J].佳木斯大学学报（自然科学版）,2021,39(6):73-75.
5宋舰,邓文科,徐崖洲.基于微服务化的智能电视足迹模块运营系统设计与开发[J].电视技术,2022,46(4):69-72.
6秦栋华.基于HBase的分布式海量小型文件存储系统[J].数字通信世界,2023(4):74-75. 被引量：1
7冯刚,劳建,伍晓聪.面向高校教师的私有云存储系统设计与实现[J].无线互联科技,2023,20(9):62-65. 被引量：2
8华南,朱彦霞.基于fastNTsync算法的海量小文件同步优化方法研究[J].计算机时代,2023(10):17-21.
9曹芳芳,任慧敏,上官子粮,丁派克.面向装备试验数据的融合存储技术研究与应用[J].软件工程,2023,26(11):25-28. 被引量：1
10张家诚.基于BIRCH算法的多源数据融合存储技术研究[J].软件,2023,44(11):160-162.

1贾卫忠.用Cisco访问表建立防火墙的策略[J].淮海工学院学报（自然科学版）,2004,13(1):25-28.
2朱雪松.路由器常见访问表的配置及实例分析[J].网管员世界,2005(3):40-42.
3胡海璐,陈曙晖,苏金树.路由器访问表技术研究[J].计算机科学,2001,28(4):94-96. 被引量：13
4陈光忠.网络安全：Cisco路由器的访问表[J].电脑技术信息,2000(12):46-47.
5赵臻,吴宁,宋盼盼.基于多特征融合的句子语义相似度计算[J].计算机工程,2012,38(1):171-173. 被引量：18
6刘新龙.利用Cisco路由器访问表提高网络安全[J].漯河职业技术学院学报,2009,8(2):65-66.
7陈琳,仝丽娟,何花.基于访问表的网络安全控制策略研究[J].计算机工程与应用,2003,39(10):174-176. 被引量：7
8刘海韬,黄家林.用CISCO路由器识别和预防DoS攻击[J].计算机工程,2000,26(S1):235-239. 被引量：2
9吴高标,胡永良.基于Access-list的网络安全技术研究[J].台州学院学报,2003,25(3):26-29.
10李兆东.面向网络安全监控的数据流研究[J].中国电子商务,2012(21):81-81.

华东理工大学学报（自然科学版）

2016年第5期

浏览历史

内容加载中请稍等...

基于关联规则挖掘的分布式小文件存储方法被引量：8

参考文献2

二级参考文献10

共引文献8

同被引文献67

引证文献8

二级引证文献12

相关作者

相关机构

相关主题

浏览历史

基于关联规则挖掘的分布式小文件存储方法 被引量：8

参考文献2

二级参考文献10

共引文献8

同被引文献67

引证文献8

二级引证文献12

相关作者

相关机构

相关主题

浏览历史

基于关联规则挖掘的分布式小文件存储方法被引量：8