期刊文献+
共找到153篇文章
< 1 2 8 >
每页显示 20 50 100
基于改进SVD++算法和K-means++算法的小文件合并方案
1
作者 张广龙 尹铁源 《长江信息通信》 2024年第1期55-60,共6页
文章提出了一种基于改进SVD++算法和K-means++算法的小文件合并方案。通过引入自适应学习率函数和基于并行分组的SVD++算法,优化了小文件的合并过程,以提高Hadoop存储小文件的效率。同时,利用K-means++算法对合并后的文件进行聚类,优化... 文章提出了一种基于改进SVD++算法和K-means++算法的小文件合并方案。通过引入自适应学习率函数和基于并行分组的SVD++算法,优化了小文件的合并过程,以提高Hadoop存储小文件的效率。同时,利用K-means++算法对合并后的文件进行聚类,优化了数据存储方式,降低了存储空间的浪费。在Hadoop平台上进行的实验表明,该方案在保持数据处理准确性和稳定性的同时,显著提升了Hadoop存储与处理小文件的性能。 展开更多
关键词 HADOOP 小文件合并 SVD++算法 K-means++算法
下载PDF
基于HDFS的云存储小文件合并优化方法研究 被引量:2
2
作者 朱莉 《船舶职业教育》 2023年第2期62-65,共4页
随着云计算技术的飞速发展,海量小文件的云存储效率面临巨大的挑战。将基于HDFS的小文件合并存储成大文件的方法可以优化文件存取策略,结合Hadoop通用解决方案提出一种优化存储空间的小文件合并存储方法,在原有的用户层和存储层之间加... 随着云计算技术的飞速发展,海量小文件的云存储效率面临巨大的挑战。将基于HDFS的小文件合并存储成大文件的方法可以优化文件存取策略,结合Hadoop通用解决方案提出一种优化存储空间的小文件合并存储方法,在原有的用户层和存储层之间加入处理层,包括文件大小判定、小文件合并及索引文件生成等分级处理模块,设计文件读取和写入流程,提高数据的存储效率,减少内存开销,整体提升HDFS文件存储系统访问性能,保障云存储的稳定性和高效性。 展开更多
关键词 HDFS 小文件 合并存储
下载PDF
多模态医疗数据中海量小文件存储优化方法 被引量:6
3
作者 曾梦 邹北骥 +2 位作者 张文生 杨雪冰 朱承璋 《软件学报》 EI CSCD 北大核心 2023年第3期1451-1469,共19页
Hadoop分布式文件系统(HDFS)通常用于大文件的存储和管理,当进行海量小文件的存储和计算时,会消耗大量的NameNode内存和访问时间,成为制约HDFS性能的一个重要因素.针对多模态医疗数据中海量小文件问题,提出一种基于双层哈希编码和HBase... Hadoop分布式文件系统(HDFS)通常用于大文件的存储和管理,当进行海量小文件的存储和计算时,会消耗大量的NameNode内存和访问时间,成为制约HDFS性能的一个重要因素.针对多模态医疗数据中海量小文件问题,提出一种基于双层哈希编码和HBase的海量小文件存储优化方法.在小文件合并时,使用可扩展哈希函数构建索引文件存储桶,使索引文件可以根据需要进行动态扩展,实现文件追加功能.在每个存储桶中,使用MWHC哈希函数存储每个文件索引信息在索引文件中的位置,当访问文件时,无须读取所有文件的索引信息,只需读取相应存储桶中的索引信息即可,从而能够在O(1)的时间复杂度内读取文件,提高文件查找效率.为了满足多模态医疗数据的存储需求,使用HBase存储文件索引信息,并设置标识列用于标识不同模态的医疗数据,便于对不同模态数据的存储管理,并提高文件的读取速度.为了进一步优化存储性能,建立了基于LRU的元数据预取机制,并采用LZ4压缩算法对合并文件进行压缩存储.通过对比文件存取性能、NameNode内存使用率,实验结果表明,所提出的算法与原始HDFS、HAR、MapFile、TypeStorage以及HPF小文件合并方法相比,文件读取时间更短,能够提高HDFS在处理多模态医疗数据中海量小文件时的整体性能. 展开更多
关键词 多模态医疗数据 HDFS HBASE 小文件 存储性能优化
下载PDF
国产化环境下的海量小文件数据分布式存储技术 被引量:2
4
作者 梁懿 刘迪 +2 位作者 陈又咏 董晓祺 许志毅 《计算技术与自动化》 2023年第3期141-146,共6页
为缓解单一存储设备存储海量小文件的压力,提出了一种国产化环境下的海量小文件数据分布式存储技术。利用聚类算法实现海量小文件合并。以达到最大均衡度为目标,在多项约束条件下利用人工鱼群算法求解分布式存储方案。按照分布式存储方... 为缓解单一存储设备存储海量小文件的压力,提出了一种国产化环境下的海量小文件数据分布式存储技术。利用聚类算法实现海量小文件合并。以达到最大均衡度为目标,在多项约束条件下利用人工鱼群算法求解分布式存储方案。按照分布式存储方案将海量小文件数据迁移到存储节点及其存储设备上,完成海量小文件数据分布式存储。结果表明:14个存储节点和28个存储设备的内存占用较为均衡,内存资源利用率较高。将小文件样本迁移并存储到节点的过程中,分布式存储均衡度整体波动均超过设定的阈值1.0,说明分布式存储均衡度较好,证明了所提存储技术的有效性。 展开更多
关键词 国产化环境 海量小文件数据 数据合并 数据迁移 分布式存储技术
下载PDF
一种性能优化的小文件存储访问策略的研究 被引量:20
5
作者 赵跃龙 谢晓玲 +2 位作者 蔡咏才 王国华 刘霖 《计算机研究与发展》 EI CSCD 北大核心 2012年第7期1579-1586,共8页
在分布式文件系统中,小文件的管理一般存在访问性能较差和存储空间浪费较大等缺点.为了解决这些问题,提出了一种性能优化的小文件存储访问(SFSA)策略.SFSA将逻辑上连续的数据尽可能存储在物理磁盘的连续空间,使用Cache充当元数据服务器... 在分布式文件系统中,小文件的管理一般存在访问性能较差和存储空间浪费较大等缺点.为了解决这些问题,提出了一种性能优化的小文件存储访问(SFSA)策略.SFSA将逻辑上连续的数据尽可能存储在物理磁盘的连续空间,使用Cache充当元数据服务器的角色并通过简化的文件信息节点提高Cache利用率,提高了小文件访问性能;写数据时聚合更新数据及其文件夹域中的相关数据为一次I/O请求写入,减少了文件碎片数量,提高了存储空间利用率;文件传输时利用局部性原理,提前发送批量的高访问率的小文件,降低了建立网络连接开销,提升了文件传输性能.理论分析和实验证明,SFSA的设计思想和方法能有效地优化小文件的存储访问性能. 展开更多
关键词 分布式文件系统 小文件存储 小文件存储访问 优化 访问性能
下载PDF
基于fastNTsync算法的海量小文件同步优化方法研究
6
作者 华南 朱彦霞 《计算机时代》 2023年第10期17-21,共5页
为解决海量小文件同步过程中的性能瓶颈,提出一种基于fastNTsync优化方法。综合运用NTFS分区表快照技术、NTFS$MFT分析技术和文件打包分区组合拷贝技术,来减少数据包往返时间浪费,提升带宽使用率,提高数据同步速度和效率。实验结果表明... 为解决海量小文件同步过程中的性能瓶颈,提出一种基于fastNTsync优化方法。综合运用NTFS分区表快照技术、NTFS$MFT分析技术和文件打包分区组合拷贝技术,来减少数据包往返时间浪费,提升带宽使用率,提高数据同步速度和效率。实验结果表明,该方法在处理大量小文件时具有显著优势,能提高同步速度和效率,并减少数据传输量和时间浪费。该基于fastNTsync算法的海量小文件同步优化方法对相关领域的研究及应用具有参考价值。 展开更多
关键词 海量小文件 数据同步 数据传输 优化方法
下载PDF
HDFS中高效存储小文件的方法 被引量:10
7
作者 尹颖 林庆 林涵阳 《计算机工程与设计》 北大核心 2015年第2期406-409,共4页
为改善应用Hadoop分布式文件系统存储大量小文件时效率低下的问题,将NameNode职责分离,使用单独的NFS服务器同步存储元数据信息,以降低Client数据请求压力,提供大吞吐量数据访问并改善访问延迟;设计文件与数据块的对应模式,允许在同一... 为改善应用Hadoop分布式文件系统存储大量小文件时效率低下的问题,将NameNode职责分离,使用单独的NFS服务器同步存储元数据信息,以降低Client数据请求压力,提供大吞吐量数据访问并改善访问延迟;设计文件与数据块的对应模式,允许在同一块中存储多个小文件,并对系统加以实现,为海量小文件的存储提供了一个有效的解决方案。实验结果表明,该机制可以在数据迅速增长的背景下实现海量小文件的高效存取。 展开更多
关键词 HADOOP分布式文件系统 海量小文件 性能优化 职责分离 合并小文件
下载PDF
一种提高云存储中小文件存储效率的方案 被引量:43
8
作者 余思 桂小林 +1 位作者 黄汝维 庄威 《西安交通大学学报》 EI CAS CSCD 北大核心 2011年第6期59-63,共5页
针对基于HDFS(Hadoop distribated file system)的云存储系统中小文件存储效率不高的问题,采用序列文件技术设计了一个云存储系统中小文件的处理方案.该方案利用多维属性决策理论,综合读文件时间、合并文件时间及节省内存空间大小等指标... 针对基于HDFS(Hadoop distribated file system)的云存储系统中小文件存储效率不高的问题,采用序列文件技术设计了一个云存储系统中小文件的处理方案.该方案利用多维属性决策理论,综合读文件时间、合并文件时间及节省内存空间大小等指标,得出合并小文件的最优方式,能够在消耗的时间和节省的内存空间之间取得平衡;设计基于层次分析法的系统负载预测算法对系统负载进行预测,从而实现负载均衡的目的;利用序列文件技术对小文件进行合并.实验结果表明,在不影响存储系统运行状况的基础上,该方案提高了小文件的存储效率. 展开更多
关键词 云存储 小文件 存储效率 负载预测
下载PDF
海量教育资源中小文件的存储研究 被引量:16
9
作者 游小容 曹晟 《计算机科学》 CSCD 北大核心 2015年第10期76-80,共5页
Hadoop作为成熟的分布式云平台,能提供可靠高效的存储服务,常用来解决大文件的存储问题,但在处理海量小文件时效率显著降低。提出了基于Hadoop的海量教育资源中小文件的存储优化方案,即利用教育资源小文件间的关联关系,将小文件合并成... Hadoop作为成熟的分布式云平台,能提供可靠高效的存储服务,常用来解决大文件的存储问题,但在处理海量小文件时效率显著降低。提出了基于Hadoop的海量教育资源中小文件的存储优化方案,即利用教育资源小文件间的关联关系,将小文件合并成大文件以减少文件数量,并用索引机制访问小文件及元数据缓存和关联小文件预取机制来提高文件的读取效率。实验证明,以上方法提高了Hadoop文件系统对小文件的存取效率。 展开更多
关键词 海量小文件 小文件合并 预取缓存
下载PDF
一种Hadoop小文件存储和读取的方法 被引量:39
10
作者 张春明 芮建武 何婷婷 《计算机应用与软件》 CSCD 北大核心 2012年第11期95-100,共6页
HDFS(Hadoop Distributed File System)凭借其高容错、可伸缩和廉价存储的优点,在当前面向云计算的应用场景中得到了广泛应用。然而,HDFS设计的初衷是存储超大文件,对于海量小文件,由于NameNode内存开销等问题,其存储和读取性能并不理... HDFS(Hadoop Distributed File System)凭借其高容错、可伸缩和廉价存储的优点,在当前面向云计算的应用场景中得到了广泛应用。然而,HDFS设计的初衷是存储超大文件,对于海量小文件,由于NameNode内存开销等问题,其存储和读取性能并不理想。提出一种基于小文件合并的方法 HIFM(Hierarchy Index File Merging),综合考虑小文件之间的相关性和数据的目录结构,来辅助将小文件合并成大文件,并生成分层索引。采用集中存储和分布式存储相结合的方式管理索引文件,并实现索引文件预加载。此外,HIFM采用数据预取的机制,提高顺序访问小文件的效率。实验结果表明,HIFM方法能够有效提高小文件存储和读取效率,显著降低NameNode和DataNode的内存开销,适合应用在有一定目录结构的海量小文件存储的应用场合。 展开更多
关键词 HDFS 小文件 HIFM 分层索引 索引预加载 数据预取
下载PDF
面向海量小文件的分布式存储系统设计与实现 被引量:13
11
作者 李洪奇 朱丽萍 +1 位作者 孙国玉 王露 《计算机工程与设计》 北大核心 2016年第1期86-92,共7页
针对当前大数据环境下急速增长的小文件的保存和管理问题,提出一种基于分布式海量小文件存储系统的设计和实现方案。采用IO复用和异步调用技术开发分布式系统,保证良好的并发性能和扩展性,使用Redis系统提高元数据存储和检索效率,采用Go... 针对当前大数据环境下急速增长的小文件的保存和管理问题,提出一种基于分布式海量小文件存储系统的设计和实现方案。采用IO复用和异步调用技术开发分布式系统,保证良好的并发性能和扩展性,使用Redis系统提高元数据存储和检索效率,采用Google Protobuf设计一套消息传递和分发机制,通过块存储方案提高大量小文件在单机存储系统上的IO效率并降低磁盘碎片化。实验结果表明,该系统在并发性、吞吐率测试上都有良好表现,是一个较为稳定高效的海量小文件分布式存储系统。 展开更多
关键词 分布式存储 小文件 海量数据 Protobuf 并发性
下载PDF
基于对等网络的面向小文件的云存储系统 被引量:9
12
作者 张启飞 张尉东 +2 位作者 李文娟 潘雪增 沈雁 《浙江大学学报(工学版)》 EI CAS CSCD 北大核心 2013年第1期8-14,93,共8页
针对目前主从结构的云存储系统在存储小文件延迟过大的问题,提出基于对等网络(P2P)的分布式云存储系统.通过改进Chord路由算法提高了资源的查询效率,在系统中引入中心路由节点,中心路由节点上存储系统中所有节点的路由和状态信息,使资... 针对目前主从结构的云存储系统在存储小文件延迟过大的问题,提出基于对等网络(P2P)的分布式云存储系统.通过改进Chord路由算法提高了资源的查询效率,在系统中引入中心路由节点,中心路由节点上存储系统中所有节点的路由和状态信息,使资源查询时间复杂度缩短到O(l),客户端预取中心路由节点数据,从而减少数据操作时的时间开销;系统通过备份的策略来保证数据的可靠性,实现中数据备份数为3;系统实现了文件存储、读取、删除及列目录等基本操作功能.实验结果表明,与Hadoop HDFS文件系统相比,该系统的小文件操作时间减少了一个数量级. 展开更多
关键词 对等网络(P2P) 小文件 分布式哈希表(DHT) CHORD路由算法 云存储系统
下载PDF
海量小文件存储文件系统研究综述 被引量:20
13
作者 王铃惠 李小勇 张轶彬 《计算机应用与软件》 CSCD 北大核心 2012年第8期106-109,共4页
随着互联网的发展,存储的小文件数量也呈几何级的增长。传统文件系统已不能满足存储性能的需求,对于小文件存储,尤其是海量小文件存储的优化已变得越来越重要。首先提出对小文件存储的系统进行优化的必要性,然后对小文件存储中存在的问... 随着互联网的发展,存储的小文件数量也呈几何级的增长。传统文件系统已不能满足存储性能的需求,对于小文件存储,尤其是海量小文件存储的优化已变得越来越重要。首先提出对小文件存储的系统进行优化的必要性,然后对小文件存储中存在的问题进行分析并阐述优化的方式,并介绍三种具有代表性的适合小文件存储的文件系统,最后总结归纳。 展开更多
关键词 小文件 海量存储 元数据操作 磁盘访问效率 C-FFS Reiser FS FACEBOOK
下载PDF
基于NoSQL的海量航空物流小文件分布式多级存储方法 被引量:8
14
作者 丁建立 郑峰弓 +2 位作者 李永华 罗云生 曹卫东 《计算机应用研究》 CSCD 北大核心 2017年第5期1433-1436,1441,共5页
为了解决航空物流领域海量小文件存储效率和访问效率不高的问题,提出一种基于NoSQL的海量小文件分布式多级存储方法。充分考虑到数据的时效性、本地性、操作的并发性以及文件之间的相关性,先根据相关性将文件合并,然后采用分布式多级存... 为了解决航空物流领域海量小文件存储效率和访问效率不高的问题,提出一种基于NoSQL的海量小文件分布式多级存储方法。充分考虑到数据的时效性、本地性、操作的并发性以及文件之间的相关性,先根据相关性将文件合并,然后采用分布式多级存储,使用内存式Redis数据库做缓存,HDFS做数据的持久化存储,其过程采用预取机制。实验结果表明,该方法有效提高了小文件的存取效率和磁盘的利用率,显著地降低了网络的带宽占用和集群NameNode的内存消耗,适合解决航空领域海量小文件存储问题。 展开更多
关键词 小文件 REDIS HDFS 多级存储 预取机制
下载PDF
FlatLFS:一种面向海量小文件处理优化的轻量级文件系统 被引量:9
15
作者 付松龄 廖湘科 +2 位作者 黄辰林 王蕾 李姗姗 《国防科技大学学报》 EI CAS CSCD 北大核心 2013年第2期120-126,共7页
海量小文件的高效存储和访问是当前分布式文件系统面临的主要挑战之一。以GFS和HDFS为代表的分布式文件系统大多面向海量大文件的高效存储和访问设计,缺乏小文件处理的针对性优化,导致访问海量小文件时效率低下。针对分布式文件系统中... 海量小文件的高效存储和访问是当前分布式文件系统面临的主要挑战之一。以GFS和HDFS为代表的分布式文件系统大多面向海量大文件的高效存储和访问设计,缺乏小文件处理的针对性优化,导致访问海量小文件时效率低下。针对分布式文件系统中海量小文件访问时的数据服务器优化问题,提出了一种采用扁平式数据存储方法的轻量级文件系统FlatLFS,取代传统文件系统对上层分布式文件系统提供数据存储和访问支持,提高了数据服务器处理小数据块时的I/O性能,从而提升了整个分布式文件系统的性能。实验表明,当数据块大小设定为1M时,FlatLFS的随机读性能分别比ext3、ext4、reiserfs高135%、112%和122%。 展开更多
关键词 分布式文件系统 海量小文件 ext文件系统 云计算
下载PDF
基于Hadoop的小文件存储优化方案 被引量:12
16
作者 李孟 曹晟 秦志光 《电子科技大学学报》 EI CAS CSCD 北大核心 2016年第1期141-145,共5页
Hadoop作为成熟的分布式云平台,对较大的文件提供了可靠高效的存储服务,但在处理海量小文件时效率显著降低。该文提出了基于Hadoop的海量教育资源小文件的存储优化方案,利用教育资源小文件间的关联关系,将小文件进行合并成大文件以减少... Hadoop作为成熟的分布式云平台,对较大的文件提供了可靠高效的存储服务,但在处理海量小文件时效率显著降低。该文提出了基于Hadoop的海量教育资源小文件的存储优化方案,利用教育资源小文件间的关联关系,将小文件进行合并成大文件以减少文件数量,并索引机制访问小文件、元数据缓存和关联小文件预取机制来提高文件的读取效率。实验结果表明,该方法提高了Hadoop文件系统存储小文件的存取效率。 展开更多
关键词 HADOOP 索引机制 关联关系 小文件存储
下载PDF
面向Hadoop分布式文件系统的小文件存取优化方法 被引量:12
17
作者 李铁 燕彩蓉 +1 位作者 黄永锋 宋亚龙 《计算机应用》 CSCD 北大核心 2014年第11期3091-3095,3099,共6页
为提高Hadoop分布式文件系统(HDFS)的小文件处理效率,提出了一种面向HDFS的智能小文件存取优化方法——SmartFS。SmartFS通过分析小文件访问日志,获取用户访问行为,建立文件关联概率模型,并根据基于文件关联关系的合并算法将小文件组装... 为提高Hadoop分布式文件系统(HDFS)的小文件处理效率,提出了一种面向HDFS的智能小文件存取优化方法——SmartFS。SmartFS通过分析小文件访问日志,获取用户访问行为,建立文件关联概率模型,并根据基于文件关联关系的合并算法将小文件组装成大文件之后存至HDFS;当从HDFS获取文件时,根据基于文件关联关系的预取算法来提高文件访问效率,并提出基于预取的缓存替换算法来管理缓存空间,从而提高文件的命中率。实验结果表明,SmartFS有效减少了HDFS中NameNode的元数据空间,减少了用户与HDFS的交互次数,提高了小文件的存储效率和访问速度。 展开更多
关键词 HADOOP分布式文件系统 小文件 文件关联 预取 缓存
下载PDF
HDFS下海量小文件高效存储与索引方法 被引量:5
18
作者 肖玉泽 张利军 +2 位作者 潘巍 张小芳 李战怀 《小型微型计算机系统》 CSCD 北大核心 2015年第10期2218-2223,共6页
分布式文件系统HDFS被用来存储大文件,若在其中存储海量小文件将会严重消耗Name Node内存,影响系统性能,同时小文件也不利于使用MapReduce框架进行并行处理和分析.另外,小文件附带的多维元信息也需要以一种合理的方式进行存储和索引以... 分布式文件系统HDFS被用来存储大文件,若在其中存储海量小文件将会严重消耗Name Node内存,影响系统性能,同时小文件也不利于使用MapReduce框架进行并行处理和分析.另外,小文件附带的多维元信息也需要以一种合理的方式进行存储和索引以便于查询.本文针对以上问题,提出一种基于多维列索引的小文件管理方案,支持文件的并发上传、下载及删除操作,并在多个查询维度上提供文件的自由检索.本文提出的小文件合并方案能够明显减少HDFS上的文件数量,经过实验对比,在小文件元信息的查询效率方面,本文提出的多维索引方案优于HBase,同时保证了文件传输的吞吐量. 展开更多
关键词 HDFS 海量小文件 多维列索引 文件信息查询
下载PDF
曙光星云分布式文件系统:海量小文件存取 被引量:9
19
作者 马灿 孟丹 熊劲 《小型微型计算机系统》 CSCD 北大核心 2012年第7期1481-1488,共8页
随着互联网应用的发展和云计算的兴起,在线图片、音频、视频以及微博等服务逐渐广泛发展,这些应用展示了与传统应用截然不同的数据访问和存储模式.数据中心内每秒钟都有大量较小文件的生成、分析和返回,这些应用对高并发海量文件的高吞... 随着互联网应用的发展和云计算的兴起,在线图片、音频、视频以及微博等服务逐渐广泛发展,这些应用展示了与传统应用截然不同的数据访问和存储模式.数据中心内每秒钟都有大量较小文件的生成、分析和返回,这些应用对高并发海量文件的高吞吐、低延迟读写提出了新的挑战.提出基于分布式表存储的全新的分布式文件系统HVFS来管理数以十亿计的文件,并同时支持高吞吐和低延迟的文件访问.HVFS通过改进分布式可扩展哈希来管理元数据、日志结构的格式和列存储来利用时空局部性.本文描述了HVFS的设计和实现并进行了中等规模的实验.实验显示HVFS的表存储结构能够线性的扩展,并在82个结点上提供超过240,000次/秒、100,000次/秒的数据(<1KB)写和读;基于FUSE的实现在32个节点上提供超过180,000个/秒的文件创建速度. 展开更多
关键词 分布式文件系统 全局名字空间 海量文件 小文件访问 表存储
下载PDF
云环境下海量小文件存储技术研究综述 被引量:16
20
作者 周国安 李强 +1 位作者 陈新 胡旭 《信息网络安全》 2014年第6期11-17,共7页
随着物联网、云计算和大数据技术的飞速发展,越来越多的应用正向数据密集型转变,同时小文件数量正以指数级增长,传统的文件系统已经不能满足海量小文件存储需求,针对小文件的存储技术越来越受到业界重视。文章首先介绍小文件存储带来的... 随着物联网、云计算和大数据技术的飞速发展,越来越多的应用正向数据密集型转变,同时小文件数量正以指数级增长,传统的文件系统已经不能满足海量小文件存储需求,针对小文件的存储技术越来越受到业界重视。文章首先介绍小文件存储带来的问题并分析了原因,然后介绍了小文件存储优化技术,并介绍了三种典型的小文件存储系统,最后对小文件存储问题进行了总结与展望。 展开更多
关键词 大数据 小文件 存储系统 存储优化
下载PDF
上一页 1 2 8 下一页 到第
使用帮助 返回顶部