期刊文献+
共找到227篇文章
< 1 2 12 >
每页显示 20 50 100
大数据Hadoop集群下Sqoop数据传输技术研究
1
作者 周少珂 郭璇 +1 位作者 张振平 付媛冰 《河南科技》 2024年第6期25-28,共4页
【目的】Hadoop系统是大数据分布式集群系统,其开源的生态圈中有众多功能组件,通过在大数据Hadoop集群系统上部署Sqoop组件,将本地关系型Mysql数据库中的数据和Hive数据仓库中存储的数据进行快速导入导出,进一步研究数据传输性能。【方... 【目的】Hadoop系统是大数据分布式集群系统,其开源的生态圈中有众多功能组件,通过在大数据Hadoop集群系统上部署Sqoop组件,将本地关系型Mysql数据库中的数据和Hive数据仓库中存储的数据进行快速导入导出,进一步研究数据传输性能。【方法】首先在企业服务器上部署配置Hadoop分布式集群系统,其次在该集群上部署Sqoop组件并测试与Mysql数据库和Hive数据仓库的连通性,最后使用Sqoop技术测试本地Mysql数据库和Hive数据仓库之间的导入和导出。【结果】通过Sqoop技术能够更加便捷快速地从本地Mysql数据库上传到Hadoop集群系统,与传统方式下先将本地Mysql数据库中数据导出TXT文档格式后再使用Hive数据仓库的Load数据批量加载功能相比,在时间和效率方面大为提升。【结论】验证了Sqoop组件在Hadoop集群中部署运行的正确性,为大数据技术学习者提供一定程度的参考借鉴。 展开更多
关键词 大数据 hadoop 分布式集群 Sqoop
下载PDF
基于改进Hadoop挖掘框架的电力通信异常数据提取研究
2
作者 姚宬丞 蒋何 《通信电源技术》 2024年第20期44-46,共3页
电力通信系统异常数据往往隐藏在海量数据当中,导致Hadoop挖掘框架在异常数据提取中的覆盖度较低。因此,提出基于改进Hadoop挖掘框架的电力通信异常数据提取研究。通过预处理策略如标准化、滤波及复数信号归一化提高数据质量。引入本地... 电力通信系统异常数据往往隐藏在海量数据当中,导致Hadoop挖掘框架在异常数据提取中的覆盖度较低。因此,提出基于改进Hadoop挖掘框架的电力通信异常数据提取研究。通过预处理策略如标准化、滤波及复数信号归一化提高数据质量。引入本地数据聚合优化组件优化数据传输,采用多NameNode Hadoop架构解决单节点瓶颈问题,并结合K-Means聚类算法进行数据挖掘。通过特征评估与筛选和并行聚类分析,有效识别出关键的异常数据特征。实验结果显示,该方法能显著提高异常数据的提取覆盖度。 展开更多
关键词 改进hadoop挖掘框架 电力通信系统 异常数据 特征提取 聚类分析
下载PDF
Hadoop平台下基于优化X-means算法的大数据聚类研究 被引量:1
3
作者 张鹏飞 江岸 熊念 《计算机测量与控制》 2023年第12期284-289,309,共7页
针对现有聚类方法对数据处理规模的局限性,解决数据聚类效果差的问题,在Hadoop平台的支持下提出基于优化X-means算法的大数据聚类方法;利用Hadoop平台架构与函数采集大数据样本,通过缺失补偿、噪声滤波、归一化等步骤,实现初始样本数据... 针对现有聚类方法对数据处理规模的局限性,解决数据聚类效果差的问题,在Hadoop平台的支持下提出基于优化X-means算法的大数据聚类方法;利用Hadoop平台架构与函数采集大数据样本,通过缺失补偿、噪声滤波、归一化等步骤,实现初始样本数据的预处理;选择大数据聚类中心,分别提取聚类中心数据与其他所有数据样本的特征,计算数据样本与聚类中心之间的特征相似度;以相似度度量结果为聚类判定条件,利用优化X-means算法确定数据所属类型,最终实现大数据的聚类处理工作;通过聚类效果测试实验得出结论:在有、无两种实验条件下,与传统聚类方法相比,优化设计方法的查全率和查准率分别提升了4.75%和4.5%,同时优化聚类方法得出数据具有更高利用率。 展开更多
关键词 hadoop平台 优化X-means算法 大数据聚类
下载PDF
基于Hadoop的机群系统综合实验项目开发
4
作者 马立平 张海燕 《计算机时代》 2023年第3期58-62,共5页
为培养学生分析、设计和开发计算机体系结构中机群系统的能力,设计了一个基于Hadoop的大数据处理综合性实验项目。该项目由验证性实验和创新性实验两部分构成,验证性部分由机群系统的部署、HDFS分布式存储、HDFS编程实践和MapReduce分... 为培养学生分析、设计和开发计算机体系结构中机群系统的能力,设计了一个基于Hadoop的大数据处理综合性实验项目。该项目由验证性实验和创新性实验两部分构成,验证性部分由机群系统的部署、HDFS分布式存储、HDFS编程实践和MapReduce分布式计算模块组成;创新性部分可以根据大数据处理技术自由发挥实现。该实验项目的创新性、设计性、应用性和完整性都很强,能激发学生浓厚的实验兴趣、拓展学生知识面。 展开更多
关键词 计算机体系结构 实验项目 hadoop 机群系统
下载PDF
Hadoop集群服务监控预警系统的实现
5
作者 朱海伟 《工业控制计算机》 2023年第3期54-55,共2页
介绍了一种用于Hadoop集群自动化监控、预警系统的实现。通过获取集群节点的内存、CPU、磁盘信息统计节点系统信息,同时统计集群各类Hadoop基础服务的基础信息,如服务的内存使用、存活状态等。系统对收集的信息做异常信息处理与告警,自... 介绍了一种用于Hadoop集群自动化监控、预警系统的实现。通过获取集群节点的内存、CPU、磁盘信息统计节点系统信息,同时统计集群各类Hadoop基础服务的基础信息,如服务的内存使用、存活状态等。系统对收集的信息做异常信息处理与告警,自动推送给系统运维,极大提高了运维的响应速度,缩短问题定位、解决周期。 展开更多
关键词 hadoop集群 监控 自动告警
下载PDF
基于hadoop的舰船通信网络数据并行处理方法
6
作者 赵健 《舰船科学技术》 北大核心 2023年第7期158-161,共4页
舰船通信网络数据量的显著提升对数据处理性能提出更高要求,为提升数据处理效率,研究基于hadoop的舰船通信网络数据并行处理方法。设计由数据应用层、数据处理层和数据存储层共同组成的基于hadoop的舰船通信网络数据并行处理架构:数据... 舰船通信网络数据量的显著提升对数据处理性能提出更高要求,为提升数据处理效率,研究基于hadoop的舰船通信网络数据并行处理方法。设计由数据应用层、数据处理层和数据存储层共同组成的基于hadoop的舰船通信网络数据并行处理架构:数据应用层作为用户与数据处理架构的交互工具,将所采集的数据上传至架构内;数据处理层运行MapReduce程序实现数据存储、解析与聚类等并行化处理;数据存储层采用HBase与HDFs等多种不同的存储方式存储舰船通信网络数据。实验结果显示,该方法可实现准确的舰船通信网络数据聚类,大幅节省数据处理时间,在数据量较大的条件下具备较好的数据处理加速比。 展开更多
关键词 hadoop集群 舰船通信网络 数据并行处理 K-MEANS算法 MAPREDUCE 函数设计
下载PDF
基于Linux的Hadoop数据集群平台教学实践 被引量:1
7
作者 杜啸楠 银莉 《集成电路应用》 2023年第7期416-417,共2页
阐述Hadoop系统中的MapReduce框架已经无法完全满足数据处理的需求,而Spark在数据处理方面更加高效。Spark的运行需要依托于分布式计算平台,因此Hadoop平台中的HDFS分布式文件系统,以及集群资源管理器Yarn,为其运行提供了不可或缺的基... 阐述Hadoop系统中的MapReduce框架已经无法完全满足数据处理的需求,而Spark在数据处理方面更加高效。Spark的运行需要依托于分布式计算平台,因此Hadoop平台中的HDFS分布式文件系统,以及集群资源管理器Yarn,为其运行提供了不可或缺的基础。探讨Hadoop大数据平台的创建与课程教学实践相融合,从而使大数据平台的应用更加完善。 展开更多
关键词 计算机系统 大数据技术 hadoop MAPREDUCE 分布式 集群资源管理
下载PDF
基于CentOS 7的Hadoop集群配置的研究与实现
8
作者 刘克 王艳 +1 位作者 冯思宇 彭丽颖 《信息记录材料》 2023年第2期19-21,共3页
随着计算机信息技术的发展,云计算与大数据技术的出现成为信息产业的重大变革。云计算、物联网、移动互联网的迅速发展催生大数据时代的到来,Hadoop分布式集群的成功搭建为大数据工程研究提供了基础环境。结合虚拟机,通过基于Cent OS 7... 随着计算机信息技术的发展,云计算与大数据技术的出现成为信息产业的重大变革。云计算、物联网、移动互联网的迅速发展催生大数据时代的到来,Hadoop分布式集群的成功搭建为大数据工程研究提供了基础环境。结合虚拟机,通过基于Cent OS 7的系统安装、网络配置、远程链接、集群搭建、免密登录、时间同步等过程的研究和实现,让Hadoop集群的配置更加方便、快捷。 展开更多
关键词 大数据技术 hadoop 集群配置 Cent OS 7
下载PDF
基于Hadoop平台的岗位需求分析——以计算机软件行业为例
9
作者 田圻 杨佳骏 覃天 《软件》 2023年第8期153-155,共3页
近年来,随着高校毕业生人数不断上升,毕业生就业竞争压力与日俱增。本文以计算机软件行业为例,设计并实现了一种基于大数据技术的行业招聘信息分析系统。利用Scrapy爬虫框架采集网络招聘数据,在Hadoop平台上,使用MapReduce对空值、重复... 近年来,随着高校毕业生人数不断上升,毕业生就业竞争压力与日俱增。本文以计算机软件行业为例,设计并实现了一种基于大数据技术的行业招聘信息分析系统。利用Scrapy爬虫框架采集网络招聘数据,在Hadoop平台上,使用MapReduce对空值、重复值、异常值等异常数据进行数据预处理后,储存于HDFS分布式文件系统。之后选取行业、职位、地域等多个维度对行业招聘需求进行分析,挖掘出针对高职院校人才招聘的精准需求,并使用Java Web进行数据可视化展示。实践表明,计算机软件行业在职位、地域上存在较大差别,该系统能够为大学生在职业生涯规划上提供更有效的决策。 展开更多
关键词 网络招聘 高职就业 Scrapy爬虫 hadoop分布式集群 数据分析 数据可视化
下载PDF
基于Docker技术的Hadoop集群实验环境设计与实现
10
作者 许新刚 吕国庆 王梦婷 《信息与电脑》 2023年第19期38-42,131,共6页
针对大数据教学实训环境存在成本高、维护难的问题,提出基于Docker技术在个人计算机上搭建Hadoop集群实验环境的方案。该方案在不改动计算机原有软件环境的情况下,在Windows操作系统中创建一台虚拟机,并在该台虚拟机内创建3个Docker容... 针对大数据教学实训环境存在成本高、维护难的问题,提出基于Docker技术在个人计算机上搭建Hadoop集群实验环境的方案。该方案在不改动计算机原有软件环境的情况下,在Windows操作系统中创建一台虚拟机,并在该台虚拟机内创建3个Docker容器搭建完全分布式的Hadoop集群实验环境。该方案简单、易实现,能够为教师和学生的大数据实践提供基础平台环境。 展开更多
关键词 Docker容器 大数据技术 hadoop集群 分布式环境
下载PDF
基于改进Noekeon算法的数据混合加密方案设计
11
作者 李媛媛 《电子设计工程》 2024年第21期23-27,共5页
针对传统医疗数据信息加密算法存在的安全性差、运行效率低以及缺乏系统性的缺点,文中基于改进Noekeon算法提出了一种医疗数据混合加密方案。该方案对于原Noekeon算法密钥长度短且需要耗费大量算力的问题,把改进Logistic混沌序列和切比... 针对传统医疗数据信息加密算法存在的安全性差、运行效率低以及缺乏系统性的缺点,文中基于改进Noekeon算法提出了一种医疗数据混合加密方案。该方案对于原Noekeon算法密钥长度短且需要耗费大量算力的问题,把改进Logistic混沌序列和切比雪夫混沌序列混合,进行同或逻辑操作,并将该序列作为模型初始密钥,进而增加算法密钥的随机性以提升安全性能。同时,通过构建Hadoop集群,对算法进行并行部署以提高运行效率。在实验测试中所提算法的加解密时间缩短了20%以上,在对比算法中为最优,且吞吐量与节点数量的变化趋势相同。在破译时间相同的情况下,算法所用的密钥最短,充分说明了算法具有较好的安全性和运行效率。 展开更多
关键词 数据加密 混沌序列 对称式加密 hadoop集群 并行运算 安全防护
下载PDF
Hadoop集群部署实验的设计与实现 被引量:20
12
作者 孟永伟 黄建强 +1 位作者 曹腾飞 王晓英 《实验技术与管理》 CAS 北大核心 2015年第1期145-149,共5页
阐述了Hadoop软件框架中的两大核心技术——HDFS分布式文件系统架构和MapReduce分布式处理机制,设计了Hadoop集群部署实验的具体方案,主要包括实验目的、实验区域的划分、节点的规划等,并且以一组实验设备为例,详细说明了配置方法,给出... 阐述了Hadoop软件框架中的两大核心技术——HDFS分布式文件系统架构和MapReduce分布式处理机制,设计了Hadoop集群部署实验的具体方案,主要包括实验目的、实验区域的划分、节点的规划等,并且以一组实验设备为例,详细说明了配置方法,给出了实现过程。通过该实验能够让学生从理论和实践上掌握Hadoop有关的技术知识。 展开更多
关键词 hadoop 集群部署 HDFS MAPREDUCE NameNode DataNode JobTrack TaskTrack
下载PDF
基于节点能力的Hadoop集群任务自适应调度方法 被引量:31
13
作者 郑晓薇 项明 +1 位作者 张大为 刘青昆 《计算机研究与发展》 EI CSCD 北大核心 2014年第3期618-626,共9页
针对当前Hadoop集群固有的任务级调度分配方法在运行中存在的负载分布不均的现象,着重对集群节点的执行能力进行了分析与研究.提出了一种基于节点能力的任务自适应调度分配方法.该方法根据节点历史和当前的负载状态,以节点性能、任务特... 针对当前Hadoop集群固有的任务级调度分配方法在运行中存在的负载分布不均的现象,着重对集群节点的执行能力进行了分析与研究.提出了一种基于节点能力的任务自适应调度分配方法.该方法根据节点历史和当前的负载状态,以节点性能、任务特征、节点失效率等作为节点任务量调度分配的依据,并使各节点能自适应地对运行的任务量进行调整.实验结果表明集群的总任务完成时间明显地缩减,各节点的负载更加均衡,节点资源的利用更为合理. 展开更多
关键词 hadoop集群 任务级调度方法 执行能力 节点能力 自适应
下载PDF
一种基于Hadoop平台的新聚类算法 被引量:6
14
作者 缪裕青 张锦杏 +2 位作者 刘少兵 文益民 明媚 《计算机科学》 CSCD 北大核心 2014年第4期269-272,共4页
针对现有很多聚类算法不能有效处理大规模数据的问题,基于微簇和等价连接关系,提出一种能在Hadoop平台实现高效并行化的聚类算法bigKClustering。算法将紧凑的数据抽象成一个向量,然后通过等价关系对这些向量进行连接,得到最终的聚类结... 针对现有很多聚类算法不能有效处理大规模数据的问题,基于微簇和等价连接关系,提出一种能在Hadoop平台实现高效并行化的聚类算法bigKClustering。算法将紧凑的数据抽象成一个向量,然后通过等价关系对这些向量进行连接,得到最终的聚类结果。实验结果表明,bigKClustering算法不仅具有良好的时间效率和聚类效果,而且具有良好的可伸缩性、加速比和时间稳定性。 展开更多
关键词 微簇 等价连接 hadoop平台 聚类
下载PDF
Hadoop分布式集群的自动化容器部署研究 被引量:16
15
作者 李杰 刘广钟 《计算机应用研究》 CSCD 北大核心 2016年第11期3404-3407,3445,共5页
针对Hadoop集群部署过程繁琐复杂、耗时费力、运维难度大,且不利于快速扩展的问题,提出一种结合Docker容器技术部署集群的解决方法。该方法把Ambari及其运行环境和配置构建成Docker镜像,并把多节点容器的运行和Hadoop集群的部署过程写成... 针对Hadoop集群部署过程繁琐复杂、耗时费力、运维难度大,且不利于快速扩展的问题,提出一种结合Docker容器技术部署集群的解决方法。该方法把Ambari及其运行环境和配置构建成Docker镜像,并把多节点容器的运行和Hadoop集群的部署过程写成Shell脚本,只需一条命令,即可实现集群的自动化部署。实验结果表明,该方法简单可靠并极大地提高了集群部署的效率。因此,对海量数据的处理和分析具有重要的推动作用。 展开更多
关键词 hadoop集群 镜像 自动化部署 Docker容器 大数据
下载PDF
Hadoop下基于聚类协同过滤推荐算法优化的研究 被引量:18
16
作者 田保军 胡培培 +1 位作者 杜晓娟 苏依拉 《计算机工程与科学》 CSCD 北大核心 2016年第8期1615-1624,共10页
作为重要的个性化推荐算法之一,协同过滤推荐算法有其独特的优势,但同时存在数据稀疏性、冷启动和扩展性问题。针对数据稀疏性问题,对项目相似度进行改进,利用基于项目的协同过滤对原始评分矩阵进行填充,以此降低数据稀疏性对推荐质量... 作为重要的个性化推荐算法之一,协同过滤推荐算法有其独特的优势,但同时存在数据稀疏性、冷启动和扩展性问题。针对数据稀疏性问题,对项目相似度进行改进,利用基于项目的协同过滤对原始评分矩阵进行填充,以此降低数据稀疏性对推荐质量的影响。针对冷启动问题,采用基于用户和项目属性分别进行聚类的方法,通过聚类模型建立新用户和新项目与现有用户和现有项目之间的联系,根据对现有用户和现有项目的推荐预测新用户和新项目的推荐。针对扩展性问题,利用云平台Hadoop的MapReduce框架完成相关算法的并行化,以此解决传统协同过滤推荐算法面临的严重扩展性问题。实验表明,改进后的算法较好地解决了以上问题。 展开更多
关键词 协同过滤 数据稀疏性 扩展性 聚类 hadoop
下载PDF
基于Hadoop的高校学生行为预警决策系统研究 被引量:14
17
作者 葛苏慧 万泉 白成杰 《计算机应用与软件》 北大核心 2021年第1期6-12,共7页
通过智慧校园各种智能终端、可感知设备,获取学生校园动态行为轨迹数据,构建多维数据存储中心。利用Hadoop框架分布式文件系统HDFS和MapReduce,将多维数据进行关联、分类、降维、聚类分析与可视化呈现。使学生特征标签化,生成基于特征... 通过智慧校园各种智能终端、可感知设备,获取学生校园动态行为轨迹数据,构建多维数据存储中心。利用Hadoop框架分布式文件系统HDFS和MapReduce,将多维数据进行关联、分类、降维、聚类分析与可视化呈现。使学生特征标签化,生成基于特征矩阵的学生画像,从而分离出偏离中心点的学生异常,建立动态的预警决策机制,从而进行前置预警和智慧决策;使高校管理机构及教师主动掌握学生的生活情况、学习状态及行为规律,从而对不良思想行为做到事先警示教育、事后跟踪管理,实现以学生为视角的智能管控及智慧管理。基于Hadoop的预警决策系统,开创了智慧校园教育管理决策科学化、管理智能化、监督过程化的新模式,具有较高的经济效益与推广应用价值。 展开更多
关键词 hadoop 聚类 降维 预警决策
下载PDF
基于Hadoop分布式改进聚类协同过滤推荐算法研究 被引量:21
18
作者 孙天昊 黎安能 +1 位作者 李明 朱庆生 《计算机工程与应用》 CSCD 北大核心 2015年第15期124-128,共5页
为了改善协同过滤推荐算法在大数据下的稀疏性和可扩展性问题,提出一种基于Hadoop平台的分布式改进聚类协同过滤推荐算法。在分布式平台下,离线对高维稀疏数据采用矩阵分解算法预处理,改善数据稀疏性后通过改进项目聚类算法构建聚类模型... 为了改善协同过滤推荐算法在大数据下的稀疏性和可扩展性问题,提出一种基于Hadoop平台的分布式改进聚类协同过滤推荐算法。在分布式平台下,离线对高维稀疏数据采用矩阵分解算法预处理,改善数据稀疏性后通过改进项目聚类算法构建聚类模型,根据聚类模型和相似性计算形成推荐候选空间,在线完成推荐。实验验证该算法能够有效改善推荐系统的推荐质量并大大提高推荐效率,同时在云环境中具有良好可扩展性。 展开更多
关键词 协同过滤 hadoop 矩阵分解 聚类 分布式计算
下载PDF
基于Hadoop MapReduce的大规模数据索引构建与集群性能分析 被引量:11
19
作者 谌超 强保华 石龙 《桂林电子科技大学学报》 2012年第4期307-312,共6页
为了满足搜索引擎构建索引的时空开销需求,构建高效的分布式索引,利用Hadoop搭建分布式集群环境,基于MapReduce编程实现大数据倒排索引。采用不同的网络带宽、数据量和集群节点数来评估Hadoop集群的性能。实验结果表明:网络带宽越大,集... 为了满足搜索引擎构建索引的时空开销需求,构建高效的分布式索引,利用Hadoop搭建分布式集群环境,基于MapReduce编程实现大数据倒排索引。采用不同的网络带宽、数据量和集群节点数来评估Hadoop集群的性能。实验结果表明:网络带宽越大,集群处理效率越高;集群节点数越多,处理大数据的能力越强。可见,网络通信带宽对Hadoop集群性能有一定影响,高速集群链路有利于发挥集群的性能。 展开更多
关键词 MAPREDUCE 倒排索引 hadoop集群
下载PDF
基于Hadoop的Nutch网页排序算法研究与实现 被引量:4
20
作者 陶林 谌超 +1 位作者 强保华 王勇 《桂林电子科技大学学报》 2013年第2期139-143,共5页
为了满足搜索引擎系统日益增长的高质量检索需求,针对Nutch搜索引擎框架没有实现Google的PageR-ank网页排序算法,分析了PageRank算法,并通过实验验证了PageRank算法的有效性,成功搭建Hadoop分布式集群,在Nutch框架中基于MapReduce分布... 为了满足搜索引擎系统日益增长的高质量检索需求,针对Nutch搜索引擎框架没有实现Google的PageR-ank网页排序算法,分析了PageRank算法,并通过实验验证了PageRank算法的有效性,成功搭建Hadoop分布式集群,在Nutch框架中基于MapReduce分布式编程模式编码实现PageRank算法。实验结果表明,在Nutch搜索引擎系统中实现了PageRank算法后,系统的检索具有更高的准确率,能够更好地为用户提供检索服务。 展开更多
关键词 hadoop集群 MAPREDUCE NUTCH 网页排序算法 PAGERANK
下载PDF
上一页 1 2 12 下一页 到第
使用帮助 返回顶部