不确定噪声下海量文本数据的模糊挖掘算法研究被引量：2

Research on Fuzzy Mining Algorithm for Massive Text Data Under Uncertain Noise

下载PDF

导出

摘要针对传统的数据挖掘方法一直存在挖掘精度低、运行时间长的问题,提出基于小波变换与关联规则的不确定噪声下海量文本数据的模糊数据挖掘算法,首先利用小波变换对不确定噪声下海量文本数据的模糊数据进行预处理,将模糊海量文本数据时间序列转换至频谱空间中,获得频谱空间内距离最小、类间聚类最大的变换基系数,并将其作为海量文本模糊数据特征系数,利用数据特征系数计算出其从属于各类别的隶属度,确定模糊文本数据集的关联规则,依据多维海量数据集之间的相关程度进行区间划分,由此实现对不确定噪声下海量文本数据的有效挖掘.实验结果证明,所提算法能有效提高海量文本数据挖掘精度,且挖掘效率较高. According to the traditional data mining methods have been mining of low precision, long running time, the wavelet transform and the uncertain fuzzy association rules data text data mining algorithm based on noise, firstly using wavelet transform for uncertain fuzzy data of massive text data noise preprocessing, fuzzy time massive text data sequence conversion to spectrum space, get the distance transform based clustering coefficient, the maximum of the minimum inter class spectrum space, and as a massive text data feature data using fuzzy coefficient, calculate the feature coefficients from membership belonging to the respective categories, determine the fuzzy association rules text data sets, interval division basis the multidimensional degree between the massive data sets, thus the uncertainty of effective mining of massive text data noise. The experimental results show that the proposed algorithm can effectively improve the accuracy of massive text data mining, and the mining efficiency is high.

作者潘大胜

机构地区百色学院信息工程学院

出处《微电子学与计算机》 CSCD 北大核心 2017年第9期129-132,共4页 Microelectronics & Computer

关键词不确定噪声海量文本数据模糊数据挖掘算法特征系数关联规则 Key words： uncertain noise massive text data the fuzzy data mining algorithm characteristics of the coefficient of association rules

分类号 TN391 [电子电信—物理电子学]

引文网络
相关文献

参考文献10

1王元卓,贾岩涛,刘大伟,靳小龙,程学旗.基于开放网络知识的信息检索与数据挖掘[J].计算机研究与发展,2015,52(2):456-474. 被引量：96
2李静.基于数据挖掘技术的电子商务CRM研究[J].现代电子技术,2015,38(11):126-128. 被引量：9
3柳萌萌,赵书良,韩玉辉,苏东海,李晓超,陈敏.多尺度数据挖掘方法[J].软件学报,2016,27(12):3030-3050. 被引量：28
4梁吉业.大数据挖掘面临的挑战与思考[J].计算机科学,2016,43(7):1-2. 被引量：8
5张健.基于供给侧改革和数据挖掘的茶叶在线销售策略探析[J].商业经济研究,2016(12):53-54. 被引量：4
6杨莎,余伟,李石君,曹晶晶,刘晶.基于Web大数据挖掘的证券价格波动实时影响研究[J].计算机科学,2015,42(4):166-171. 被引量：8
7汪荆琪,徐林莉.一种基于多视图数据的半监督特征选择和聚类算法[J].数据采集与处理,2015,30(1):106-116. 被引量：8
8陈小燕.机器学习算法在数据挖掘中的应用[J].现代电子技术,2015,38(20):11-14. 被引量：26
9张春生.大数据环境下相容数据集的关联规则数据挖掘[J].微电子学与计算机,2016,33(8):34-39. 被引量：5
10刘静静,智淑敏.一种传感器网络不确定感知数据挖掘方法研究[J].电子设计工程,2016,24(13):73-76. 被引量：8

二级参考文献172

1刘长虎,陶建格,崔衍秋.股票价格指数的投资功能[J].市场论坛,2004(3X):71-72. 被引量：5
2黄解军,万幼川.基于数据挖掘的电子商务策略[J].计算机应用与软件,2004,21(7):12-13. 被引量：23
3梅立军,周强,臧路,陈祖舜.知网与同义词词林的信息融合研究[J].中文信息学报,2005,19(1):63-70. 被引量：28
4柴立和.多尺度科学的研究进展[J].化学进展,2005,17(2):186-191. 被引量：24
5吴友政,赵军,段湘煜,徐波.问答式检索技术及评测研究综述[J].中文信息学报,2005,19(3):1-13. 被引量：48
6臧玉卫,张慎峰,吴育华.中国股票市场的非线性分析[J].天津大学学报（社会科学版）,2005,7(6):417-420. 被引量：12
7王海涛,曹存根,高颖.基于领域本体的半结构化文本知识自动获取方法的设计和实现[J].计算机学报,2005,28(12):2010-2018. 被引量：31
8徐宝祥,叶培华.知识表示的方法研究[J].情报科学,2007,25(5):690-694. 被引量：53
9董振东,董强,郝长伶.知网的理论发现[J].中文信息学报,2007,21(4):3-9. 被引量：99
10孙庆先,李茂堂,路京选,郭达志,方涛.地理空间数据的尺度问题及其研究进展[J].地理与地理信息科学,2007,23(4):53-56. 被引量：26

共引文献189

1文辉,徐永林,于敬.基于主动学习的领域知识多模式抽取框架[J].新一代信息技术,2022,5(6):137-143.
2张莉,李长红.银杏早产嫁接三法[J].科技致富向导,2000(4):19-19.
3马津.斯卡帕神秘华美的层叠——以建构角度分析布里昂家族墓园中的混凝土线脚[J].建筑师,2012(2):38-43. 被引量：1
4艾锐峰,欧阳军,程杰,周凯,孙云鹏.实时演进数据序列集的内在模式提取与行为预测[J].计算机系统应用,2018,27(12):75-82.
5张磊,陈东,王建新,高献伟,段晓毅.机器学习算法与应用[J].北京电子科技学院学报,2017,25(4):51-56. 被引量：3
6朱飞燕.大数据资源调度中多种类复杂信息智能定向检索[J].自动化与仪器仪表,2019(2):118-121. 被引量：5
7刘承良.网络大数据的现状与展望[J].中国管理信息化,2015,18(12):186-188. 被引量：7
8赵泽亚,贾岩涛,王元卓,靳小龙,程学旗.基于动态异构信息网络的时序关系预测[J].计算机研究与发展,2015,52(8):1735-1741. 被引量：8
9荣垂田.大数据背景下高校信息管理课程改革研究[J].课程教育研究,2015,0(28):42-43. 被引量：4
10徐久成,李涛,孙林,李玉惠.基于信噪比与邻域粗糙集的特征基因选择方法[J].数据采集与处理,2015,30(5):973-981. 被引量：13

同被引文献16

1刘辉,江千军,桂前进,张祺,王梓豫,王磊,王京景.实体关系抽取技术研究进展综述[J].计算机应用研究,2020,37(S02):1-5. 被引量：26
2车万翔,刘挺,李生.实体关系自动抽取[J].中文信息学报,2005,19(2):1-6. 被引量：116
3苗忠义,赵朋朋,胡鹏昱,崔志明.基于属性高频字的深网数据库重叠率估计[J].计算机工程,2009,35(13):28-30. 被引量：3
4贾克斌,李含婧,袁野.基于Apriori算法的数据挖掘在移动医疗系统中的应用[J].北京工业大学学报,2017,43(3):394-401. 被引量：27
5向桢,向守兵.基于模糊遗传算法的数据库异常数据挖掘[J].控制工程,2017,24(5):947-951. 被引量：17
6高苌婕,彭敦陆.面向DBWorld数据挖掘的学术社区发现算法[J].计算机应用研究,2017,34(7):2059-2062. 被引量：3
7王太成,陈涛.基于类脑群智的机会认知数据挖掘算法研究[J].计算机工程与设计,2017,38(7):1828-1832. 被引量：3
8马明焕,王新浩,许晓辉,罗云,杨凌.基于数据挖掘技术的事故隐患预警方法研究[J].中国安全生产科学技术,2017,13(7):11-17. 被引量：17
9张新英,付川南.一种高效的多类型数据挖掘算法[J].中国电子科学研究院学报,2017,12(4):359-364. 被引量：10
10王文霞.数据挖掘中改进的C4.5决策树分类算法[J].吉林大学学报（理学版）,2017,55(5):1274-1277. 被引量：25

引证文献2

1杨蕗菡.非合作结构化深网重叠数据特征自动挖掘仿真[J].计算机仿真,2019,36(11):251-254. 被引量：1
2段俊花,朱怡安,邵志运,钟冬,张黎翔,史先琛.融合语句-实体特征与Bert的中文实体关系抽取模型[J].微电子学与计算机,2022,39(4):17-23. 被引量：1

二级引证文献2

1林增坦,林增钰,黄紫成.深度双Q网络中低延迟高可靠数据查询算法[J].计算机仿真,2021,38(8):417-420. 被引量：1
2张全,赵郭燚,苏媛,朱元极,任海洋.基于改进Bert-AutoML的电力文本语义识别算法[J].电子设计工程,2024,32(4):43-46. 被引量：1

1苏焕程,张君,陈昌云,程亦涵.一种基于最长路径的脉冲序列抽取算法[J].航天电子对抗,2017,33(2):5-8. 被引量：4
2李娜,余省威.云计算环境下多服务器多分区数据的高效挖掘方法设计[J].现代电子技术,2017,40(10):43-45. 被引量：9
3马健,阳榴,蒋巧文,赫岩.基于置信度的星载干涉仪测向定位误差估计[J].空军预警学院学报,2017,31(4):270-274.

微电子学与计算机

2017年第9期

浏览历史

内容加载中请稍等...

不确定噪声下海量文本数据的模糊挖掘算法研究被引量：2

参考文献10

二级参考文献172

共引文献189

同被引文献16

引证文献2

二级引证文献2

相关作者

相关机构

相关主题

浏览历史

不确定噪声下海量文本数据的模糊挖掘算法研究 被引量：2

参考文献10

二级参考文献172

共引文献189

同被引文献16

引证文献2

二级引证文献2

相关作者

相关机构

相关主题

浏览历史

不确定噪声下海量文本数据的模糊挖掘算法研究被引量：2