摘要
矿产资源定量评价工作的目的是从试验、观测、收集到的大量的各类专题数据中,提取相对应的专题信息。长期的地质工作积累了大量的原始数据,其中文本型的定性数据在地质数据中占了很大的分量,但是在常规的地质定量评价工作中针对这类数据的处理方法却很有限。文本型数据挖掘是现今数据挖掘的热点问题之一,为了充分利用前人所积累的文档报告,并有效地从中提取各类信息,这里提出了一种矿产地质数据库中文本数据挖掘的方法。在数据挖掘过程中,空间数据属性的小规模文本数据挖掘主要分四步进行,即数据挖掘相关的预处理;基于关键字的属性分解;属性归纳和关联规则分析。其中,挖掘关联规则问题可以分解为以下两个问题:1找出存在于数据库D中的所有频繁项集(或物品集)。频繁项集的支持度support应不小于用户或领域专家给定的最小支持度minsup阈值;2利用频繁项集生成强关联规则。根据定义,这些规则必须满足最小支持度minsup和最小可信度(置信度)minconf。对于每个频繁项集A,如BA,B,且Confidenceminconf,则构成关联规则B(A-B)。在文本的研究工作中开发了相应的软件系统,取得了较好的应用效果。属性数据是空间数据库的重要组成部分,它所荷载的专业方面的信息量是常规型数值数据所无法比拟的。如果能够进一步实现深层次属性数据挖掘,那么常规的信息源将得到极大的扩充,地质数据分析的层次也将会提升到一定的高度。
Data mining (DM) is a wide-used intelligent analysis technology. It can help to find out and extract hidden knowledge among vast amount of all kinds of datum. From the view of DM, the process of quantitative assessment of mineral resources is discussed in the paper. Based on the characters of geological datum, the authors present an effective solution to regular digital data mining and text data mining by constructing data mining toolkits. A system testing, which runs on the mineral resources and geology spatial database of three-river area in southwestern China, indicates that both the prototype and the solution of the system are feasible.
出处
《物探化探计算技术》
CAS
CSCD
2005年第3期263-266,共4页
Computing Techniques For Geophysical and Geochemical Exploration
基金
中国地质调查局项目(200110200010)
教育部重点科技研究项目(104037)
北京市重点实验室基金项目