摘要
采用标准Web技术———HTML,XML和Java,开发一种基于Web用Java把Web数据转换为XML的数据挖掘方法。该方法标识数据源并把它映射成XHTML,根据一定的相关关系查找数据内的引用点并进行智能数据抽取,将数据映射成XML。这种数据挖掘方法比较简单,通过选择可靠的数据源以及在这些数据源中选取与内容相关但与格式无关的锚点,可以较为方便地建立一个强壮的数据挖掘系统。
A method for Web based data mining is developed using thestandard technologies of the Web HTML, XML, and Java. Convert existing Web pages into XMLwith XML. The data extraction method is very simple, only by selecting some reliable dataresources and anchor points which are dependent on those data resources and content of Web pages, but independent of the form of Web pages.
出处
《山东商业职业技术学院学报》
2008年第5期93-95,102,共4页
Journal of Shandong Institute of Commerce and Technology