面向大数据环境下的数据治理和名称规范建设,针对机构名称数据多样性和复杂性特征,尝试采用共现视角和异质网络挖掘方法,探究数据驱动的机构名称归一化,可提高文献网络构建、挖掘和应用质量。从共现视角的机构识别方法层面上,构建一级机...面向大数据环境下的数据治理和名称规范建设,针对机构名称数据多样性和复杂性特征,尝试采用共现视角和异质网络挖掘方法,探究数据驱动的机构名称归一化,可提高文献网络构建、挖掘和应用质量。从共现视角的机构识别方法层面上,构建一级机构-二级机构-三级机构三重异质共现网络模型;将机构名称归一化问题转化为异质共现网络挖掘问题,构建基于元路径的机构名称归一化框架模型;系统化地设计基于元路径的拓扑特征和识别工具,通过异质共现网络的文本属性、地理属性和关系属性挖掘,识别隐性语义关系。以2008—2018年上海交通大学WoS(Web of Science)文献题录数据机构名称归一化为例,实验结果验证了该方法的有效性。展开更多
文摘面向大数据环境下的数据治理和名称规范建设,针对机构名称数据多样性和复杂性特征,尝试采用共现视角和异质网络挖掘方法,探究数据驱动的机构名称归一化,可提高文献网络构建、挖掘和应用质量。从共现视角的机构识别方法层面上,构建一级机构-二级机构-三级机构三重异质共现网络模型;将机构名称归一化问题转化为异质共现网络挖掘问题,构建基于元路径的机构名称归一化框架模型;系统化地设计基于元路径的拓扑特征和识别工具,通过异质共现网络的文本属性、地理属性和关系属性挖掘,识别隐性语义关系。以2008—2018年上海交通大学WoS(Web of Science)文献题录数据机构名称归一化为例,实验结果验证了该方法的有效性。