本成果公开了一种地理信息服务元数据文本多层级多标签分类方法,包括:1)获取地理信息服务元数据文本集进行文本预处理,将每条数据样本划分为文本特征词组合;2)设定一级分类目录,生成与分类类别语义关联的典型词词表;3)根据典型词词表对文本特征词进行筛选;4)选取ML-KNN作为协同训练的一个基模型;5)建立主题预测模型ML-CSW作为协同训练的另一基模型;6)设计协同机制,为元数据文本匹配多标签主题,作为一级粗粒度主题分类结果;7)选取某一分类标签对应的元数据文本,得到不同级别的细粒度主题类别目录。
本成果提出了一种新的针对OGC网络地图服务WMS及其他地理信息网络资源元数据文本的多层级多标签分类流程。该流程将地学本体库SWEET和通用英语词汇网络WordNet引入分类过程,结合传统分类算法ML-KNN和紧密贴合领域特性与文本语义的分类算法ML-CSW进行协同训练,以获得地理信息服务元数据文本与多层级主题目录的匹配关系。本成果方法考虑地理信息服务元数据的领域特色和文本语义,仅依赖少量的标记数据样本;同时,相比于分类器链、投票分类器等传统多标签分类算法,本成果方法的分类结果整体表现更好。
桂志鹏,副教授,副系主任,博导,珞珈青年学者,国家自然科学基金通讯评审,科技部国家重点研发计划“物联网与智慧城市关键技术及示范重点专项”项目会议评审人。
评价单位:“科创中国”时空信息卫星导航产业科技服务团 (中国测绘学会)
评价时间:2023-11-03
综合评价
文本精准分类作为数据分析的一种重要手段,是提升地理信息资源检索品质的关键,具有广泛的应用场景。该成果结合领域特色,考虑文本中专业术语的语义,有效贴合地理信息服务元数据的文本特性,实现更精准的地理信息文本数据分析功能。目前该成果针对地理信息检索,可考虑应用到其他行业的文本精准分类中,未来的应用场景会更加广泛,市场空间更大,经济效益更加可观。
查看更多>