随着数据科学的发展和人们对数据重视程度的加深, 各类数据的数 量越来越大, 属性也越来越多, 其中夹杂着有效信息和各种噪音, 纷繁复杂, 难以处 理。在数据分析时, 人们往往采用降低数据维度的方法来对多维度的数据进行预处理。 传统的降维方法是按照某种数学计算进行表述, 单纯考虑数值关系, 而忽略了其中的 语义因素。但事实上, 针对具体问题时, 由于分析数据的目的不同, 即使对同一数据 所赋予的具体语义也会有所不同, 其解释更是各具千秋, 往往会得到不同的结果。本 成果公开了一种解释性主成分分析方法, 基于解释性语义分组的降维方法, 把解释性 语义分组方法和主成分分析方法结合起来, 达到更好的数据预处理和降维效果, 从而能够得到更好的分类结果。
在图像识别等实际应用问题中, 数据存在大量特征, 在主成分分析 方法及其多种改进算法下有很好的效果。这类问题数据的特征主要在于数量, 不存在 实际语义, 或者与实际语义无关。而与此相对, 存在着另一类问题, 即语义相关的分 类问题, 这类问题数据分析的目的与特征语义有较强的关联, 人们对其分析结果的关 注也更在意语义解释性, 虽然使用单纯的数据分析方法可以得出一定的结果, 但很多 情况下的解释只能是数据决定的, 这显然还有很大的提升空间。针对这类市场上出现 的问题, 本成果提出了一种新的方法, 即解释性语义分组的主成分分析方法, 重点从 可解释性的角度来进行主要成分的选取。不仅提高了实际数据预处理的效果, 更可以 得到很好的解释性, 使得实际结果可以和相应的解释结合起来, 能让结果更具说服力。 在未来市场应用中具有下述优点: 充分利用了数据分析和语义结合的思想, 拓展了大 数据时代“不需要追求原因” 的思想, 从思考解释性的角度入手, 扩充并完善了主成分分析方法,在现实生产中将有广阔的应用场景。
朱培栋,男,博士,教授,2011年起任国防科技大学计算机学院博士生导师,现任长沙学院电子信息与电气工程学院院长,信息与通信工程省“双一流”重点应用特色学科带头人,湖南省光电健康检测工程技术研究中心主任。IEEE(国际电气电子工程师协会)通信学会高级会员,中国电子学会首届云计算专家委员会专家,中国计算机学会互联网专委会和物联网专委会委员;曾任加拿大圣泽威尔大学James客座讲席教授;2014年全国复杂网络大会副主席。主要研究新一代互联网、网络安全、网络科学和网络思维。先后负责20余项国家和部委级等科研课题,作为第一完成人,授权发明专利19项,登记软件著作权7项,获全国发明博览会铜奖一项。获部委级科技进步奖2项,自然科学奖1项。独立专著1部,合著合译学术著作9部,发表学术论文220余篇,SCI/EI索引160余篇;出版教材2部,教学研究著作1部,发表教学研究论文20篇,其中2篇为封面论文,获评《计算机教育》杂志创刊15周年“十佳作者”。“计算机网络”国家级精品课程主讲教师,网络思维的系统阐释者和积极倡导者,获部委级教学成果一等奖1项; 指导博士硕士生80余名,2人获省部级优秀学位论文。
评价单位:“科创中国”机器视觉与智能产业科技服务团 (中国图象图形学学会)
评价时间:2023-10-11
综合评价
该成果旨在围绕传统且流行的主成分分析技术进行可解释性改造,引入特征语义,立意较好,具有一定的创新性,且技术可行性较好,成熟度较高,能够实现成果的预期效果。该技术也是独立于深度学习技术,在部分领域能够产生有影响力的方案或产品,但竞争激烈。
另外,因在应用范围方面的论证不足,要特别强调该技术的适用范围和相应的具体领域,强调其技术需求和技术必要性,以及与深度学习技术的偏向性差异。
总体而言,该项目技术思路方向很好,未来学术空间大,有利于当前数据不足的相关领域的技术要求,转化成熟度很高,值得推广。建议强化相应模型、产品、工具包和软件开发,并聚焦相关领域。
查看更多>