成果介绍
1、基于分层次语义网的互联网敏感信息分析系统是一个互联网信息采集、分类、分析系统,在文本理解上采用了基于分层次语义网的自然语言理解技术,从而在文本的关键词提取、自动摘要、情感分析、自动分类上更为准确,测试表明,自动分类准确性达96%,提高了系统的实用性和应用面。 系统主要应用于需要对互联网媒体和舆论信息进行跟踪、分析和监控的企业和政府监管部门;系统也应用于政府和企业进行内外部知识管理和搜索。2、项目关键技术和解决方法 本项目的关键技术在于分层语义网的使用模型、语义网的快速建模和维护、进行分类特征提取中使用语义网进行语义理解等。 采用基于标签树的网页结构的自动聚类技术、网页Wrapper的自动生成技术、网页结构的自动分类技术,自动清洗去除网站网页上的噪音信息(例如:广告、网站导航、网站风格的台头和结尾等等),对网站进行智能分析; 采用基于分层次语义网的网页的关键词自动提取技术、基于分层次语义网的文本自动分类技术、基于分层次语义网的文本自动聚类技术、文本情感极性分析技术,对清洗后的网页文本内容进行处理和分析; 在中文自然语言处理基本技术(包括中文分词、模式识别、语义相似度计算)和分类聚类技术的基础上,对敏感信息的进行自动识别、分类和聚类分析、情感极性分析。3、知识产权及其他成果:计算机软件著作权登记证书:2013SR163073极天大数据分析软件***、2014SR117741极天舆情监控软件***、2014SR212186极天语义搜索软件***;2014年广东省高新技术产品证书:粤高企协[2014]53号极天大数据分析软件4、经济指标完成情况(单位:万元) 销售收入:合同规定800万元,实际完成1050万元,完成指标比例131%净利润:合同规定160万元,实际完成160万元,完成指标比例100%交税总额:合同规定***万元,实际完成87万元,完成指标比例306%5、技术指标完成情况: 1)文本智能采集与分类准确率:合同规定达到92%,实际达到96%;2)短文本(140字节内)智能分类处理效率,合同规定达到1600条/秒,实际达到1820条/秒;3)长文本(10K以内)智能分类处理效率,合同规定达到450条/秒,实际达到716条/秒。
成果亮点
团队介绍
成果资料