您所在的位置: 成果库 一种基于Hadoop的网络数据挖掘与分析平台及其方法

一种基于Hadoop的网络数据挖掘与分析平台及其方法

发布时间: 2023-10-13

来源: 科技服务团

基本信息

合作方式: 技术转让
成果类型: 发明专利
行业领域:
电子信息技术,计算机及网络技术
成果介绍
“大数据”时代各行业所产生的数据规模巨大、形态多样、动态变化,若仍沿用传统关系数据库来存储这些非结构化数据,其存储性能和扩展性能都将成为制约数据有效应用的瓶颈。为了解决现有技术的不足,提供一种基于Hadoop的网络数据挖掘与分析平台,包括数据采集层、数据存储层、业务应用层和用户层;数据采集层采用分布式定向采集体系架构且以不同网络中的终端站点作为网络数据采集的一个基本任务单位来对原始网络数据进行采集,并向数据存储层汇聚传输;数据存储层完成数据的原始网络数据的汇聚、存储及原始处理,并提供不同类型的功能调用服务;业务应用层调取数据存储层处理后的网络数据并进行分析,来实现公有组件与个性业务应用组件剥离,并将网络数据分析后的结果传送至用户层进行实时展示。通过动态网页高效采集技术和网页信息抽取技术的相互结合,实时、全面、精确地获取到指定论坛网站中指定版块中的帖子及其相关元信息。从而能够直观高效准确地获取新闻数据。
成果亮点
1.当前研究领域通常采用关系数据库或自定义的文件格式存储从不同网络上获取的数据,因此在扩展性、稳定性、易开发性和移植性、通用性等方面容易产生问题。本发明采用分布式Hadoop架构作为网络数据的存储平台,根据各类网络数据的特征及其访问特点布置控制节点和存储节点,以提高存取性能,针对不同的网络类型提出适合于相应网络的个性化Hadoop存储平台。 2.本发明在数据存储层内,当数据变化时,通过利用原有数据中的模式,仅计算变化部分数据的模式减少模式计算量,提高算法效率,而且采用窗口技术,包括固定窗口和可变窗口两类技术分别对不同类型用户的需求进行响应,以实现较高性能实时性的网络数据监测。
团队介绍
山东省科学院情报研究所成立于1983年,是依托数字图书馆开展科技信息服务和信息服务技术研究的学术型研究机构,下设情报室(数字图书馆)、文献检索中心、研发中心、《山东科学》编辑部等业务科室。研究所现有职工50人,高级研究人员20人,拥有图书馆学、情报学、计算机科学、信息科学等多学科高素质的专业人才队伍。 研究所致力于智能信息处理及自然科学信息领域的各类科学研究和应用研究工作,通过数字信息的组织处理和分析,开展基于数据分析和知识挖掘的关键共性技术重大攻关、集成创新和工程化研究、科学决策与战略规划、知识管理与知识战略、文献计量、模式识别、知识产权战略研究。完成各类政府及行业研发课题200余项,有多项成果获得重大奖励,为科技进步做出了积极贡献。
成果资料