您所在的位置: 成果库 长城软件基于分布式架构的智能化大数据检索解决方案

长城软件基于分布式架构的智能化大数据检索解决方案

成果类型:: 新技术

发布时间: 2023-09-25 14:20:14

科技成果产业化落地方案
方案提交机构:“科创中国”物联网产业科技服务团| 赵琦 | 2023-12-05 18:05:37

随着信息化地不断发展,政府、企事业单位以计算机存储设备为载体的电子信息存储量愈来愈多。信息检索作为大数据处理中一个很重要的领域,可以更快地帮助用户找到丰富、准确的信息,满足用户对海量大数据的应用需求。但是,面对海量大数据,用户在检索过程中仍然会遇到一些问题——检索结果不准确、检索不全面、查询速度慢。

面对企业级海量大数据,必须突破传统的检索模式,从检索方式和检索技术上寻求突破和创新,保障用户检索的全面性、准确性和检索速度。

长城软件基于分布式架构的智能化大数据检索解决方案,采用分布式架构、大数据技术、图像处理和机器学习算法,实现了海量PB级数据的高性能存储和检索,提供全文检索、语义检索、图像检索和混合检索服务,具有简单、高效、准确的特点。

应用层,支持PC端展示和移动小程序检索应用,支持以检索引擎为基础为用户提供知识服务。

接口层,提供丰富的API接口,支持对检索数据进行读写操作,通过Restful API或服务调用等多种方式进行集成。

支撑层,包括检索引擎,分析聚合引擎和系统管理等能力,提供可视化的Web管理台,并支撑上层应用建设。具体功能包含全文检索、语义检索、图像检索、混合检索、数据管理、安全管理、权限管理、参数配置等。

算法层,提供上层应用的算法支撑,包含语法解析,语义分析,图像特征提取、局部特征提取,PQ量化算法、分类网络等算法内容。支撑上层检索、分类、引擎、应用分析等内容。

数据层,系统支持多源异构数据,针对数据的不同用途,构建原数据库

、全文特征库、图像特征库、语义特征库等特色数据库。

基础设施层:遵循用户现有技术路线,包括计算资源、存储资源、操作系统、网络设备等多种软硬件基础资源,基于ARM、X86运行环境,系统适配PKS体系,采用分布式架构实现多源数据的集成和调度,支持国产数据库的数据对接,基础软硬件使用环境符合用户要求。

文本检索:支持文本检索,输入检索表达式的方式获得检索结果,并对检索结果进行分类统计。为了快速检索到指定记录,以词映射文档的方式建立倒排索引,实现以词查找文档的效果。灵活配置检索规则,实现多种维度的组合查询,包含精确检索、模糊检索,完全匹配检索、通配符检索、比较运算符检索等多种表达式检索方式。

语义检索:不靠传统的关键词匹配,无需构建复杂的检索条件,也无需对检索结果进行过多的干预,完全依赖于系统智能语义,就命中高相关性的对比文件。过大规模语料预训练,运用多层神经网络模型,抽取特征词,创建特征库;通过深度分析检索语句的语义,准确地捕捉用户所输入语句背后的真正意图,向用户返回最符合的检索结果。

图像检索:融合机器学习技术,以深层神经网络为基本构型对图像进行特征提取,并通过正负样本训练不断强化网络的特征提取能力,实现“以图搜图”的能力。

混合检索:系统支持对文本、语义和图像进行混合检索,检索结果按图像/语义排序。提高了检索的性能和提升检索的召回率,让检索结果更加精准。

分类聚合统计:将数据检索结果集按照指定字段做聚合并统计数量。

安全管理:通过鉴权管理、权限管理,支持用户权限和数据权限复合应用,满足应用安全管理要求。

运维管理:通过可视化Web管理台进行管理,观察系统节点运行指标,节点状态监控,包括连接状态、存储使用率、内存使用率、CPU等,大幅度简化运维工作量。

长城计算机软件与系统有限公司(简称“长城软件”)成立于1993年,注册资本2.5亿元人民币,是中国电子信息产业集团有限公司旗下网信事业的核心企业之一,是中国软件与技术服务股份有限公司的全资子公司,公司以国家战略需求为导向,以数字政府为主航道,充分布局数字城市和数字企业,面向全国提供行业应用和集成服务。

可平稳运行于X86、ARM架构环境,充分考虑当前基础软硬件环境的现状,对于PK体系等当前主流国产化软硬件环境已完成兼容适配。自主研发多种类型的检索应用以及安全管理等核心能力,在产业发展的大趋势下,实现大数据检索技术的全面可控,确保了数据安全。智能化大数据检索解决方案支持全文表达式检索,对检索语法进行了重新封装,灵活配置检索规则,实现多种维度的组合查询。语法简单,减少了用户学习成本,支持多种运算符的检索能力,包括逻辑运算符、比较运算符、通配符、位置运算符、范围运算符、频率运算符、优先级运算符。采用智能化大数据检索解决方案,能够适应大数据、高并发、高可用、高安全的要求,合理规划与设计运营平台大数据管理和平台接口服务。采用分布式架构,高效的管理百亿级文献与PB级数据,实现数据的高效检索,针对行业特性,实现了数据的多维度组合检索帮助用户大幅度提高了命中效率。

该方案提供方拥有较强的技术能力,方案具有一定的成熟度,可以考虑从以下几个方面入手:

与政府、行业协会、企业等建立合作关系,共同推动长城软件基于分布式架构的智能化大数据检索解决方案的应用和推广。收集并展示成功应用案例,提高企业对该解决方案的认知度和信任度。提供专业的培训和技术支持,帮助企业更好地使用和优化该解决方案。通过媒体宣传、行业展会、线上营销等多种渠道进行市场推广,提高产品知名度和市场占有率。预期将提高企业竞争力、降低成本、推动行业创新并提升社会效益。继续关注市场需求和技术发展趋势,不断优化和完善该解决方案以适应不断变化的市场环境和企业需求。