您所在的位置: 成果库 一种基于映射归约的分布式数据处理方法

一种基于映射归约的分布式数据处理方法

成果类型:: 发明专利

发布时间: 2024-01-11 09:25:45

科技成果产业化落地方案
方案提交机构:成果发布人| 涂媛 | 2024-01-11 09:25:46

本发明公开了一种基于映射归约的分布式数据处理方法,其步骤包括:1、对磁盘中的数据进行分片处理,2、在所设置的缓冲区内部,对第一步的处理结果再次进行数据处理,3、通过循环处理,对来自不同磁盘的数据进行规约。本发明通过对磁盘进行分片处理,对磁盘内部数据进行两次排序与合并,从而使得磁盘内部的数据通过映射规约能够有序地排列,高效查询,进而能够降低大规模数据处理时的工作量,提升运行效率。

本发明是为了解决上述现有技术存在的不足之处,提出一种低硬件要求且具有高处理效率的基于映射归约的分布式数据处理方法,以期能通过对磁盘进行分片处理,对磁盘内部数据进行两次排序与合并,从而使得磁盘内部的数据通过映射规约能够有序地排列,高效查询,进而能够降低大规模数据处理时的工作量,提升计算机硬件运行效率。

采用集中数据处理的传统数据处理模式中,来自所有终端的计算都由主机完成,这类网络处理速度可能有些慢。另外,如果用户有各种不同的需要,在集中式计算机网络上满足这些需要可能是十分困难的,因为每个用户的应用程序和资源都必须单独设置,而让这些应用程序和资源都在同一台集中式计算机上操作,使得系统效率不高。还有,因为所有用户都必须连接到一台中央计算机,集中连接可能成为集中式网络的一个大问题。集中式数据处理是基于一个大型的中央计算机,所有的数据、运算、处理任务全部在中央计算机系统上完成。中央计算机连接多个终端,终端用来输入和输出,不具有数据处理能力。远程终端通过网络连接到中央计算机,它们得到的信息是一致的。如果终端用户有不同的需要,要对每个用户的程序和资源做单独的配置,在集中式数据处理模式上做起来比较困难,而且效率不高。

传统的分布式数据处理虽然可以避免集中式处理的大部分问题,但是由于自身数据处理的特性,越是处理大规模的数据,对计算机硬件要求就越高。目前真正的电子病历数据还是存储在医疗机构本地的数据库中,现在的病历系统只是一个数据查询系统,无法满足不同医疗机构之间的数据处理问题。

此技术是合肥工业大学李磊研发,合肥工业大学是中华人民共和国教育部直属全国重点大学,教育部、工信部和安徽省政府共建高校,教育部与国防科工局共建高校。培养高等学历工业人才,促进科技文化发展。 经济学类、教育学类、文学类、理学类、工学类学科高等专科、本科、研究生班和硕士研究生学历教育 理学类和工学类学科博士研究生学历教育 博士后培养 相关科学研究、技术开发、继续教育、专业培训、学术交流与咨询服务

与现有技术相比,本发明的有益效果在于:

1、本发明通过设置缓冲区,规定缓冲区溢写比,实时对缓冲区内部进行监控,一旦达到溢写比就进行写入,保证缓冲区始终能够以一个较为高效的状态进行数据处理,通过将处理过的数据生成临时文件再次写入磁盘,降低了磁盘容量消耗,确保中间过渡的数据处理不会造成较大的额外存储消耗。

2、本发明通过对各个磁盘按照各自磁盘大小进行分片处理,定期对分片内部数据处理情况查询,确保能够较为高效地利用系统的处理性能,避免了空闲状态的浪费。

3、本发明通过对磁盘数据的两次排序合并,将存储在不同磁盘的同一病人病历高效地整合起来,降低了具体查询时的工作量,提高了系统性能,通过设置规约任务集合,在数据处理时提前写入对应规约任务,简化了病人病历处理的过程,确保了病人病历能够被高效精准地并行处理,减少了工作量,降低了系统负荷。

技术转让,许可,合作所需资金需双方协商,此项技术想尽快落地保定,希望具备此项技术研发的技术方,能够尽快承接此项目。。