数据处理方法、装置、设备、存储介质及程序产品
价格 双方协商
地区: 贵州省 贵阳市 花溪区
需求方: 贵州***公司
行业领域
电子信息技术
需求背景
为了更好的处理大规模的数据,通常采用计算引擎与消息存储平台的组合,例如采用专为大规模数据处理而设计的快速通用的计算引擎—Apache Spark和一种高吞吐量的分布式发布订阅消息系统—Kafka。
上述组合之间存在性能瓶颈问题,即Spark下执行任务的进程—Executor与Kafka的Topic(主题)下Partition(分区)的数量必须是一致的,即有多少个Partition就必须通过多少个Executor进行数据的消费,这在没有遇到性能问题时可以解决大部分的问题,但是一旦遇到性能问题,则只能通过同时增加Kafka以及Spark资源来解决,性能开销过大。
需解决的主要技术难题
***下执行任务的进程—Executor与Kafka的Topic(主题)下Partition(分区)的数量必须是一致的。
2.一旦遇到性能问题,则只能通过同时增加Kafka以及Spark资源来解决,性能开销过大。
期望实现的主要技术目标
能使得计算引擎可通过创建多个进程来分别从缓存队列中提取出多个偏移量区间,进而按照偏移量区间消费分布式发布订阅消息平台中的新增数据,绕过了原先存在的进程数量需与分区数量一致的要求,从而可在无需增加分区数量的情况下,仅通过增加性能开销较低的进程数量来更高效率的消费分布式发布订阅消息平台中的数据,提升数据读取速度。
处理进度