数据处理端通过Spark接入Kafka,对接收的信令数据进行实时清洗,剔除脏数据,然后存储到后端数据仓库ClickHouse。Spark并行45个执行进程,每个执行进程并行4个任务线程,总计180个任务线程,对应Kafka 180个分区。各个任务线程连接到独立的Kafka分区,独立清洗和存储数据。为了进一步提升并行效率,Spark将8台ClickHouse主机进行逻辑切分,180个任务线程的写端,均匀分散到8个ClickHouse主机。实际工作时,每分钟Spark的工作负荷约在 30%~60%,能够轻松处理数千万的Kafka数据,真正实现Kafka流数据实时处理的目标。
平台在原有架构基础上进行创新,采用ClickHouse数据仓库最新架构。ClickHouse数据仓库由8台主机构成存储集群,其中4台主机进行分片,以提升总体的存储容量,另外4台作为副本提供高可用。作为当前最流行的OLAP解决方案,数据平台充分利用了 ClickHouse以下优点。压缩率非常高效:根据实际应用检测,能够提供 5 倍以上的压缩比;极快的插入效率:相比Hive或传统数据库如MySQL,ClickHouse具有极快的插入INSERT 效率;支持物化视图和投影:这一机制,允许构建灵活的索引,同时能够构建自动流动的数据表;极快的查询效率:根据官方数据基准测试,ClickHouse的查询速度达到Hive的279倍,是MySQL的801倍;部署维护简单高效:只部署 Keeper和ClickHouse Server两个进程,只需要配置一份文件,部署和运维工作量,不到 Hadoop 设施的十分之一。
本项目总共有15人参与,其中包括10位的硕士研究生,5人是学士学位。团队成员主要来自通信、软件研发和软件工程专业,具备扎实的技术背景和丰富的经验。在项目的研究领域上,大家紧密合作,相互协调,根据迭代式的工作计划,有序推进开发工作,以满足平台功能。
评价单位:“科创中国”山东科技服务团(示范项目) (山东省科学技术协会)
评价时间:2023-08-16
综合评价
1.打造了赋能千行百业的数字孪生技术平台,在数据生产端,千万条数据实现分钟级写入;在数据处理端,实现流数据实时处理;通过“写触发器+异步合并”的合并算法,降低耗时。
2.基于FATE的联邦学习本地化技术架构,结合同态加密和分布式机器学习算法,实现了数据高效融合和安全流通;采用多平台互联互通的云联邦融“盒”基座,实现多平台快速适配。
3.以三维地理信息系统(3D GIS)为图层底座,以运营商时空数据+行业数据为要素,通过数字孪生技术构建了智慧管控平台,提供快速自动的城市级模型展示能力。
四、项目成果通过了第三方机构检测,已在省内多地推广应用,社会、经济效益良好。
评价专家一致认为:该成果在城市洞察大数据分析方面有创新,达到国内领先水平。
查看更多>