您所在的位置: 成果库 分布式微信公众平台爬虫系统

分布式微信公众平台爬虫系统

发布时间: 2022-08-27

来源: 科技服务团

基本信息

合作方式: 技术转让
成果类型: 发明专利
行业领域:
电子信息技术
成果介绍
1.系统使用Redis数据库服务器作为整个系统的主节点,充当所有爬虫节点的通信媒介;使用MySQL数据库来存储爬取到的字符串数据;使用FastDFS集群来存储爬取到的文件数据。 2.系统基于Redis数据库实现了一个新的调度器,并替换掉Scrapy框架的内置调度器,使得多个爬虫节点间能够共享PriorityQueue对象和 RFPDupeFilter对象,。 3.本系统中的流水线由UploadPipeline子模块、PublicPipeline子模块和MsgPipeline子模块三个子模块组成。其中,UploadPipeline子模块负责根据ltem中所带的URL信息将文件下载下来后,上传至 FastDFS集群,并将返回的保存位置信息(卷名和文件名)存入Item对象中,供后续子模块使用;PublicPipeline子模块负责将其携带的公众号信息存入MySQL 数据库的 public表;MsgPipeline子模块负责将其携带的文章信息存入MySOL数据库的msg表。
成果亮点
1.系统将文件存储FastDFS分布式文件系统。能够灵活地通过增加存储节点服务器进行容量扩充,通过增加冗余服务器进行数据容灾。 2.系统选用redis-py模块与Redis数据库服务器建立网络连接。
团队介绍
哈尔滨向尚科技有限公司,成立于2019年,以信息系统集成为基础,大数据挖掘及应用为核心,监控及通信领域为主要服务对象,相关行业为拓展,提供物联网技术的研发及应用、软件及硬件产品的开发、大数据的挖掘及应用等服务及咨询业务。
成果资料