一种面向网络的多通道大数据采集系统及方法
发布时间: 2022-05-07
来源: 试点城市(园区)
基本信息
本发明公开了面向网络的多通道大数据采集系统及方法,其中,面向网络的多通道大数据采集系统由论坛数据采集单元、博客数据采集单元、新闻数据采集单元及关系型数据库中数据采集单元构成的分布式定向采集体系架构组成;论坛数据采集单元,用于分别通过动态网页采集方法和网页信息抽取方法对在线论坛及离线论坛内的网络数据进行采集;博客数据采集单元,用于负责广度遍历博客站点,目的是获取博客Feed地址;对每个Feed地址对应的博客进行实时采集,跟踪更新的博客文章,以增量更新方式采集博客信息;新闻数据采集单元,用于采用基于行块分布函数的方法抽取新闻网页中的正文文本;关系型数据库中数据采集单元,用于采用数据转移工具来批量采集关系型数据库中数据。