岩石科技的“岩石信息采集系统(R-Crawler)”
发布时间: 2021-06-11
来源: 试点城市(园区)
基本信息
产品简介
岩石信息采集系统,利用网络爬虫技术,针对定制的目标数据源,实时进行信息采集、抽取、挖掘、处理,从而为各种信息服务系统提供数据输入的整个过程。系统采用分布式框架,提供web信息采集和全文检索功能。
简单易用,自动抓取
简单易用,通过模拟用户浏览网页的方式, 自动抓取互联网信息,通过集群采集、url去重、 元数据处理、网页解析及存储,完成互联网信息采集及存储。
海量大数据采集
海量的数据处理能力,能轻松应对大数据采集需要;多线程采集,采集结果可以直接保存到本地;支持断点续采,断网后重连后可自动续采;采集速度快,抛弃落后低效的正则匹配技术,使用自己研发的解析引擎。
全文检索,覆盖全网
采集方式的对象化,正文和回复内容能实现同时采集;借助全文搜索引擎,轻松实现覆盖全文的舆情信息监测;轻松从网络批量获取所需要的信息。
平台架构
特色功能
操作简单
可视化操作,无需编程基础,熟悉电脑操作即可轻松掌握,任何人适用,通过几次点击,即可快速完成采集。
所见即所得
所见即所得浏览器可见的内容都可以采集。采集的对象包括文字内容,图片,flash动画视频等等各类网络内容。支持图文混排对象的同时采集。
面向对象采集
面向对象的采集方式。正文和回复内容同时采集的能力,分页的内容可轻松合并,采集内容可以是分散在多个页面内。结果可以是复杂的父子表结构。
智能分析
利用搜索引擎的智能解析内核,实现对网页内容的仿浏览器解析、分解、内容提取、近似页面比对等等。
分布式集群采集
多机集群采集,支持负载均衡和数据分布式存储,提高性能和可靠性。
网页去重,自动解析
对解析后网页内容进行指纹计算,重复性认定更智能,支持对网页内容细粒度的解析,支持正则表达式解析规则,能在线调试表达。
调度监控
支持周期性调度,支持人工启动、暂停、停止;可在网页中监控爬取过程中的后台日志。
视觉模拟
采集软件会模拟人的视觉来分析网页,在此基础上利用参考(模板)页面实现采集匹配工作。
智能化辅助技术
利用智能化搜索引擎的解析内核,可以帮助用户自动找到分页链接、分离页面框架内容等等,努力减少用户的操作过程。
舆情监控
借助全部中文搜素引擎,轻松实现全网舆情信息的监测,信息覆盖面最广。
大数据采集
多个爬虫节点分布式部署,协同实现海量大数据实时抓取,海量数据处理能力,可以应付大数据采集的需要。
资料收集
轻松从网络中批量获取需要的信息,利用云采集功能,可以轻松绕开被采集网站的防采集机制。如58、赶集、百姓网、阿里巴巴、慧聪等等。