您所在的位置: 需求库 技术需求 智能反爬预警平台

智能反爬预警平台

发布时间: 2022-12-03
来源: 科技服务团
截止日期:2022-12-03

价格 双方协商

地区: 重庆市 市辖区 永川区

需求方: 重庆***公司

行业领域

电子信息技术

需求背景

在大数据时代,数据就是金钱,很多网站运用了反爬虫机制,防止网页上的数据被爬虫爬走。然而如果反爬机制过于严格,可能会误伤到真正的用户请求;简单低级粗暴的爬虫速度快,伪装度低,如果没有反爬机制,它们可以很快的抓取大量数据,甚至因为请求过多,造成服务器不能正常工作。如何有效的智能化通过分析数据及流量来判定访客是否是爬虫,从而区别对待数据的访问,实现智能化的反爬预警。

需解决的主要技术难题

具有数据采集系统,可以智能模拟浏览器和用户行为,突破反爬虫限制。用户可通过浏览器模拟人工采集设置、调节采集速度、设定定时采集策略、代理IP设置等设置,智能模拟用户浏览行为,有效预防网站反爬,降低被识别风险与频率,高效采集网页数据。

①接入动静态代理IP

可接入第三方代理IP,动态和静态均可。

②代理IP测试

接入第三方代理IP后,可测试其有效性。

③代理IP优化

优化无效代理,优化响应过慢代理。

④多通道采集

多线程采集时,真实模拟多个通道进行采集的过程。

⑤动态IP锁定

将动态IP与运行时获取一条数据的一组请求锁定,更真实的模拟IP获取数据的过程。

⑥全局代理IP设置

设置全局代理IP,全局均能使用代理IP。

期望实现的主要技术目标

1.仅限制用户IP访问频率

限制IP访问频率通常表现为:当使用本地IP采集速度高于某频率时,就会出现采集错误,页面重定向等情况。当访问者IP信息存储在cookie中时,会增加爬虫难度。

2.限制用户ID访问频率

限制用户ID通常表现为:采集一段时间后,停止采集/采集错误,浏览器中该页面显示不出来(页面重定向、有验证码、错误页面等情况),清空浏览器浏览记录后,再次打开又可以正常显示。

这时可以看页面的cookie来确认服务器是否限制用户ID,当访问页面的cookie中有UID或其他ID字符串时,表示服务器对用户ID有识别。还有一种对UID加密的情况,这是cookie中有一串加密后的字符串。

3.用户IP访问频率用户ID访问频率双重限定

双重限制通常表现为:采集一段时间后,停止采集/采集错误,浏览器中该页面显示不出来(页面重定向、有验证码、错误页面等情况),清空浏览器浏览记录后,再次打开又可以正常显示。爬虫设置为多通道采集后采集一段时间发现IP被封了。通过观察页面cookie中是否既有IP又有UID/UID加密的信息,来进行判断。

处理进度

  1. 提交需求
    2022-12-03 13:40:23
  2. 确认需求
    2022-12-06 15:51:14
  3. 需求服务
  4. 需求签约
  5. 需求完成