高薪招聘爬虫工程师招聘
价格: 50万以上元/月
福田区 | 3-5年 | 本科/学士及同等学历 | 人才招聘 | 电子信息技术
需求描述
岗位职责:
1.负责开发网络爬虫系统,完成数据采集与爬取、解析处理、入库等数据日常工作;
2.研究各种网页探寻特点和规律,负责网页信息抽取、数据清洗等研发和优化工作;
3.负责领域知识的定向爬取、深度提取和挖掘;配合数据的清洗、整理、去重及合并等工作;
4.负责性能优化、处理能力和效率提高,优化抓取策略,充分利用带宽资源,避免各类限制;
5.负责与机器学习工程师、大数据工程师、数据挖掘、分析人员、运营及产品等协同工作,完成数据统计、查询和分析。
职位要求:
***年及以上相关经验;
2.精通网页抓取原理及技术,熟悉基于Cookie或JWT的网站登录原理,熟悉基于正则表达式、XPath、CSS等网页信息;
3.精通Python编程语言,精通JavaScript,对HTTP协议及HTML有深入的了解;精通正则表达式,用于从各种网络结构化和非结构化数据中抽取有用的信息;
4.熟练掌握数据库开发,对数据处理和数据质量有较深认识;精通至少一种主流数据NoSQL、MySQL数据库;
5.熟悉Selenium、WebDriver、PhantomJS、htmlunit、Nutch、ETL、HtmlParser等技术优先;有分布式爬虫架构,数据挖掘经验者优先。
办公地址
深圳福田区世纪汇都会轩3508
处理进度