岗位职责1.遵照robots协议,参与全网爬虫系统建设;2.参与开发分布式的网络爬虫,共同解决实际开发过程碰到的各类问题(优化调度、并发、覆盖率等),提升数据抓取的效果和性能;3.参与网页抽取,网页质量技术算法的研究和开发,提升数据抓取的效率和质量;4.参与爬取数据的去重、解析入库、爬虫系统的监控和异常警报。任职要求1.爬虫实习经验,有过海量数据爬取存储经验为佳;2.了解主流爬虫框架工具,熟悉Http/Tcp等网络协议;3.了解常见反爬封禁策略,具备实战经验,了解浏览器内核相关优先;4.有搜索,大数据处理,内容质量等相关开发经验优先;5.熟悉各种大数据相关框架组件优先,如kafka,Hadoop/Spark,MapReduce,Hive等;6.了解NLP基本技术,实际使用过如Fasttext、N-gram、Bert、GPT等算法和模型者优先。
联系我时,请说是在58同城上看到的,谢谢!