IT人力外包人才简历库

返回列表

数据采集工程师

驻场外包人员
工作年限:2年 意向城市:深圳 浏览:4次 发布时间:近期

技能标签

Python Scrapy 分布式爬虫 MySQL Redis XPath 正则表达式 HTTP协议 Linux 数据清洗 爬虫框架 数据库优化 自动化脚本 数据采集 网络通信

专业技能

精通Scrapy框架及分布式爬虫架构设计,熟练掌握MySQL数据库优化与索引策略,掌握Redis分布式缓存技术,熟悉XPath/BeautifulSoup网页解析技术,精通正则表达式与数据清洗处理,熟悉HTTP协议及TCP/IP网络通信机制,掌握Linux系统部署与进程管理,具备Python自动化脚本开发能力

工作履历(脱敏处理)

主要负责企业数据采集系统的开发与维护工作,主导设计并实现基于Scrapy-Redis的分布式爬虫架构,解决反爬虫机制下的数据采集难题。优化爬虫调度算法提升数据抓取效率30%,设计Redis缓存策略降低数据库压力。开发数据清洗脚本提升数据准确性,建立完整的数据采集-存储-分析流程。参与多个行业数据采集项目,包括企业信用信息、新闻资讯等场景,累计处理数据量超500万条。

项目经验(脱敏处理)

项目名称:企业信用信息数据采集系统

项目描述:基于Scrapy-Redis构建分布式爬虫架构,实现企业信用信息网数据采集。采用分布式任务调度解决高并发采集需求,通过XPath匹配技术解析复杂页面结构,设计分页处理机制应对动态加载内容。开发数据清洗脚本处理异常数据,利用Redis缓存中间结果提升系统稳定性。最终实现日均百万级数据采集,数据准确率达99.8%。技术挑战:反爬虫机制导致采集频率受限,解决方案:采用分布式调度+随机延时策略;页面结构动态变化,解决方案:结合XPath与正则表达式构建灵活解析规则;数据存储瓶颈,解决方案:引入Redis缓存分批次写入MySQL。

驻场外包优势

服从性高

严格遵守甲方管理制度

技术扎实

2年项目实战经验

可长期驻场

接受异地项目外派

快速响应

24小时内可到岗

企业人才对接

专业IT人力外包服务

如果贵公司有IT项目人手缺口、需要工程师驻场开发、短期人力支援需求,欢迎联系洽谈合作。

合作热线

18969108718

商务邮箱

ntit@163.com

微信扫码咨询

微信咨询二维码

扫描二维码添加商务对接

立即申请人才对接