技能标签
专业技能
精通Python全栈开发,擅长构建分布式爬虫系统(Scrapy框架+Requests库),具备大规模数据处理能力(Pandas+Spark)。熟悉数据采集、清洗、分析全流程,精通网络请求处理、反爬策略应对、动态Cookie管理、IP代理池构建等技术。掌握分布式计算框架(Spark),具备TB级数据ETL处理经验,熟悉DataFrame API、分布式机器学习任务调度。擅长数据结构化处理、特征工程、主题建模等大数据分析技术。
工作履历(脱敏处理)
主导构建电商平台评论分析系统,设计分布式爬虫架构应对反爬策略,实现日均千万级评论采集。开发Spark数据处理流水线,完成评论分词、情感分析和实体提取,构建主题模型实现用户反馈聚类。设计社交网络影响力分析引擎,通过自定义分区策略解决数据倾斜问题,实现亿级关系图谱分析。搭建搜索引擎质量评估体系,开发分布式数据清洗方案提升索引质量,优化搜索结果准确率。
项目经验(脱敏处理)
1. 电商平台评论分析系统:设计分布式爬虫架构,采用Scrapy框架构建IP代理池和智能限速机制,日均采集千万级评论数据。基于Spark完成评论结构化处理,利用DataFrame API实现分词、情感分析和实体提取,构建主题模型聚类用户反馈,发现产品缺陷比客服渠道早48小时。2. 社交网络影响力分析引擎:开发分布式数据处理流水线,通过自定义分区策略解决数据倾斜问题,实现亿级关系图谱分析。采用改进Node2Vec模型进行图嵌入,提升关键人物识别准确率20%。3. 搜索引擎质量评估体系:设计分布式数据清洗方案,构建千亿级网页质量评估模型,优化搜索结果准确率并提升索引质量。
驻场外包优势
服从性高
严格遵守甲方管理制度
技术扎实
15年项目实战经验
可长期驻场
接受异地项目外派
快速响应
24小时内可到岗
企业人才对接
专业IT人力外包服务
如果贵公司有IT项目人手缺口、需要工程师驻场开发、短期人力支援需求,欢迎联系洽谈合作。
合作热线
18969108718
商务邮箱
ntit@163.com
微信扫码咨询
扫描二维码添加商务对接