杭州大模型后端开发工程师 - 外包人才简历详情

大模型后端开发工程师

驻场外包人员

工作年限：5年意向城市：北京浏览：4次发布时间：近期

技能标签

LLM Infra vLLM SGLang PagedAttention Continuous Batching FlashAttention Ray框架 BentoML Actor模型 MapReduce 张量并行 FastAPI OpenAI API 模型生命周期管理分布式系统性能调优

专业技能

精通LLM推理架构设计与优化，掌握vLLM/SGLang/llama.cpp等主流推理引擎底层原理，擅长PagedAttention内存管理、Continuous Batching连续批处理及FlashAttention加速技术。具备大规模分布式推理系统性能调优经验，熟悉Ray/BentoML等框架选型与应用。精通分布式系统设计，掌握Actor模型编程范式与MapReduce并行计算策略，擅长数据分片与张量并行优化。精通Python全栈开发，熟练使用FastAPI构建高并发异步服务，熟悉OpenAI API标准实现与模型全生命周期管理。

工作履历（脱敏处理）

长期从事大模型后端系统开发与优化，主导设计并实现企业级分布式推理架构，成功提升推理吞吐量300%。深入研究LLM推理引擎底层原理，实现内存管理与批处理优化方案，降低硬件资源消耗。主导开发高并发异步服务接口，支持百万级QPS请求处理。设计分布式计算框架，采用数据分片与张量并行策略，实现TB级数据处理效率提升。持续优化模型部署方案，完成从模型训练到服务化的全链路工程化落地。

项目经验（脱敏处理）

Xinference企业级大模型分布式推理系统：主导设计并实现支持多模型并发的分布式推理架构，采用vLLM引擎实现PagedAttention内存管理，通过Continuous Batching技术提升吞吐量300%。针对不同硬件环境设计优化策略，通过FlashAttention加速技术降低推理延迟。开发基于Ray框架的分布式调度系统，实现模型服务的弹性扩展。设计OpenAI兼容API接口，完成模型生命周期管理与服务化封装，支撑企业级AI应用落地。

驻场外包优势

服从性高

严格遵守甲方管理制度

技术扎实

5年项目实战经验

可长期驻场

接受异地项目外派

快速响应

24小时内可到岗

企业人才对接

专业IT人力外包服务

如果贵公司有IT项目人手缺口、需要工程师驻场开发、短期人力支援需求，欢迎联系洽谈合作。

合作热线

18969108718

商务邮箱

ntit@163.com

微信扫码咨询

扫描二维码添加商务对接

立即申请人才对接

IT人力外包人才简历库