IT人力外包人才简历库

返回列表

大模型后端开发工程师

驻场外包人员
工作年限:5年 意向城市:北京 浏览:4次 发布时间:近期

技能标签

LLM Infra vLLM SGLang PagedAttention Continuous Batching FlashAttention Ray框架 BentoML Actor模型 MapReduce 张量并行 FastAPI OpenAI API 模型生命周期管理 分布式系统 性能调优

专业技能

精通LLM推理架构设计与优化,掌握vLLM/SGLang/llama.cpp等主流推理引擎底层原理,擅长PagedAttention内存管理、Continuous Batching连续批处理及FlashAttention加速技术。具备大规模分布式推理系统性能调优经验,熟悉Ray/BentoML等框架选型与应用。精通分布式系统设计,掌握Actor模型编程范式与MapReduce并行计算策略,擅长数据分片与张量并行优化。精通Python全栈开发,熟练使用FastAPI构建高并发异步服务,熟悉OpenAI API标准实现与模型全生命周期管理。

工作履历(脱敏处理)

长期从事大模型后端系统开发与优化,主导设计并实现企业级分布式推理架构,成功提升推理吞吐量300%。深入研究LLM推理引擎底层原理,实现内存管理与批处理优化方案,降低硬件资源消耗。主导开发高并发异步服务接口,支持百万级QPS请求处理。设计分布式计算框架,采用数据分片与张量并行策略,实现TB级数据处理效率提升。持续优化模型部署方案,完成从模型训练到服务化的全链路工程化落地。

项目经验(脱敏处理)

Xinference企业级大模型分布式推理系统:主导设计并实现支持多模型并发的分布式推理架构,采用vLLM引擎实现PagedAttention内存管理,通过Continuous Batching技术提升吞吐量300%。针对不同硬件环境设计优化策略,通过FlashAttention加速技术降低推理延迟。开发基于Ray框架的分布式调度系统,实现模型服务的弹性扩展。设计OpenAI兼容API接口,完成模型生命周期管理与服务化封装,支撑企业级AI应用落地。

驻场外包优势

服从性高

严格遵守甲方管理制度

技术扎实

5年项目实战经验

可长期驻场

接受异地项目外派

快速响应

24小时内可到岗

企业人才对接

专业IT人力外包服务

如果贵公司有IT项目人手缺口、需要工程师驻场开发、短期人力支援需求,欢迎联系洽谈合作。

合作热线

18969108718

商务邮箱

ntit@163.com

微信扫码咨询

微信咨询二维码

扫描二维码添加商务对接

立即申请人才对接