技能标签
专业技能
精通LLM推理架构设计与优化,掌握vLLM/SGLang/llama.cpp等主流推理引擎底层原理,擅长PagedAttention内存管理、Continuous Batching连续批处理及FlashAttention加速技术。具备大规模分布式推理系统性能调优经验,熟悉Ray/BentoML等框架选型与应用。精通分布式系统设计,掌握Actor模型编程范式与MapReduce并行计算策略,擅长数据分片与张量并行优化。精通Python全栈开发,熟练使用FastAPI构建高并发异步服务,熟悉OpenAI API标准实现与模型全生命周期管理。
工作履历(脱敏处理)
长期从事大模型后端系统开发与优化,主导设计并实现企业级分布式推理架构,成功提升推理吞吐量300%。深入研究LLM推理引擎底层原理,实现内存管理与批处理优化方案,降低硬件资源消耗。主导开发高并发异步服务接口,支持百万级QPS请求处理。设计分布式计算框架,采用数据分片与张量并行策略,实现TB级数据处理效率提升。持续优化模型部署方案,完成从模型训练到服务化的全链路工程化落地。
项目经验(脱敏处理)
Xinference企业级大模型分布式推理系统:主导设计并实现支持多模型并发的分布式推理架构,采用vLLM引擎实现PagedAttention内存管理,通过Continuous Batching技术提升吞吐量300%。针对不同硬件环境设计优化策略,通过FlashAttention加速技术降低推理延迟。开发基于Ray框架的分布式调度系统,实现模型服务的弹性扩展。设计OpenAI兼容API接口,完成模型生命周期管理与服务化封装,支撑企业级AI应用落地。
驻场外包优势
服从性高
严格遵守甲方管理制度
技术扎实
5年项目实战经验
可长期驻场
接受异地项目外派
快速响应
24小时内可到岗
企业人才对接
专业IT人力外包服务
如果贵公司有IT项目人手缺口、需要工程师驻场开发、短期人力支援需求,欢迎联系洽谈合作。
合作热线
18969108718
商务邮箱
ntit@163.com
微信扫码咨询
扫描二维码添加商务对接