大模型推理集群优化研发工程师Apply |
|
Job Source |
腾讯集团 |
Location |
China, Shanghai |
Salary |
Negotiable |
Job Type |
Full Time |
Language |
|
Job Posted Date |
20-06-2025 |
Job Description |
|
1.负责大模型推理集群的长期规划、架构设计与持续迭代,构建高可用、高性能的分布式推理基础设施;
2.参与大模型推理部署平台的建设,包括大模型模型服务管理、模型发布、模型滚动升级、模型回滚等基础能力; 3.构建大模型服务自动化部署工具链,支持一键式模型发布与集群扩缩容; 4.负责大语言模型PD分离架构下的集群优化,包括PD分离集群管理、PD分离高可用、PD分离集群资源优化等; 5.负责大语言服务层流量调度,包括流量分发系统、负载均衡策略(如动态权重分配、请求优先级调度、KV Cache感知); 6.设计面向外部的高性能大模型调用API(REST/gRPC),实现请求鉴权、流量控制、请求计费、熔断降级等核心功能; 7.搭建端到端监控体系(QPS/延迟/错误率/GPU利用率),建立SLA保障机制与故障自愈能力; 8.解决多租户场景下的资源隔离和资源复用问题,保证用户需求的基础上,实现最大化集群利用率。 |
|
Job Requirements |
|
1.熟悉容器化技术,熟悉Kubernetes技术栈,有Kubernetes生产级集群管理经验;
2.熟悉LLM推理特性(显存管理、动态批处理、KV Cache优化),熟悉开源大模型推理框架(如vLLM、SGLang); 3.熟悉LLM推理PD分离式架构,对PD分离架构下的调度、网络通信、并行策略等有一定了解; 4.有大规模分布式系统开发和优化经验优先; 5.有大模型推理框架经验优先; 6.有大模型推理PD分离架构优先; 7.有Maas平台落地经验优先。。加分项:1.在同等条件下,通过腾讯云认证或取得同等资格认证的候选人,我们会优先考虑。 |
Welcome to Linkedtour! Please complete your profile first and then enjoy your trip in Linkedtour!
Please complete now your information at our partner site and click to apply. Good luck !