Connecting World's top Talents with Premier Jobs and Networking.
Register
Connecting World's top Talents with Premier Jobs and Networking.

腾讯云-AI大模型SRE工程师

Apply instagram Share link

Job Source

腾讯集团

Location

China, Shenzhen

Salary

Negotiable

Job Type

Full Time

Language

Job Posted Date

20-06-2025

Job Description

1.负责腾讯云大模型平台的稳定运行,支持开源Deepseek等模型服务训练与部署的多个环节;
2.优化模型的部署流程,包括持续集成、持续部署( CI / CD )和自动化工具;
3.负责集群管理和服务治理,设计容灾方案并实施演练,保障系统高可用和稳定性;
4.负责资源成本管理与规划,优化计算和存储资源,提升机器学习任务的执行效率;
5.分析 AI 硬件应用中的质量性能表现,提供系统技术支持能力,推动改进识别和落地;
6.关注业界前沿技术动态,探索复杂业务系统运维自动化和智能化的技术和方向。

Job Requirements

1.本科及以上学历,3年以上工作经验,有机器学习平台相关开发或运维经验;
2.熟练使用 Go /Python/ Shell 等一种或多种编程语言,善于使用自动化/智能化方法让服务稳定高效;
3.熟悉容器技术,掌握K8s、 Docker 的技术原理,有实际使用和运维经验;
4.深入了解GPU架构与并行计算,掌握CUDA编程实践,熟悉RDMA网络通信技术、NCCL集合通讯,大模型分布式训练与推理架构及模型压缩技术;
5.对于AI大模型应用的构建、部署和维护过程有深入理解;
6.有优秀的逻辑分析能力,能够对业务逻辑进行合理的抽象和拆分;
7.具有良好的沟通协调能力,较好的团队合作精神、责任心和一定抗压能力。。加分项:



腾讯集团




Just one more quick step more to complete your application!

 

Welcome to Linkedtour! Please complete your profile first and then enjoy your trip in Linkedtour!

 

Just one more quick step more to complete your application!

 

Please complete now your information at our partner site and click to apply. Good luck !