腾讯云-AI大模型SRE工程师Apply |
|
Job Source |
腾讯集团 |
Location |
China, Shenzhen |
Salary |
Negotiable |
Job Type |
Full Time |
Language |
|
Job Posted Date |
20-06-2025 |
Job Description |
|
1.负责腾讯云大模型平台的稳定运行,支持开源Deepseek等模型服务训练与部署的多个环节;
2.优化模型的部署流程,包括持续集成、持续部署( CI / CD )和自动化工具; 3.负责集群管理和服务治理,设计容灾方案并实施演练,保障系统高可用和稳定性; 4.负责资源成本管理与规划,优化计算和存储资源,提升机器学习任务的执行效率; 5.分析 AI 硬件应用中的质量性能表现,提供系统技术支持能力,推动改进识别和落地; 6.关注业界前沿技术动态,探索复杂业务系统运维自动化和智能化的技术和方向。 |
|
Job Requirements |
|
1.本科及以上学历,3年以上工作经验,有机器学习平台相关开发或运维经验;
2.熟练使用 Go /Python/ Shell 等一种或多种编程语言,善于使用自动化/智能化方法让服务稳定高效; 3.熟悉容器技术,掌握K8s、 Docker 的技术原理,有实际使用和运维经验; 4.深入了解GPU架构与并行计算,掌握CUDA编程实践,熟悉RDMA网络通信技术、NCCL集合通讯,大模型分布式训练与推理架构及模型压缩技术; 5.对于AI大模型应用的构建、部署和维护过程有深入理解; 6.有优秀的逻辑分析能力,能够对业务逻辑进行合理的抽象和拆分; 7.具有良好的沟通协调能力,较好的团队合作精神、责任心和一定抗压能力。。加分项: |
Welcome to Linkedtour! Please complete your profile first and then enjoy your trip in Linkedtour!
Please complete now your information at our partner site and click to apply. Good luck !