机器学习平台调度工程师(北京/深圳)Apply |
|
Job Source |
腾讯集团 |
Location |
China, Beijing |
Salary |
Negotiable |
Job Type |
Full Time |
Language |
|
Job Posted Date |
20-06-2025 |
Job Description |
|
1.主导万卡级GPU集群的全局资源调度,通过精细化管理和优化策略,显著提升资源利用率,确保离线和在线任务的高效稳定运行;
2.深入优化RDMA高速网络、分布式存储与计算资源的协同调度,有效解决大规模训练任务中的性能瓶颈,提升整体计算效率; 3.基于Kubernetes、Docker等云原生技术,构建高可用调度框架,全面支持分布式训练框架,实现任务编排、容灾与混部能力,并深入K8s调度器、CSI插件及CRD的开发,推动大规模训推技术的实际落地; 4.积极探索混合云、虚拟化、ARM异构计算等前沿方向,不断推动技术与平台能力的升级和创新。 |
|
Job Requirements |
|
1.熟练掌握Go/Python/C++至少一门编程语言,精通数据结构和算法,具备扎实的编程基础和问题解决能力;
2.熟悉Kubernetes核心组件(调度器/网络/存储)、容器运行时及CRD开发,具备丰富的大规模集群调优经验,能够有效应对复杂环境下的调度需求; 3.具备OpenMP/MPI/RDMA高性能计算开发经验,熟悉并行计算原理及优化技巧,能够提升大规模训练任务的执行效率; 4.熟悉主流AI框架(Pytorch/TensorFlow等)及训练加速技术(算子优化/显存管理),能够针对AI任务进行深度优化。。加分项: |
Welcome to Linkedtour! Please complete your profile first and then enjoy your trip in Linkedtour!
Please complete now your information at our partner site and click to apply. Good luck !