Connecting World's top Talents with Premier Jobs and Networking.
Register
Connecting World's top Talents with Premier Jobs and Networking.

机器学习平台调度工程师​​(北京/深圳)

Apply instagram Share link

Job Source

腾讯集团

Location

China, Beijing

Salary

Negotiable

Job Type

Full Time

Language

Job Posted Date

20-06-2025

Job Description

1.主导万卡级GPU集群的全局资源调度,通过精细化管理和优化策略,显著提升资源利用率,确保离线和在线任务的高效稳定运行;
2.深入优化RDMA高速网络、分布式存储与计算资源的协同调度,有效解决大规模训练任务中的性能瓶颈,提升整体计算效率;
3.基于Kubernetes、Docker等云原生技术,构建高可用调度框架,全面支持分布式训练框架,实现任务编排、容灾与混部能力,并深入K8s调度器、CSI插件及CRD的开发,推动大规模训推技术的实际落地;
4.积极探索混合云、虚拟化、ARM异构计算等前沿方向,不断推动技术与平台能力的升级和创新。

Job Requirements

1.熟练掌握Go/Python/C++至少一门编程语言,精通数据结构和算法,具备扎实的编程基础和问题解决能力;
2.熟悉Kubernetes核心组件(调度器/网络/存储)、容器运行时及CRD开发,具备丰富的大规模集群调优经验,能够有效应对复杂环境下的调度需求;
3.具备OpenMP/MPI/RDMA高性能计算开发经验,熟悉并行计算原理及优化技巧,能够提升大规模训练任务的执行效率;
4.熟悉主流AI框架(Pytorch/TensorFlow等)及训练加速技术(算子优化/显存管理),能够针对AI任务进行深度优化。。加分项:



腾讯集团




Just one more quick step more to complete your application!

 

Welcome to Linkedtour! Please complete your profile first and then enjoy your trip in Linkedtour!

 

Just one more quick step more to complete your application!

 

Please complete now your information at our partner site and click to apply. Good luck !