Connecting World's top Talents with Premier Jobs and Networking.
Register
Connecting World's top Talents with Premier Jobs and Networking.

太极GPU智能调度专家(深圳/北京/上海/杭州)

Apply instagram Share link

Job Source

腾讯集团

Location

China, Shenzhen

Salary

Negotiable

Designation

Internet/AI

Job Type

Full Time

Language

Job Posted Date

01-09-2025

Job Description

1.主导万卡级 GPU 集群全局资源调度体系的战略规划与架构设计,通过构建动态资源画像、智能负载预测及精细化调度策略,实现资源利用率显著提升,保障离线训练与在线推理任务的高效稳定运行;
2.深入解析 RDMA 协议栈、分布式存储 IO 路径与计算资源的协同机制,定位并攻克大规模训练任务中的网络瓶颈、存储延迟等性能卡点,优化数据流转全链路吞吐量,支撑超大规模模型高效训练;
3.基于 Kubernetes、Docker 等云原生技术栈,主导高可用调度框架的架构设计与核心模块开发,深度适配分布式训练框架(如 Megatron-LM、DeepSpeed)需求,实现任务智能编排、自动化容灾与混合部署能力;深入 K8s 调度器源码级优化、CSI 插件定制开发及 CRD 扩展设计,推动大规模训推一体化技术落地;
4.牵头探索混合云资源池化、虚拟化技术(如 KVM / 容器虚拟化)、ARM 异构计算等前沿方向的技术验证与方案落地,制定技术演进路线图,持续推动计算资源调度平台的能力升级与技术创新;
5.沉淀大规模集群调度最佳实践与技术方法论,主导跨团队技术协作(如框架、硬件、网络团队),解决调度领域复杂技术难题,支撑业务高速增长。

Job Requirements

1.熟练掌握 Go/Python/C++ 至少一门编程语言,精通数据结构与算法,具备扎实的底层编程能力与复杂问题拆解能力;
2.精通 Kubernetes 核心组件原理,包括调度器(调度算法、扩展点、Predicates/Priorities)、网络插件(Calico/Flannel)、存储 CSI 插件开发与适配;熟悉容器运行时(containerd/runc)机制,具备万级节点规模 K8s 集群调优、故障诊断与性能优化经验,能有效应对复杂场景下的调度需求;
3.具备深厚的高性能计算技术积累,拥有 OpenMP/MPI 并行程序设计经验,深入理解 RDMA 硬件加速原理(RoCE/IB)与集合通信优化技巧;熟悉 GPU 虚拟化技术(如 vGPU/MIG),能结合硬件特性优化资源分配策略;
4.深入理解主流 AI 框架(PyTorch/TensorFlow)底层分布式训练机制(如 AllReduce/Sharding),熟悉训练加速技术(算子优化、显存管理、混合精度训练),能针对 AI 任务特性设计专属调度策略,实现计算效率最大化;
5.具备大规模集群调度系统性能调优、故障根因分析的丰富经验,能独立解决跨硬件、网络、软件层的复杂技术问题,有超千卡级 GPU 集群调度平台搭建或优化成功案例者优先;
6.具备优秀的技术领导力与跨团队协作能力,能主导复杂技术项目从 0 到 1 落地;拥有清晰的技术视野与逻辑表达能力,善于推动技术标准制定与团队能力沉淀;
7.对云原生、异构计算、混合云等领域技术有深入研究,了解 Slurm、YARN 等传统调度系统,具备大规模 AI 集群调度平台或云原生 AI 平台建设经验者优先。。加分项:



腾讯集团




Just one more quick step more to complete your application!

 

Welcome to Linkedtour! Please complete your profile first and then enjoy your trip in Linkedtour!

 

Just one more quick step more to complete your application!

 

Please complete now your information at our partner site and click to apply. Good luck !