太极GPU智能调度专家(深圳/北京/上海/杭州)Apply |
|
Job Source |
腾讯集团 |
Location |
China, Shenzhen |
Salary |
Negotiable |
Designation |
Internet/AI |
Job Type |
Full Time |
Language |
|
Job Posted Date |
01-09-2025 |
Job Description |
|
1.主导万卡级 GPU 集群全局资源调度体系的战略规划与架构设计,通过构建动态资源画像、智能负载预测及精细化调度策略,实现资源利用率显著提升,保障离线训练与在线推理任务的高效稳定运行;
2.深入解析 RDMA 协议栈、分布式存储 IO 路径与计算资源的协同机制,定位并攻克大规模训练任务中的网络瓶颈、存储延迟等性能卡点,优化数据流转全链路吞吐量,支撑超大规模模型高效训练; 3.基于 Kubernetes、Docker 等云原生技术栈,主导高可用调度框架的架构设计与核心模块开发,深度适配分布式训练框架(如 Megatron-LM、DeepSpeed)需求,实现任务智能编排、自动化容灾与混合部署能力;深入 K8s 调度器源码级优化、CSI 插件定制开发及 CRD 扩展设计,推动大规模训推一体化技术落地; 4.牵头探索混合云资源池化、虚拟化技术(如 KVM / 容器虚拟化)、ARM 异构计算等前沿方向的技术验证与方案落地,制定技术演进路线图,持续推动计算资源调度平台的能力升级与技术创新; 5.沉淀大规模集群调度最佳实践与技术方法论,主导跨团队技术协作(如框架、硬件、网络团队),解决调度领域复杂技术难题,支撑业务高速增长。 |
|
Job Requirements |
|
1.熟练掌握 Go/Python/C++ 至少一门编程语言,精通数据结构与算法,具备扎实的底层编程能力与复杂问题拆解能力;
2.精通 Kubernetes 核心组件原理,包括调度器(调度算法、扩展点、Predicates/Priorities)、网络插件(Calico/Flannel)、存储 CSI 插件开发与适配;熟悉容器运行时(containerd/runc)机制,具备万级节点规模 K8s 集群调优、故障诊断与性能优化经验,能有效应对复杂场景下的调度需求; 3.具备深厚的高性能计算技术积累,拥有 OpenMP/MPI 并行程序设计经验,深入理解 RDMA 硬件加速原理(RoCE/IB)与集合通信优化技巧;熟悉 GPU 虚拟化技术(如 vGPU/MIG),能结合硬件特性优化资源分配策略; 4.深入理解主流 AI 框架(PyTorch/TensorFlow)底层分布式训练机制(如 AllReduce/Sharding),熟悉训练加速技术(算子优化、显存管理、混合精度训练),能针对 AI 任务特性设计专属调度策略,实现计算效率最大化; 5.具备大规模集群调度系统性能调优、故障根因分析的丰富经验,能独立解决跨硬件、网络、软件层的复杂技术问题,有超千卡级 GPU 集群调度平台搭建或优化成功案例者优先; 6.具备优秀的技术领导力与跨团队协作能力,能主导复杂技术项目从 0 到 1 落地;拥有清晰的技术视野与逻辑表达能力,善于推动技术标准制定与团队能力沉淀; 7.对云原生、异构计算、混合云等领域技术有深入研究,了解 Slurm、YARN 等传统调度系统,具备大规模 AI 集群调度平台或云原生 AI 平台建设经验者优先。。加分项: |
Welcome to Linkedtour! Please complete your profile first and then enjoy your trip in Linkedtour!
Please complete now your information at our partner site and click to apply. Good luck !