Connecting World's top Talents with Premier Jobs and Networking.
Register
Connecting World's top Talents with Premier Jobs and Networking.

混元大模型Infra稳定性专家(深圳/北京/上海/杭州)

Apply instagram Share link

Job Source

腾讯集团

Location

China, Shenzhen

Salary

Negotiable

Designation

Internet/AI

Job Type

Full Time

Language

Job Posted Date

01-09-2025

Job Description

1.主导混元大模型基础设施高可用体系建设,负责核心链路稳定性战略规划与落地,定义稳定性 SLA 并推动达成,支撑大规模训练任务持续高效运行;
2.牵头框架、算力、网络、存储等跨模块技术协同,设计并落地全链路关键指标(metric)采集体系,构建覆盖训练全生命周期的可观测性平台,实现问题早发现、早定位;
3.主导智能化故障节点与慢节点检测平台研发,攻克大规模集群下节点异常识别、根因分析难题,建立自动化故障隔离与恢复机制,显著降低故障对训练任务的影响;
4.负责混元一站式平台核心能力 —— 任务自动续训体系的架构设计与技术突破,解决分布式训练状态一致性、断点续训效率优化等关键问题,提升任务容错能力与资源利用率;
5.作为技术专家响应并解决大模型训练中的复杂故障与性能瓶颈问题,沉淀故障处理方法论与最佳实践,形成技术资产并赋能团队;
6.跟踪行业前沿技术动态(如新型加速芯片、分布式训练框架、低延迟网络技术等),主导技术预研与落地,推动基础设施架构持续演进。

Job Requirements

1.熟悉 Megatron-LM、PyTorch 等框架的底层分布式训练原理与训练全流程,深入理解数据并行、模型并行、流水线并行等分布式策略的实现机制;
2.深入掌握 GPU(如 A100/H100)、NPU 等加速硬件的架构设计、工作原理及性能特性,熟练运用 nvtop、nvidia-smi、perf、nsight 等调试与性能分析工具,具备硬件故障深度排查与性能调优经验;
3.精通 RDMA 网络硬件特性(如 RoCE、IB)与协议原理,深入理解 all2all、allGather、reduceScatter 等集合通信算子的底层实现与性能优化策略,有大规模集群网络架构设计、低延迟优化或网络故障根因分析经验者优先;
4.深入理解容器化技术原理,精通 Docker/Kubernetes 容器编排与管理,熟悉分布式存储(如 Ceph、NAS)架构与存储挂载机制,具备大规模容器集群与存储系统运维调优经验;
5.具备丰富的大规模分布式任务系统(如超千卡集群训练任务)故障排查经验,能独立解决跨层(硬件、网络、框架、调度)复杂问题,有大型 AI 训练集群稳定性治理成功案例者优先;
6.具备优秀的技术领导力与跨团队协作能力,能主导复杂技术项目落地;拥有清晰的逻辑思维与表达能力,善于沉淀技术经验并推动团队技术成长;
7.对技术有极致追求,有较强的问题驱动能力与创新意识,了解行业主流大模型训练基础设施技术栈(如 DeepSpeed、FSDP、Slurm 等)者优先。。加分项:



腾讯集团




Just one more quick step more to complete your application!

 

Welcome to Linkedtour! Please complete your profile first and then enjoy your trip in Linkedtour!

 

Just one more quick step more to complete your application!

 

Please complete now your information at our partner site and click to apply. Good luck !