混元大模型Infra稳定性专家(深圳/北京/上海/杭州)Apply |
|
Job Source |
腾讯集团 |
Location |
China, Shenzhen |
Salary |
Negotiable |
Designation |
Internet/AI |
Job Type |
Full Time |
Language |
|
Job Posted Date |
01-09-2025 |
Job Description |
|
1.主导混元大模型基础设施高可用体系建设,负责核心链路稳定性战略规划与落地,定义稳定性 SLA 并推动达成,支撑大规模训练任务持续高效运行;
2.牵头框架、算力、网络、存储等跨模块技术协同,设计并落地全链路关键指标(metric)采集体系,构建覆盖训练全生命周期的可观测性平台,实现问题早发现、早定位; 3.主导智能化故障节点与慢节点检测平台研发,攻克大规模集群下节点异常识别、根因分析难题,建立自动化故障隔离与恢复机制,显著降低故障对训练任务的影响; 4.负责混元一站式平台核心能力 —— 任务自动续训体系的架构设计与技术突破,解决分布式训练状态一致性、断点续训效率优化等关键问题,提升任务容错能力与资源利用率; 5.作为技术专家响应并解决大模型训练中的复杂故障与性能瓶颈问题,沉淀故障处理方法论与最佳实践,形成技术资产并赋能团队; 6.跟踪行业前沿技术动态(如新型加速芯片、分布式训练框架、低延迟网络技术等),主导技术预研与落地,推动基础设施架构持续演进。 |
|
Job Requirements |
|
1.熟悉 Megatron-LM、PyTorch 等框架的底层分布式训练原理与训练全流程,深入理解数据并行、模型并行、流水线并行等分布式策略的实现机制;
2.深入掌握 GPU(如 A100/H100)、NPU 等加速硬件的架构设计、工作原理及性能特性,熟练运用 nvtop、nvidia-smi、perf、nsight 等调试与性能分析工具,具备硬件故障深度排查与性能调优经验; 3.精通 RDMA 网络硬件特性(如 RoCE、IB)与协议原理,深入理解 all2all、allGather、reduceScatter 等集合通信算子的底层实现与性能优化策略,有大规模集群网络架构设计、低延迟优化或网络故障根因分析经验者优先; 4.深入理解容器化技术原理,精通 Docker/Kubernetes 容器编排与管理,熟悉分布式存储(如 Ceph、NAS)架构与存储挂载机制,具备大规模容器集群与存储系统运维调优经验; 5.具备丰富的大规模分布式任务系统(如超千卡集群训练任务)故障排查经验,能独立解决跨层(硬件、网络、框架、调度)复杂问题,有大型 AI 训练集群稳定性治理成功案例者优先; 6.具备优秀的技术领导力与跨团队协作能力,能主导复杂技术项目落地;拥有清晰的逻辑思维与表达能力,善于沉淀技术经验并推动团队技术成长; 7.对技术有极致追求,有较强的问题驱动能力与创新意识,了解行业主流大模型训练基础设施技术栈(如 DeepSpeed、FSDP、Slurm 等)者优先。。加分项: |
Welcome to Linkedtour! Please complete your profile first and then enjoy your trip in Linkedtour!
Please complete now your information at our partner site and click to apply. Good luck !