大模型分布式训练框架优化专家工程师(深圳/北京/上海/杭州)Apply |
|
Job Source |
腾讯集团 |
Location |
China, Shenzhen |
Salary |
Negotiable |
Designation |
Internet/AI |
Job Type |
Full Time |
Language |
|
Job Posted Date |
01-09-2025 |
Job Description |
|
1.主导混元大模型训练框架核心性能优化体系建设,深度剖析分布式训练全链路瓶颈(计算 / 通信 / 内存),设计并落地针对性优化方案,支撑超大规模模型(千亿 / 万亿参数)训练效率显著提升;
2.跟踪全球大模型训练框架前沿技术动态(如 Megatron-LM、DeepSpeed、FlexFlow 等),研判技术演进趋势,主导关键技术预研与落地验证,输出技术选型报告与演进路线图; 3.参与新一代高性能训练框架的架构设计与核心模块开发,攻克分布式并行范式创新、自适应资源调度、低精度训练稳定性等关键技术难题,提升框架在超千卡集群下的扩展性与鲁棒性; 4.牵头公司内外训练框架开源生态共建,主导核心代码贡献、技术文档输出与社区问题响应,推动框架标准化与行业影响力建设,联合高校 / 企业伙伴共建技术生态; 5.沉淀框架优化方法论与最佳实践,搭建技术分享体系,赋能团队成员成长,主导跨团队(算法 / 算力 / 网络)技术协作,解决训练框架落地中的复杂技术问题。 |
|
Job Requirements |
|
1.深入理解 m-core、FSDP 等分布式框架的底层通信机制、内存管理策略与并行调度逻辑,能精准定位其优劣势及核心优化方向;
2.精通分布式训练核心优化技术,包括 3D 并行(数据 / 模型 / 流水线并行)、ZeRO 内存优化机制、DualPipe 流水线调度、Checkpoint 优化等,能结合模型特性与集群规模制定最优技术方案,并清晰界定各类技术的适用场景与边界条件; 3.具备扎实的底层技术功底,精通 CUDA 编程(内核优化、内存访问模式调优)、算子融合策略、Triton/TVM 算子编译优化栈,熟悉 GPU 架构特性(如 A100/H100 Tensor Core)与性能调优工具(nsight、nvprof),有复杂算子性能优化实战经验; 4.具备优秀的编程能力与问题解决能力,熟练掌握 C++/Python 编程,精通数据结构与算法,能独立设计并实现框架核心模块;有大规模模型(百亿参数以上)训练框架调优或定制开发项目经验者优先; 5.具备丰富的跨团队协作经验,拥有清晰的技术沟通与文档撰写能力,能有效推动跨部门技术方案落地;有开源项目核心贡献经验(如向 PyTorch/DeepSpeed 提交过核心优化代码)者优先; 6.对大模型训练框架技术有极致追求,具备敏锐的技术洞察力与创新意识,了解业界前沿方向(如异构并行、自动并行、低比特训练),能主动探索技术突破点。。加分项: |
Welcome to Linkedtour! Please complete your profile first and then enjoy your trip in Linkedtour!
Please complete now your information at our partner site and click to apply. Good luck !