大模型分布式训练框架优化专家工程师（深圳/北京/上海/杭州） Internet/AI 腾讯集团

Connecting World's top Talents with Premier Jobs and Networking.

Post a job FREE lang

lang

Register Log in

Connecting World's top Talents with Premier Jobs and Networking.

大模型分布式训练框架优化专家工程师（深圳/北京/上海/杭州） Apply Share link
Job Source	腾讯集团
Location	China, Shenzhen
Salary	Negotiable
Designation	Internet/AI
Job Type	Full Time
Language
Job Posted Date	01-09-2025
Job Description
1.主导混元大模型训练框架核心性能优化体系建设，深度剖析分布式训练全链路瓶颈（计算 / 通信 / 内存），设计并落地针对性优化方案，支撑超大规模模型（千亿 / 万亿参数）训练效率显著提升； 2.跟踪全球大模型训练框架前沿技术动态（如 Megatron-LM、DeepSpeed、FlexFlow 等），研判技术演进趋势，主导关键技术预研与落地验证，输出技术选型报告与演进路线图； 3.参与新一代高性能训练框架的架构设计与核心模块开发，攻克分布式并行范式创新、自适应资源调度、低精度训练稳定性等关键技术难题，提升框架在超千卡集群下的扩展性与鲁棒性； 4.牵头公司内外训练框架开源生态共建，主导核心代码贡献、技术文档输出与社区问题响应，推动框架标准化与行业影响力建设，联合高校 / 企业伙伴共建技术生态； 5.沉淀框架优化方法论与最佳实践，搭建技术分享体系，赋能团队成员成长，主导跨团队（算法 / 算力 / 网络）技术协作，解决训练框架落地中的复杂技术问题。
Job Requirements
1.深入理解 m-core、FSDP 等分布式框架的底层通信机制、内存管理策略与并行调度逻辑，能精准定位其优劣势及核心优化方向； 2.精通分布式训练核心优化技术，包括 3D 并行（数据 / 模型 / 流水线并行）、ZeRO 内存优化机制、DualPipe 流水线调度、Checkpoint 优化等，能结合模型特性与集群规模制定最优技术方案，并清晰界定各类技术的适用场景与边界条件； 3.具备扎实的底层技术功底，精通 CUDA 编程（内核优化、内存访问模式调优）、算子融合策略、Triton/TVM 算子编译优化栈，熟悉 GPU 架构特性（如 A100/H100 Tensor Core）与性能调优工具（nsight、nvprof），有复杂算子性能优化实战经验； 4.具备优秀的编程能力与问题解决能力，熟练掌握 C++/Python 编程，精通数据结构与算法，能独立设计并实现框架核心模块；有大规模模型（百亿参数以上）训练框架调优或定制开发项目经验者优先； 5.具备丰富的跨团队协作经验，拥有清晰的技术沟通与文档撰写能力，能有效推动跨部门技术方案落地；有开源项目核心贡献经验（如向 PyTorch/DeepSpeed 提交过核心优化代码）者优先； 6.对大模型训练框架技术有极致追求，具备敏锐的技术洞察力与创新意识，了解业界前沿方向（如异构并行、自动并行、低比特训练），能主动探索技术突破点。。加分项：

Apply

腾讯集团

Just one more quick step more to complete your application!

Welcome to Linkedtour! Please complete your profile first and then enjoy your trip in Linkedtour!

Just one more quick step more to complete your application!

Please complete now your information at our partner site and click to apply. Good luck !