大模型训练框架研发工程师-精调/蒸馏方向Apply |
|
Job Source |
腾讯集团 |
Location |
China, Shanghai |
Salary |
Negotiable |
Job Type |
Full Time |
Language |
|
Job Posted Date |
20-06-2025 |
Job Description |
|
1.框架开发与优化:负责强化学习、模型精调、知识蒸馏等核心模块的设计与开发,提升框架的训练效率与易用性;
2.分布式训练支持:基于Megatron-LM、DeepSpeed等工具,优化大模型分布式训练策略(数据并行/张量并行/流水并行/专家并行等),解决显存、通信与计算瓶颈; 3.工具链构建:参与开发轻量化训练框架(如LLama-Factory、swift),支持快速模型微调、部署及多硬件平台适配; 4.前沿技术探索:跟踪学术动态(如RLHF、MoE架构、FlashMLA、EPLB、DualPipe等),将最新研究成果转化为框架功能,提升产品竞争力; 5.协作与文档:与产品团队紧密配合,提供框架级解决方案;编写技术文档与案例,赋能公有云客户。 |
|
Job Requirements |
|
1.计算机科学、数学、电子工程等相关专业硕士及以上学历,3年以上深度学习框架或工具链开发经验,精通Python,熟练使用C++;
2.有Megatron-LM、DeepSpeed等开源框架使用或二次开发经验,理解分布式训练、显存优化技术; 3.熟悉强化学习(RL)、知识蒸馏、模型压缩等算法原理,具备相关模块开发经验; 4.熟悉CUDA编程、高性能计算优化(如算子融合、通信优化)者优先; 5.熟悉NCCL、MPI等集合通信算法者优先; 6.工程经验上具备大型项目架构设计能力,能独立解决性能调优、多节点调试等复杂问题; 7.综合素养;强烈的技术热情,良好的沟通能力与团队协作精神。。加分项:1.在顶级会议(NeurIPS/ICML/CVPR等)发表过框架优化或算法相关论文; 2.活跃于开源社区(如PyTorch、HuggingFace项目贡献者); 3.有LLM训练、RLHF全流程开发经验; 4.在同等条件下,通过腾讯云认证或取得同等资格认证的候选人,我们会优先考虑。 |
Welcome to Linkedtour! Please complete your profile first and then enjoy your trip in Linkedtour!
Please complete now your information at our partner site and click to apply. Good luck !