Connecting World's top Talents with Premier Jobs and Networking.
Register
Connecting World's top Talents with Premier Jobs and Networking.

Pytorch框架研发专家(深圳/北京/上海/杭州)

Apply instagram Share link

Job Source

腾讯集团

Location

China, Shenzhen

Salary

Negotiable

Designation

Internet/AI

Job Type

Full Time

Language

Job Posted Date

01-09-2025

Job Description

1.主导 PyTorch 等主流大模型深度学习框架的核心研发,聚焦 GPU 及异构 AI 芯片(如昇腾、寒武纪)的深度适配与性能突破;负责框架算子层、执行引擎层的硬件特性优化(如 tensor core 利用率提升、访存路径优化、指令级并行调度),支撑大模型在异构硬件上的高效运行;
2.深度剖析框架引擎底层机制(如自动微分、动态图执行、算子调度逻辑),主导前沿大模型技术(如 Transformer 架构优化、混合精度训练、稀疏化推理、训推一体化)的研究与工程化落地;构建技术预研 - 原型验证 - 生产级适配的全链路能力,推动框架技术领先性;
3.牵头构建大模型框架的高可用、高扩展技术体系,与跨团队协同设计分布式训练 / 推理的容错机制、动态资源调度策略、版本兼容方案;主导系统稳定性指标(如服务可用性、任务成功率)与扩展性能力(如多芯片适配、超大规模集群支持)的持续优化,支撑千亿级参数模型的大规模训练与推理任务稳定运行。

Job Requirements

1.精通 PyTorch 底层架构(深入理解 Autograd 机制、TorchScript/JIT 编译原理、分布式训练模块底层实现),具备千亿级以上参数大模型基于 PyTorch 的分布式训练(数据并行、模型并行、ZeRO 优化)与推理全链路实践经验;能独立定位并解决框架级复杂问题(如精度异常、性能瓶颈、分布式通信冲突)者优先;
2.深入掌握并行计算核心原理(MPI/NCCL 通信机制、同步 / 异步并行策略),精通 CUDA 编程模型(线程束调度、共享内存优化、内存 coalescing、异步拷贝);熟悉网络通信技术(RDMA 协议、TCP/IP 优化)、系统优化方法论(CPU/GPU 缓存利用率提升、内存碎片化治理)及集群硬件架构(CPU/GPU 拓扑、PCIe 带宽优化、存储 IO 路径设计);
3.具备卓越的编程功底,精通 Python 高性能编程(Cython 扩展、JIT 优化)与 C++ 底层开发(STL 深度应用、内存管理、多线程同步);精通数据结构与算法的工程化落地(如高效哈希表、并行排序、动态规划优化);深入掌握 Linux/Unix 系统内核调优(sysctl 参数、进程调度、IO 模型)及 Shell 脚本高级编程;熟练运用 Git 进行复杂项目版本管理(分支策略、冲突解决、CI/CD 集成);
4.主导过大规模 AI 集群(千卡级 GPU 以上)的性能分析与调优项目;精通系统性能诊断工具链(nsight、perf、gprof、nvidia-smi),能建立性能基准体系并制定针对性优化方案,成功解决过核心瓶颈问题(如通信延迟过高、内存溢出、算力利用率不足)。。加分项:



腾讯集团




Just one more quick step more to complete your application!

 

Welcome to Linkedtour! Please complete your profile first and then enjoy your trip in Linkedtour!

 

Just one more quick step more to complete your application!

 

Please complete now your information at our partner site and click to apply. Good luck !