Pytorch框架研发专家(深圳/北京/上海/杭州)Apply |
|
Job Source |
腾讯集团 |
Location |
China, Shenzhen |
Salary |
Negotiable |
Designation |
Internet/AI |
Job Type |
Full Time |
Language |
|
Job Posted Date |
01-09-2025 |
Job Description |
|
1.主导 PyTorch 等主流大模型深度学习框架的核心研发,聚焦 GPU 及异构 AI 芯片(如昇腾、寒武纪)的深度适配与性能突破;负责框架算子层、执行引擎层的硬件特性优化(如 tensor core 利用率提升、访存路径优化、指令级并行调度),支撑大模型在异构硬件上的高效运行;
2.深度剖析框架引擎底层机制(如自动微分、动态图执行、算子调度逻辑),主导前沿大模型技术(如 Transformer 架构优化、混合精度训练、稀疏化推理、训推一体化)的研究与工程化落地;构建技术预研 - 原型验证 - 生产级适配的全链路能力,推动框架技术领先性; 3.牵头构建大模型框架的高可用、高扩展技术体系,与跨团队协同设计分布式训练 / 推理的容错机制、动态资源调度策略、版本兼容方案;主导系统稳定性指标(如服务可用性、任务成功率)与扩展性能力(如多芯片适配、超大规模集群支持)的持续优化,支撑千亿级参数模型的大规模训练与推理任务稳定运行。 |
|
Job Requirements |
|
1.精通 PyTorch 底层架构(深入理解 Autograd 机制、TorchScript/JIT 编译原理、分布式训练模块底层实现),具备千亿级以上参数大模型基于 PyTorch 的分布式训练(数据并行、模型并行、ZeRO 优化)与推理全链路实践经验;能独立定位并解决框架级复杂问题(如精度异常、性能瓶颈、分布式通信冲突)者优先;
2.深入掌握并行计算核心原理(MPI/NCCL 通信机制、同步 / 异步并行策略),精通 CUDA 编程模型(线程束调度、共享内存优化、内存 coalescing、异步拷贝);熟悉网络通信技术(RDMA 协议、TCP/IP 优化)、系统优化方法论(CPU/GPU 缓存利用率提升、内存碎片化治理)及集群硬件架构(CPU/GPU 拓扑、PCIe 带宽优化、存储 IO 路径设计); 3.具备卓越的编程功底,精通 Python 高性能编程(Cython 扩展、JIT 优化)与 C++ 底层开发(STL 深度应用、内存管理、多线程同步);精通数据结构与算法的工程化落地(如高效哈希表、并行排序、动态规划优化);深入掌握 Linux/Unix 系统内核调优(sysctl 参数、进程调度、IO 模型)及 Shell 脚本高级编程;熟练运用 Git 进行复杂项目版本管理(分支策略、冲突解决、CI/CD 集成); 4.主导过大规模 AI 集群(千卡级 GPU 以上)的性能分析与调优项目;精通系统性能诊断工具链(nsight、perf、gprof、nvidia-smi),能建立性能基准体系并制定针对性优化方案,成功解决过核心瓶颈问题(如通信延迟过高、内存溢出、算力利用率不足)。。加分项: |
Welcome to Linkedtour! Please complete your profile first and then enjoy your trip in Linkedtour!
Please complete now your information at our partner site and click to apply. Good luck !