数据中心AI网络方向工程师Apply |
|
Job Source |
腾讯集团 |
Location |
China, Beijing |
Salary |
Negotiable |
Job Type |
Full Time |
Language |
|
Job Posted Date |
20-06-2025 |
Job Description |
|
1.GPU集群通信架构设计与优化:负责数据中心AI场景下GPU集群通信架构的设计与开发,优化多卡/多机通信性能,提升分布式训练效率;研究并实现GPU与网络设备(如交换机、RDMA网卡)的协同工作,解决通信延迟、带宽瓶颈等关键问题;
2.通信库与驱动开发:开发高性能GPU通信库(NCCL/DeepEP/NVsharemem 等),适配主流AI框架(TensorFlow/PyTorch),支持大规模集群通信需求; 3.GPU通信性能调优:分析通信性能瓶颈(硬件/软件层面),通过算法优化、代码重构或硬件选型提升整体吞吐量;与硬件团队协作,验证GPU新架构的通信能力,提供技术反馈与改进建议; 4.生态兼容与标准化:参与制定GPU通信协议标准,推动异构计算生态的互联互通。 |
|
Job Requirements |
|
1.教育背景:硕士及以上学历,计算机、通信、电子工程、高性能计算等相关专业;
2.核心技能(有以下经验者优先):熟悉CUDA(CUDA graph, kernel, stream, PTX ISA)开发流程;掌握Cuda Core/Tensor Core的混合精度计算原理,熟悉FP16/FP32/TF32等的运算优化方法;熟悉 GPU 基本架构,对SM、L1/L2 Cache、HBM等核心组件有深入理解,对线程/任务调度有丰富经验; 3.项目经验:GPU集群通信相关经验,主导或参与过AI训练/推理平台的通信优化项目;有GPU通信库开发经验者优先; 4.加分项:发表过GPU通信、分布式计算领域的高质量论文或专利;具备GPU虚拟化、FPGA异构加速等跨领域经验。。加分项: |
Welcome to Linkedtour! Please complete your profile first and then enjoy your trip in Linkedtour!
Please complete now your information at our partner site and click to apply. Good luck !