Connecting World's top Talents with Premier Jobs and Networking.
Register
Connecting World's top Talents with Premier Jobs and Networking.

混元大模型推理研发专家(深圳/北京/上海/杭州)

Apply instagram Share link

Job Source

腾讯集团

Location

China, Shenzhen

Salary

Negotiable

Designation

Internet/AI

Job Type

Full Time

Language

Job Posted Date

01-09-2025

Job Description

1.深度协同算法团队,主导深度学习算法端到端推理系统的架构设计与落地实践,聚焦高吞吐、低延时核心目标,攻克大模型推理工程化落地关键技术瓶颈;
2.针对大模型推理全链路进行性能瓶颈深度剖析,通过算子优化、量化策略、资源调度等手段实现推理吞吐最大化;建立性能 - 成本评估体系,制定资源利用率极致优化方案,实现推理成本可控化;
3.主导大模型推理框架底层架构优化,完善框架功能模块(如动态批处理、推理缓存、容错机制);构建工程化能力体系,提升框架易用性(API 设计、配置化能力)与可调试性(日志系统、性能埋点、调试工具链),支撑大规模推理服务稳定迭代。

Job Requirements

1.精通 C/C++、Python 编程语言,具备深厚的计算机体系结构功底(深入理解 CPU/GPU 缓存机制、指令流水线、内存层次结构)或大型分布式系统开发经验;精通系统性能调优方法论,熟练使用 perf、gprof、nsight 等调优工具进行底层瓶颈定位;
2.精通 CUDA 核心编程模型(线程束调度、内存 coalescing、共享内存优化),熟悉 OpenCL 等异构编程框架;深入理解 cublas、cudnn、cutlass 等 GPU 加速库底层实现原理与调优策略,能基于硬件特性定制化优化计算逻辑;
3.具备 TensorRT/TensorRT-LLM/FasterTransformer/vllm/sglang 等推理引擎深度实践经验,主导过基于上述引擎的大模型推理系统定制化开发与性能调优;精通推理引擎底层优化技术(算子融合、量化策略、动态批处理、KV 缓存优化);
4.精通 Transformer 等大模型核心算子(Attention、FFN、LayerNorm)底层实现机制与性能优化方法;熟悉深度学习模型从训练到推理的全链路转化逻辑,具备大模型训推一体化问题定位(如精度漂移、性能衰减)与优化经验者优先;
5.精通 CPU/GPU 异构计算架构下数据传输瓶颈(PCIe 带宽、内存墙、缓存利用率)分析方法;具备服务器端 AI 芯片(如 NVIDIA H100/A100、昇腾 910)推理性能调优经验,熟悉硬件特性与软件适配策略者优先;
6.精通分布式推理核心技术(张量并行、流水线并行、ZeRO 优化、动态负载均衡),熟悉分布式通信框架(NCCL、MPI)底层原理;主导过千亿级以上参数大模型分布式推理系统部署、性能调优与稳定性保障,具备超大模型推理成本优化实践经验者优先。。加分项:



腾讯集团




Just one more quick step more to complete your application!

 

Welcome to Linkedtour! Please complete your profile first and then enjoy your trip in Linkedtour!

 

Just one more quick step more to complete your application!

 

Please complete now your information at our partner site and click to apply. Good luck !