腾讯广告-算法工程师-机制多目标排序方向 Marketing/Public Relations/Advertising 腾讯集团

Connecting World's top Talents with Premier Jobs and Networking.

Post a job FREE lang

lang

Register Log in

Connecting World's top Talents with Premier Jobs and Networking.

腾讯广告-算法工程师-机制多目标排序方向 Apply Share link
Job Source	腾讯集团
Location	China, Shenzhen
Salary	Negotiable
Designation	Marketing/Public Relations/Advertising
Job Type	Full Time
Language
Job Posted Date	29-07-2025
Job Description
1.多目标强化学习算法开发与调优。基于业务场景构建DQN、PPO、SAC等算法的改进框架，针对延迟奖励稀疏性设计分层强化学习架构。搭建离线仿真环境与在线AB测试闭环，设计动态滑动窗口评估机制，量化算法迭代效果； 2.效果瓶颈分析与突破。构建强化学习可解释性分析工具（如SHAP值、注意力热力图），定位状态表征缺失/奖励函数偏差/探索不足等瓶颈。设计课程学习机制，通过渐进式难度提升策略解决稀疏奖励场景下的策略退化问题； 3.状态与奖励机制创新。构建异构特征融合模型，集成用户实时行为序列（LSTM）、跨场景偏好迁移（Meta Learning）等高阶状态表征。设计复合奖励函数，融合稠密奖励（点击行为）与稀疏奖励（购买行为），引入基于KL散度的奖励塑形技术； 4.跟踪深度学习、计算广告、推荐系统，deepseek等最新前沿技术，应用到多目标排序。
Job Requirements
1.计算机/统计学/运筹学硕士及以上学历，1-3年强化学习实战经验； 2.扎实的强化学习理论基础，掌握MDP、贝尔曼方程等核心理论框架，深入理解DQN、PPO、DDPG等算法原理，具备改进算法效率和稳定性能力。同时有传统机器学习和深度学习知识背景，熟悉Transformer/Attention等原理和应用； 3.扎实的编程基础（Python/Java/Scala），熟悉Linux开发环境。丰富的实战经验，精通TensorFlow/pyTorch等强化学习框架使用，熟悉Spark/Flink 大数据计算框架； 4.需保持强烈技术好奇心，主动学习各种前沿技术并实践落地，鼓励创新。有KDD/WWW等顶会发表过RL相关论文者优先。。加分项：

Apply

腾讯集团

Just one more quick step more to complete your application!

Welcome to Linkedtour! Please complete your profile first and then enjoy your trip in Linkedtour!

Just one more quick step more to complete your application!

Please complete now your information at our partner site and click to apply. Good luck !