腾讯广告-算法工程师-机制多目标排序方向Apply |
|
Job Source |
腾讯集团 |
Location |
China, Shenzhen |
Salary |
Negotiable |
Designation |
Marketing/Public Relations/Advertising |
Job Type |
Full Time |
Language |
|
Job Posted Date |
29-07-2025 |
Job Description |
|
1.多目标强化学习算法开发与调优。基于业务场景构建DQN、PPO、SAC等算法的改进框架,针对延迟奖励稀疏性设计分层强化学习架构。搭建离线仿真环境与在线AB测试闭环,设计动态滑动窗口评估机制,量化算法迭代效果;
2.效果瓶颈分析与突破。构建强化学习可解释性分析工具(如SHAP值、注意力热力图),定位状态表征缺失/奖励函数偏差/探索不足等瓶颈。设计课程学习机制,通过渐进式难度提升策略解决稀疏奖励场景下的策略退化问题; 3.状态与奖励机制创新。构建异构特征融合模型,集成用户实时行为序列(LSTM)、跨场景偏好迁移(Meta Learning)等高阶状态表征。设计复合奖励函数,融合稠密奖励(点击行为)与稀疏奖励(购买行为),引入基于KL散度的奖励塑形技术; 4.跟踪深度学习、计算广告、推荐系统,deepseek等最新前沿技术,应用到多目标排序。 |
|
Job Requirements |
|
1.计算机/统计学/运筹学硕士及以上学历,1-3年强化学习实战经验;
2.扎实的强化学习理论基础,掌握MDP、贝尔曼方程等核心理论框架,深入理解DQN、PPO、DDPG等算法原理,具备改进算法效率和稳定性能力。同时有传统机器学习和深度学习知识背景,熟悉Transformer/Attention等原理和应用; 3.扎实的编程基础(Python/Java/Scala),熟悉Linux开发环境。丰富的实战经验,精通TensorFlow/pyTorch等强化学习框架使用,熟悉Spark/Flink 大数据计算框架; 4.需保持强烈技术好奇心,主动学习各种前沿技术并实践落地,鼓励创新。有KDD/WWW等顶会发表过RL相关论文者优先。。加分项: |
Welcome to Linkedtour! Please complete your profile first and then enjoy your trip in Linkedtour!
Please complete now your information at our partner site and click to apply. Good luck !