语音与音频理解方向研究员（大模型与多模态方向） Internet/AI 腾讯集团

Connecting World's top Talents with Premier Jobs and Networking.

Post a job FREE lang

lang

Register Log in

Connecting World's top Talents with Premier Jobs and Networking.

语音与音频理解方向研究员（大模型与多模态方向） Apply Share link
Job Source	腾讯集团
Location	China, Shenzhen
Salary	Negotiable
Designation	Internet/AI
Job Type	Full Time
Language
Job Posted Date	04-07-2025
Job Description
1.我们正在构建原生支持视觉、音频与文本的大规模多模态模型体系，以推动人工智能系统实现对物理世界的全面感知与理解。你将加入语音与音频方向的核心研究团队，围绕以下关键研究任务开展工作：； 2.研发具备通用能力的端到端语音大模型，包括多语言语音识别、语音翻译、语音合成，副语言信息理解，音频理解等； 3.推进语音表征学习与语音编码/解码架构研究，构建适用于多任务、多模态的统一声学表征； 4.探索音频和语音在多模态大模型中的表征对齐与融合机制，与图像、文本联合建模； 5.构建并维护高质量的语音多模态数据集、自动标注与数据合成技术。
Job Requirements
1.计算机、电子工程、人工智能、语言学或相关领域博士，或硕士加多年相关工作经验； 2.深入理解语音音频信号处理、声学建模、语言模型和大模型架构； 3.熟练掌握语音识别，语音合成，语音翻译等一项多多项系统开发流程，具有多语言、多任务或端到端系统经验者优先； 4.对以下方向具备深入研究或实践经验者优先：； 5.语音表征预训练（如 HuBERT, Wav2Vec, Whisper 等）； 6.多模态对齐与跨模态建模（音视频和文本）； 7.有推动大模型在音频理解任务上达到 SOTA 性能的经验优先； 8.熟练掌握 PyTorch、TensorFlow等深度学习框架，有大规模训练与分布式系统经验者优先； 9.熟练 Transformer 类模型及其在语音、多模态领域的训练和推理。。加分项：

Apply

腾讯集团

Just one more quick step more to complete your application!

Welcome to Linkedtour! Please complete your profile first and then enjoy your trip in Linkedtour!

Just one more quick step more to complete your application!

Please complete now your information at our partner site and click to apply. Good luck !