语音与音频理解方向研究员(大模型与多模态方向)Apply |
|
Job Source |
腾讯集团 |
Location |
China, Shenzhen |
Salary |
Negotiable |
Designation |
Internet/AI |
Job Type |
Full Time |
Language |
|
Job Posted Date |
04-07-2025 |
Job Description |
|
1.我们正在构建原生支持视觉、音频与文本的大规模多模态模型体系,以推动人工智能系统实现对物理世界的全面感知与理解。你将加入语音与音频方向的核心研究团队,围绕以下关键研究任务开展工作:;
2.研发具备通用能力的端到端语音大模型,包括多语言语音识别、语音翻译、语音合成,副语言信息理解,音频理解 等; 3.推进 语音表征学习 与 语音编码/解码 架构研究,构建适用于多任务、多模态的统一声学表征; 4.探索音频和语音在多模态大模型中的表征对齐与融合机制,与图像、文本联合建模; 5.构建并维护高质量的语音多模态数据集、自动标注与数据合成技术。 |
|
Job Requirements |
|
1.计算机、电子工程、人工智能、语言学或相关领域博士,或硕士加多年相关工作经验;
2.深入理解语音音频信号处理、声学建模、语言模型和大模型架构; 3.熟练掌握 语音识别,语音合成,语音翻译等 一项多多项系统开发流程,具有多语言、多任务或端到端系统经验者优先; 4.对以下方向具备深入研究或实践经验者优先:; 5.语音表征预训练(如 HuBERT, Wav2Vec, Whisper 等); 6.多模态对齐与跨模态建模(音视频和文本); 7.有推动大模型在音频理解任务上达到 SOTA 性能的经验优先; 8.熟练掌握 PyTorch、TensorFlow等深度学习框架,有大规模训练与分布式系统经验者优先; 9.熟练 Transformer 类模型及其在语音、多模态领域的训练和推理。。加分项: |
Welcome to Linkedtour! Please complete your profile first and then enjoy your trip in Linkedtour!
Please complete now your information at our partner site and click to apply. Good luck !