机器人交互算法岗位(工程师/高级/专家)
职位描述
职位愿景:
加入我们,你将参与打造机器人新一代的“交互大脑”。我们致力于利用 Omni 全模态大模型 突破传统交互边界,实现从原生语音到物理动作(Speech-to-Action)的端到端映射,让机器人在复杂物理世界中具备实时、自然、且有逻辑的交互能力。
核心职责:
1. 交互架构与大模型研发
(1)负责基于 LLM/VLM/VLA 的机器人交互框架开发,实现音频、视觉与文本模态在原生大模型中的表征对齐;
(2)主导/参与 Audio-to-Audio 流式交互方案设计,优化端到端延迟及中断(Barge-in)响应体验;
2. 具身 Agent 与任务规划
(1)设计具身智能 Agent 协作流,将非结构化指令转化为结构化动作序列(Action Tokens);
(2)优化长链路推理(CoT)与自省机制(Self-reflection),利用长短期记忆与向量数据库解决逻辑漂移与幻觉问题;
3. 数据工程与模型训练
(1)构建高质量多模态对话与行为数据集,负责大规模数据的清洗、对齐标注及指令微调(SFT);
(2)应用强化学习(RLHF/RLAIF)提升机器人在物理约束下的决策确定性与安全性;
4. 端云协同与性能优化
推动模型在边缘端的量化、剪枝及算子级加速,确保感知-决策-执行链路的极速响应。
职位要求
1、教育背景: 计算机、人工智能及相关专业硕士或博士;
2、技术功底: 扎实的 Python/C++ 基础,精通 PyTorch 及分布式训练工具;
3、核心能力:
(1)深入理解 Transformer 架构,熟悉主流大模型(如 GPT-4o, Qwen-Audio, RT-2 等)原理;
(2)了解音频特征提取及 Audio Tokenizer(如 EnCodec, AudioDec)基本原理;
(3)有 Agent 框架(LangChain, AutoGPT 等)开发经验或多模态对齐经验者优先;
4、综合素质: 具备良好的学术前瞻性或工程落地能力,能解决非结构化环境下的鲁棒性挑战。
投递