当AI智能体(Agent)在屏幕上飞速生成代码、撰写报告、分析数据时,一个长期被忽视的短板日益凸显——它们听得见,却“听不清”。在嘈杂的开放式办公区、在客户电话的失真信号里、在多语言混合的会议现场,AI对语音的误解往往导致指令错乱、信息丢失,人机协作的效率大打折扣。

如今,一家名为“声睿科技”的AI初创公司,试图用一块指甲盖大小的录音硬件,给Agent装上真正的“顺风耳”。其最新发布的“EarLink”系列设备,不是简单的录音笔,而是一套融合了MEMS麦克风阵列、边缘AI降噪芯片和实时语义解析引擎的“听觉外骨骼”。

从“听见”到“听懂”的鸿沟

声睿科技创始人兼CEO陈默向记者展示了一个常见场景:在工厂车间里,技术员戴着安全帽巡检设备,帽子内置的智能录音模块能过滤掉机器轰鸣声,精准捕捉技术员与调度中心的对话;即使技术员用方言说出“三号机温控异常”,EarLink也能在设备端完成降噪、语音转文字和意图识别,将结构化指令发送给后台Agent。

“市面上很多语音助手只能处理‘关灯’‘播音乐’这类简单指令,但在复杂协作中,Agent需要理解上下文、过滤背景噪声、区分说话人,甚至识别语气中的紧急程度。”陈默表示,传统方案依赖云端或手机麦克风,但移动场景下的风声、多人同时发言、远场拾音等问题始终无解。

硬件即感知:重构人机交互的入口

EarLink的硬件设计极具巧思:它采用模块化磁吸方式,可附着在工牌、安全帽、耳机线甚至衣袖上,重量仅12克。内部集成了三颗高灵敏度MEMS麦克风,配合该公司自研的“动态波束成形”算法,能在半径5米内锁定主声源,将信噪比提升至60dB以上。

更关键的是,所有计算任务都在本地完成。一块低功耗AI芯片(功耗约0.5W)实时运行着经过蒸馏优化的语音大模型,支持中英日韩等15种语言及方言,延迟低于50毫秒。这意味着即使用户在网络不佳的矿井、隧道中,Agent也能“听清每一句话”。

“用户只负责自然地说,剩下的交给硬件和Agent。”陈默举例,在跨国视频会议中,EarLink能自动识别中英文交替发言,实时生成双语纪要,并将待办事项一键推送给不同参会者的Agent。过去需要秘书花费两小时整理的内容,现在会议结束即刻交付。

重构协作生态:从工具到“伙伴”

声睿科技的目标不止于硬件出货。围绕EarLink,公司搭建了“听觉中间件”平台:第三方Agent开发者只需接入API,即可获得标准化语音流输入。这意味着企业可以将其接入CRM、ERP、客服系统,让AI智能体像人类同事一样“随时待命”。

客服行业是首批受益者。传统智能客服需要用户按键或打字,而搭载EarLink的客服耳机能实时转写通话,并提示Agent情绪变化与应对策略。某电商平台实测显示,客诉处理效率提升40%,用户重复描述问题的概率下降70%。

在安全领域,EarLink还被用于危化品仓库巡检:工人每说一句“设备正常”,Agent自动记录时间戳与GPS坐标;若检测到“漏气”等危险关键词,Agent会立即触发警报并调度附近同事。这种“无声监控”模式下,安全事故响应速度提升了3倍。

挑战与未来:硬件之路能走多远?

尽管前景诱人,但声睿科技仍需直面挑战:消费级场景中,用户是否愿意为“多一个设备”买单?企业采购成本能否快速下降?陈默坦言,目前EarLink首批2万台已被B端合作伙伴预定,单台定价2999元,目标是以价换量,未来三年将硬件成本压缩至千元以内。

“我们相信,当Agent真正长出顺风耳,人机协作将从‘你说我做’进化为‘心有灵犀’。”陈默透露,下一代产品将加入方向感应与情感推理,让Agent不仅能听到,还能“听出”说话人的方位与情绪。

在AI竞赛的下半场,当无数公司在算法和算力上厮杀时,声睿科技用一块硬件证明了:让机器更好地倾听人类,或许才是回归协作本质的答案。毕竟,对话的意义不在于写满文字的屏幕,而在于听清每一个声音背后的需求。