×

AI陪伴硬件企业必看:声网如何助力Robopoet打造下一代AI陪伴硬件

hqy hqy 发表于2025-04-27 06:03:43 浏览3 评论0百度已收录

抢沙发发表评论

随着 AIGC(生成式人工智能)技术的兴起,AI 硬件市场迎来了前所未有的发展机遇。AI 硬件通过实时陪伴、沉浸式故事体验和动态剧情,开辟了全新的人机互动体验。然而,当前许多 AI 硬件的语音交互体验不尽如人意。传统的基于 WebSocket 等技术的语音交互方案已难以跟上 AIGC 的快速发展,导致 AI 语音交互体验欠佳。要实现流畅、自然的 AI 语音交互体验,面临着诸多技术挑战,例如复杂环境下的噪声干扰、地下车库等弱信号环境下的通信问题,以及智能打断功能的实现等。

对于 AI 硬件企业而言,自行解决这些问题不仅成本高昂,而且耗时较长,在瞬息万变的 AI 市场中难以快速响应市场需求。因此,企业更应专注于自身业务逻辑与核心技术的打磨,而将底层技术难题交由专业的供应商解决。

在此背景下,上海珞博智能科技有限公司(以下简称 "Robopoet")通过与声网的合作,成功攻克了这些技术难题,为市场带来了一款具有卓越交互体验的 AI 硬件 Fuzzoo。这一案例生动展示了 AI 硬件企业如何通过与技术供应商合作,实现产品的快速迭代与市场投放,为行业提供了宝贵经验。

01 ‍

Robopoet为打造卓越交互体验,面临语音交互多项技术挑战,亟需合作加速产品上线

Robopoet 成立于 2024 年 1 月,专注于开发 AI 陪伴机器人。公司首款产品为 AI 陪伴宠物 Fuzzoo,主要面向女性群体,旨在通过创新技术革新情感陪伴体验。Fuzzoo 搭载了 Robopoet 独创的多模态情感模型(MEM),能够倾听、感知并抚慰用户情绪,同时具备养成属性,为用户提供实时个性化的陪伴服务。

然而,在 AI 玩具领域,传统硬件产品在语音交互方面普遍采用非实时技术方案。这导致用户在与 AI 玩具进行语音对话时,常常会感受到明显的延迟,极大地降低了交互的流畅性。此外,当对话环境中存在背景噪音干扰时,AI 玩具对指令的识别准确率也会大幅下降,使得用户在交互过程中感受到一种 " 机械式 " 的应答体验。

为了打造卓越的互动体验,Robopoet 对 Fuzzoo 提出了以下关键需求:

1. 交互反馈的即时性:Fuzzoo 需要能够迅速响应用户的指令和提问,提供流畅、无缝的交互体验,避免因延迟而让用户感到等待。

2. 嘈杂环境下的语音识别能力:即使在嘈杂的环境中,例如在地铁站、商场或聚会场景中,Fuzzoo 也必须能够清晰地识别用户的语音指令,避免将背景噪音误判为有效输入,确保交互的准确性。

3. 低带宽环境下的通信能力:在户外或网络信号较弱的场景下,例如地下停车场,Fuzzoo 需要能够在有限的带宽条件下,将用户的语音信息高效、准确地传输至后端大模型,确保大模型能够清晰地解析用户的意图。

4. 语音识别的精准性:当用户在说话时,周围可能存在其他人的交谈声,Fuzzoo 需要具备精准的语音识别能力,能够准确区分主讲人的语音,避免将其他人的声音误判为主讲人的指令。

5. 支持打断功能:在交互过程中,用户可能需要随时打断 Fuzzoo 的回应,Fuzzoo 需要支持这种灵活的交互方式,而不仅仅是按照固定的问答顺序进行交流。

鉴于自身解决这些问题将面临高投入和长周期的挑战,而 Robopoet 希望 Fuzzoo 能够尽快上线,因此他们决定与专业的技术供应商合作,共同攻克这些技术难题,以实现产品的快速迭代和市场投放。

02

声网凭借低延迟、降噪、网络稳定、精准识别及智能打断等技术优势,以及与主流大模型的适配能力,成为 Robopoet   的理想合作伙伴

Robopoet 的创始团队年轻且高效,在与声网沟通后,双方迅速达成合作共识。一方面,声网与 Robopoet 对市场趋势有着相似的判断,均看好 AI 情感陪伴市场的巨大潜力;另一方面,声网在对话式 AI 领域的技术能力与 Robopoet 的需求高度契合。

在语音交互方面,低延迟是实现流畅体验的关键。当延迟达到 3 秒时,用户会明显感受到卡顿和迟缓,而声网的响应延迟中位数仅为 650 毫秒,这一数据已在中、美、欧、东南亚等主要城市经过实测验证。如此快速的反应速度能够与人类自然对话体验相仿,有效消除用户的等待焦虑感。

在降噪能力上,声网在 3A 算法(声学回声消除、自动增益控制、自动噪声抑制)和 AI 降噪技术方面均具备深厚积累。传统 3A 算法能够有效解决稳态噪声问题,例如持续的嗡嗡声或鼓掌声;而 AI 降噪技术则专注于处理瞬态噪声,如用户经过建筑工地时突然出现的钻地声等突发性噪声。这种降噪能力能够有效净化语音信号,提升交互质量。

在复杂网络环境下,声网的软件定义实时网(SD-RTN)展现了强大的稳定性。声网在全球建设了 200 多个数据中心,并通过智能路由和抗弱网算法,确保在地铁、地下车库等网络信号不佳的场景下,依然能够实现流畅的语音互动。即使在面临 80% 丢包率的情况下,用户与 AI 之间的交流也能保持稳定,即便断网 3-5 秒,对话依旧可以无缝衔接。

声网的 " 选择性注意力锁定 " 技术能够屏蔽 95% 的环境人声和噪声干扰,精准识别对话人声。在多人共用麦克风的场景下,该技术可以准确区分不同说话者的声音,并根据用户需求提取特定声音,将其他声音作为噪声进行降噪处理,从而提供更优质的语音交互体验。

此外,声网自研的 " 智能打断 " 技术能够模拟真人对话节奏,支持用户随时打断与 AI 的对话。该技术的打断响应时间低至 340 毫秒,真正实现了自然流畅的对话体验。与传统 AI 对话系统相比,声网的技术能够智能识别用户的意图,例如用户发出 " 嗯嗯 " 等声音时,系统不会误判为打断指令,从而更精准地模拟人与人之间的自然交流。

除了在智能语音技术方面的深厚积累外,声网还与全球几乎所有主流大模型厂商(如 DeepSeek、ChatGPT 等)完成了适配。这意味着 Robopoet 在未来可以根据自身需求自由切换不同的大模型,不受单一供应商的限制,从而更好地应对大模型快速迭代的市场环境。

03  

声网通过端到端的软硬件解决方案,为 Robopoet 提供技术支持,使其能够专注于核心业务逻辑和情感模型的优化,共同推动 Fuzzoo 研发

声网为 Robopoet 提供了端到端的解决方案,涵盖软件和硬件的全方位支持。

在软件层面,声网提供了对话式 AI   开发套件。其中,先进的语音活动检测(VAD)技术能够精准识别语音信号,有效降低背景噪音的干扰,从而确保语音识别的高准确率。实时语音合成功能实现了快速响应,让交互更加流畅自然。智能打断处理技术则赋予了设备灵活的对话能力,能够根据用户的表达实时调整,极大地提升了交互的适应性与流畅度,告别 " 机械式 " 应答,助力 Fuzzoo 实现更流畅、更迅速的交互体验。

在硬件层面,声网也为 Robopoet 提供了全面支持,涵盖芯片选型、功耗设计、震动马达等关键环节,确保硬件性能与软件功能的高度匹配。

在此合作模式下,Robopoet 可以专注于自身业务的核心领域。例如,Fuzzoo 的业务逻辑如何运行,玩偶之间如何进行社交互动,这些都是 Robopoet   需要关注的重点。Fuzzoo 的核心竞争力在于 Robopoet 自研的多模态情感模型(MEM),如何打磨和优化这一模型,也是 Robopoet 需要集中精力解决的问题。声网则通过其技术优势,为 Robopoet 提供坚实的底层支持,确保 Fuzzoo 在交互体验上的卓越表现。

04

Fuzzoo 在 MWC 上成功发布,获得了市场的高度关注和认可

Robopoet 于 2025   年世界移动通信大会(MWC)上进行了 Fuzzoo 的路透。Fuzzoo 能够时刻陪伴用户并倾听其需求,通过用户的语言、表情和行为感知情感变化,并做出相应的语言安慰、震动或表情变换等回应,目前内置超过 200 种表情变换。随着互动时间和次数的增加,Fuzzoo 与用户之间会变得越来越熟悉,不仅能建立更深层次的情感联系,甚至还可以培养独特的性格。此外,Fuzzoo 还会以独特视角记录与用户的日常互动,生成 " 日记 " 以提升亲密度。Fuzzoo 还特别增加了 NFC 功能,宠物之间只需轻轻一碰即可成为好朋友,充分展现了其社交属性。Robopoet 计划在 2025 年 6 月进行 Fuzzoo 的正式发布,并同时开启线上预售。

Robopoet 联合创始人兼 CTO 潘雨楠表示," 声网的对话式 AI 技术赋予了下一代 AI 硬件和机器人实时感知、思考、反应和交流的能力。凭借超低延迟响应、智能打断、以及先进的语音处理能力,声网让人机互动变的更加自然流畅,并始终为互动体验的稳定性和可靠性保驾护航。"