×

详解具身智能算力需求,英特尔推大小脑融合方案

hqy hqy 发表于2025-04-23 04:31:49 浏览3 评论0百度已收录

抢沙发发表评论

作者 | ZeR0

编辑 | 漠影

智东西 4 月 22 日报道,近日,在 2025 英特尔具身智能解决方案推介会上,英特尔正式发布其具身智能大小脑融合方案(下称具身智能方案)。

该方案基于英特尔酷睿 Ultra 处理器以及全新的具身智能软件开发套件和 AI 加速框架打造,凭借创新性的模块化设计,能够兼顾操作精度和智能泛化能力,且性价比出色,可满足不同领域需求。

现在具身智能产品处于小批量阶段,不同应用场景对 IO 接口、传感器、算力有不同的需求。如何打造能够快速适配不同需求的灵活计算平台,是一个关键挑战。

许多具身智能大小脑方案采用双系统来实现。而英特尔推出的具身智能应用解决方案采用一体化单系统设计,能够以较低的总成本,实现高效灵活的工作负载分配。

硬件上,该方案搭配英特尔酷睿 Ultra CPU 核心板。英特尔酷睿 Ultra 200H CPU 可提供 90 TOPS 性能,下一代 Panther Lake 算力可达到 180 TOPS。

其硬件方案采用模块化设计,可针对不同具身智能应用场景进行灵活搭配,包括支持 MxM 嵌入式显卡插槽,可扩展接入英特尔锐炫独立显卡;摄像头转接板,接入多路 MIPI/GMSL 嵌入式摄像头,扩展感知能力;独立的 IO 载板,扩展各类接口。

软件上,该具身智能方案提供全栈式软件平台,包括底层的 BSP、算法模型、加速库、参考示例等,附文档和开发教程;还提供实时调优 BKC、RT Linux 内核和优化的 EtherCAT IgH 主站协议栈示例,以更好支持实时运动控制。

算法方面,英特尔在 CPU 对传统运动规划和视觉算法进行优化,通过 iGPU 和 NPU 加速基于深度学习、大模型的感知和操作。

还有各种软件工具,包括实时性能调优工具和 Debug 工具,有助于降低学习成本和开发部署成本。

英特尔可扩展产品组合丰富,提供了从入门级到 1000TOPS 以上的 AI 算力,以及从低到高的 CPU 算力产品组合,并在开发工具等方面实现了统一,可用于构建覆盖各种类型的具身智能解决方案。

例如酷睿、凌动非常适合做本体运控小脑。云端或边缘侧大脑可接入酷睿、至强、锐炫独立显卡。无论是传统机器人智能化改造,还是人形机器人大小脑融合,或是将传统运控小脑升级成 AI 运控小脑,都可以利用酷睿 UItra 实现。

浙江人形机器人创新中心已基于英特尔酷睿处理器,打造出 " 领航者 2 号 NAVIAI" 人形机器人,实现了可泛化高精准视觉伺服、多行为联合学习的长序列行为规划、视力融合的操作行为学习等技术突破,能够使其在工业场景中执行复杂任务,也可以在服务场景中完成人机交互和辅助等任务。

一、具身智能需要单系统方案:低成本、低延迟、低功耗

随着具身智能从人工设计算法逐渐转向到数据驱动的模型,具身智能计算负载需求的发展趋势,也从以 CPU 为主计算发展到 CPU、GPU 并重,乃至需要云端算力的辅助。在不同场景、不同应用需求下,不同架构各具优势和性价比。

据英特尔技术专家介绍,目前主流计算架构是大小脑融合架构。小脑部分以 x86 为主,包括英特尔 12、13 代酷睿,还有凌动 N97、N305,用小板子实现功耗和尺寸的优化;大脑部分的主流方案以其他厂商的产品为主。两个系统通过网络进行通信,最终实现双系统方案。

由于市面上没有单系统能够同时提供 CPU 和 GPU 算力,因此很多时候不得不采用双系统方案来解决现有问题。这样的架构带来很多设计挑战,带来研发、维护等成本的提升,对整个计算平台的功耗、尺寸、结构优化都有很大限制,无法像单系统那样进一步做极致优化。

另外,两个系统通过网络进行通信,无论是双系统时间同步,还是之间的信息交互,都会有带宽限制和延迟。

因此业界需要采用更好的单系统方案解决这些问题。

英特尔酷睿 Ultra 产品线把 CPU、GPU、NPU 封装在一个 SoC 里,让低功耗 SoC 可提供强劲的 CPU 算力、AI 算力,满足了具身智能在绝大多数场景需求。

不同系统之间通过共享内存来通信,无论是网络通信还是 CPU 内存和独显的显存通信,共享内存方式会更稳定、更快速。

此外,单系统方案可帮助显著降低整体计算成本。在能效方面,酷睿 UItra 支持 28W-65W,以便用户根据实际需求匹配功率实现更好的功效和续航。单系统配合 ODM 设计也可以实现更小巧的尺寸,以及更灵活的接口。

二、以大小脑融合为亮点,处理具身智能复杂任务

英特尔具身智能方案以大小脑融合为亮点,能够使感知、交互、任务规划和运动控制在统一的系统中实现高效整合。

作为其中的算力中枢,英特尔酷睿 Ultra 处理器通过 CPU 、集成的英特尔锐炫 GPU 与 NPU 协同运行,以高性能异构算力和高精度实时性能,支持具身智能的多样化负载稳定运行,同时也大幅提升具身智能系统的整体效率和响应能力。

其中,通过 CPU 可以支持具身智能方案进行复杂的运动控制,集成的英特尔锐炫 GPU 可处理具身智能处理环境感知、任务识别、任务规划、大语言模型(LLM)、视觉语言模型(VLM)和端到端模型等复杂任务,NPU 则承载语音识别、实时视觉处理、传感器数据分析等需长时间运行的 AI 任务。

据英特尔中国网络与边缘技术与产品总监王景佳分享,酷睿 Ultra 系列处理器的架构符合当前异构计算的趋势,不仅适用于 AI PC 消费类场景,而且为具身智能场景提供了理想的解决方案。

英特尔也在显卡市场持续投入。王景佳谈道,去年底发布的英特尔锐炫 B 系列显卡在市场上广受好评,对于具身智能场景而言,它可能是性价比或性能功耗比最佳的产品。

另据英特尔技术专家分享,酷睿 Ultra 处理器可持续提供强劲的 x86 算力,实现实时的运动控制。CPU 采用大小核架构,拥有多达 16 个 CPU 核心,运行主频最高可达 5.1GHz;在 AI 工作负载下,其实时确定性可达到 20 微秒抖动,为运动控制提供更好的确定性保障。

新推出的英特尔酷睿 Ultra 200H 系列处理器方案,总 AI 算力已达到 90 TOPS。基于 Intel 18A 的下一代英特尔 Panther Lake 总算力将超过 180 TOPS。

NPU 的能耗表现尤为出色,可在 2W 功耗下提供 13 TOPS 的 AI 推理能力。

集成显卡 GPU 部分单独可达到 77 TOPS 的算力,支持各类视觉模型、大语言模型、端到端大模型,通过 OpenVINO 和 IPEX-LLM,能够对传统的卷积神经网络模型和大模型进行优化。

英特尔也在集成显卡(iGPU)上进行了具身智能相关算法的测试。例如,对于机器人在物体检测中常用的 YOLO v8 算法,在 2048×2048 高分辨率下,使用 FP16 的网络精度进行测试,推理效率可达 108 FPS。

如果使用该集成显卡运行 6-9B 参数规模的小尺寸大语言模型,能够达到约 800 毫秒的首个 token 生成时间,后续平均 token 生成时间为 50-80 毫秒,效率很高。

英特尔具身智能方案搭载了最新一代的英特尔锐炫 B 系列显卡(Battlemage)。该独立显卡采用 Xe2 架构核心,相较上一代产品效率提升显著,每个 Xe 核心的性能提升高达 70%,每瓦性能也提升了 50%。

英特尔在此方案中采用的是锐炫 B570。该显卡具有 18 个 Xe 核心,每个 Xe 核心配备 8 个 AI 计算单元,总计 144 个 AI 计算单元,整体 AI 算力可达 200+ TOPS,从而进一步扩展了 AI 能力。

英特尔在独立显卡上进行了大量的大语言模型推理测试。以 6B-9B 参数规模的大模型为例,在锐炫 B 系列显卡上,首个 token 的生成时间约为 100 毫秒,后续 token 的生成时间约为 10-15 毫秒,可用于具身智能应用中的人机交互、内容生成以及通过大语言模型进行动作编排。

VLA 大模型通常包含三个部分:一个运行频率约为 10Hz 的慢思考视觉语言大模型,一个运行频率为 200Hz 的动作大模型,以及一个需要实时处理总线信息和模型运动控制的实时系统。2B-7B VLM 大模型适合在酷睿 Ultra 内置的锐炫 GPU 上运行,NPU 上则适合运行如 ACT 算法等。

三、提供具身智能软件开发套件,缩短评估和开发时间

同时,英特尔推出了具身智能软件开发套件,通过包括 OpenVINO 工具套件、英特尔 oneAPI 工具包、Intel Extension for PyTorch-LLM(IPEX)、英特尔工业边缘控制平台(ECI)、基于开源机器人操作系统的库、中间件和示例应用程序,使代码实现一次开发多平台部署,缩短评估和开发时间,加快客户应用程序的部署以及算法和应用的运行。

▲英特尔具身智能软件开发套件

在软件框架和加速器的基础上,英特尔开发了一系列参考用例,例如视觉伺服、模仿学习、优化运动控制、以及基于大模型的运动规划。这些参考实践代码旨在帮助开发者更好地理解如何基于软件平台实现各种具身智能应用。

英特尔亦提供跨平台 AI 模型优化工具以及端到端流程加速方案,以简化方案搭建过程,加快产品上市。

该软件开发套件能够将不同类型的工作负载均匀地分配到 CPU、NPU、集成显卡,甚至独立显卡上进行协同运行,从而更充分地利用整体计算资源。

例如,传统的运动规划库和 MPC 运动控制算法,因其软件特性,在 CPU 上能够获得更高的运行效率,因此可以将其调度到 CPU 上运行。而 CNN 视觉模型在 iGPU 或 NPU 上可能运行效率更高,因此可以将其调度到 NPU 上运行。对于需要更多 AI 算力的大模型,则可以将其分配到集成显卡或独立显卡上运行。通过这种方式,整个系统能够得到更高效的利用。

在使用上,英特尔具身智能软件开发套件旨在最大程度地降低用户使用成本,把 SDK 大部分的软件包打包,将英特尔提供的代码库添加到 APT 源中,然后安装 Deb 包、下载源码,就可以通过英特尔在线 APT 代码库进行下载和部署,软件包支持 Ubuntu 22.04 LTS 版本。

此外,用户可使用在线文档教程快速入门,获取相关信息及原文件下载。

四、与本体生态伙伴深度合作,探索具身智能全链路协同

在持续推动具身智能软硬件创新的同时,英特尔亦与本地生态伙伴展开深度合作,探索从技术研发到场景落地的全链路协同模式,构建起协同共进的产业生态格局。

其中,信步科技推出的具身智能硬件开发平台 HB03,搭载英特尔酷睿 Ultra 200 系列处理器和英特尔锐炫 B570 显卡,能够提供强大且灵活的算力,并实现极强的控制实时性。

信步 HB03 平台通过紧凑结构、扩展接口与工业级可靠性设计,具有性能更强、尺寸更小、可靠性更高、灵活配置等优势,为具身智能 " 大小脑 " 融合构建了有力的硬件支撑。

HB03 有 4 个显著优势:

(1)更强大:采用了英特尔酷睿 Ultra 200 系列处理器,支持 96 TOPS 算力;采用了板贴内存方式,提高了可靠性,也旨在实现 CPU 和内存之间更高的数据带宽。96 TOPS 的本体算力加上英特尔显卡,整个 HB03 最高支持 300 TOPS 算力。

(2)更紧凑:HB03 有两个型号:支持显卡,算力达 300 TOPS 的版本,厚度为 78 毫米;不带显卡,本体算力为 96 TOPS 的版本,厚度仅为 53 毫米。不同型号能够适配不同尺寸、不同形态的具身机器人。

(3)更可靠:对所有对外接口都采用了加固设计,解决传统 USB 标准接口和 RJ45 水晶头在运动过程中容易脱落、线缆过粗、不易整理等问题。

(4)更灵活:采用模块化开发理念。屏幕上展示的所有接口都可以自由定制和灵活配置,帮助用户快速实现项目落地和产品销售。

HB03 支持宽电压输入,最高耐压输入可达 75V,可直接连接到电池模组上,无需额外配置 200W 的电压模块,令使用更加便捷可靠;散热方面,采用了 CPU 和 GPU 分别放置在两侧的设计,以解决热量集聚的问题,每个单元都采用了铜管和涡轮风扇散热,尽可能将热量导出。

结语:以高性价比软硬全家桶,助攻具身智能规模化、场景化应用落地

具身智能产业的快速发展,正在带动算力基础设施需求之变。英特尔具身智能方案凭借大小脑融合架构的创新,带来功耗、成本、算力的平衡,为高效构建具身智能系统提供了一个高性价比的选择。

英特尔市场营销集团副总裁、中国区 OEM & ODM 销售事业部总经理郭威谈道:" 以人形机器人为代表的具身智能行业正迎来前所未有的发展热潮,然而,系统架构的非一致性、解决方案的泛化能力不足、场景适配的复杂性等挑战,正在制约其大规模商业化的进程。基于此,英特尔携手生态伙伴,通过大小脑融合的方式,打造更高效、更智能的解决方案,以基础通用大模型与硬件技术的协同突破,以及开放生态所带来的加速效应,推动具身智能向实践应用场景的迈进。"

未来,英特尔计划持续深化技术创新,与生态伙伴拓展其在医疗、教育、养老等关键领域的应用场景,共建开放、协同的具身智能生态体系,使具身智能真正赋能千行百业,为社会的高效运转与可持续发展提供助力。

查看原文