×

实在智能欧阳小刚:Agent端侧性能超GPT-4o 10%,一体机30分钟开箱部署记得被禁止整容的小芈月吗?2岁出道年入百万,如今15岁她怎样了

hqy hqy 发表于2025-07-09 01:18:31 浏览1 评论0百度已收录

抢沙发发表评论

智东西 作者 | 中国AI算力大会

6月26日,首届2025中国AI算力大会在北京隆重举行。实在智能合伙人、核心算法负责人欧阳小刚在大会主会场以《实在Agent智能体技术与端侧应用探索》为主题发表演讲。

欧阳小刚指出,“大模型和智能体的结合,正在推动企业工作方式从‘以人为中心、AI辅助’向‘以AI为中心、人类辅助’的深刻转变。”

相较于早期AI只能在有限流程内完成部分替代,如今以大模型为核心的智能体正逐步具备跨域、多步骤的动态任务处理能力,为企业带来了深刻的流程重塑和提质增效的机会。

演讲中,欧阳小刚围绕企业级智能体能力体系的构建、端侧算力部署的探索、产品架构设计及客户案例分享等方面,展开了深入讲述。

以下为欧阳小刚的演讲实录:

大家下午好,我是实在智能核心算法部的负责人欧阳小刚。今天在座的各位专家多聚焦于算力以及底层硬件方向,我们公司则更关注大模型和智能体在应用层的落地,以及在落地过程中与算力结合过程中的探索与思考。

随着大模型和人工智能技术的发展,企业端或办公端的工作方式正在发生显著变化。

过去以人为中心,AI更多承担辅助工具的角色,帮助实现部分工作的自动化或效率提升,例如OCR、NLP等技术辅助,完成部分信息抽取和流程自动化。

如今,随着大模型在意图理解、逻辑推理等方面能力的持续增强,以及智能体(agent)概念的快速发展,工作模式正在向“以AI为中心、人类辅助”转变。

一、从有限域到无限域,通用智能体架构让大脑与手脚“融合”

传统软件大多只能完成预定义、有限域的任务,比如财务、物流中的标准化操作。但是现在企业的需求往往是跨域的、动态的,甚至不可预知的,要求AI能在一个流程结束后自动衔接下一个环节,实现跨系统、跨业务模块的协同联动。

那么,通用智能体该如何适应当下的这种改变呢?或者说,通用智能体应该具备什么样的能力,拥有哪些特性?

这种情况下,我们就需要一个既具备泛化能力,又能在垂直行业场景中拥有足够操作能力的智能体,也就是说,既要有“大脑”能力,也要有“手脚”能力。

大脑主要是大模型提供的意图理解、推理规划能力,手脚则是底层的RPA、MCP、A2A等能力,保证真正把规划转成可执行的动作。

大模型本身在通用层面存在一定的能力瓶颈,所以通用智能体需要在任务理解上掌握足够多的领域知识和行业Know-How,以此来保证执行模块可以覆盖到PC端、网页端、手机端,甚至各类定制化软件系统。

因此,实在智能的目标是打造一个具备泛化能力且操作完备的企业级通用智能体。

在这样的背景下,我们提出的实在Agent,就是一个面向流程自动化的通用智能体产品。这是一款能够自主规划流程,并能够模拟人类在电脑、手机等系统中自动工作的通用智能体和软件机器人。

和目前大家看到的Manus、Browser User等产品相比,我们的方案在整体架构上做了更深度的融合,不仅仅是云端控制,而是具备本地深度接入、执行以及可持续优化能力。

二、多层次算力与流程闭环:打造企业可控的自动化智能体

具体来看,实在Agent的底层架构分成几个层次。第一层是基础算力,包括私有化集群、云端算力资源、端侧算力资源,都在企业不同部署需求下发挥作用。

第二层是算法层,除了垂直领域大模型和多模态大模型以外,也考虑在端侧引入大模型加专家小模型的混合部署,保证本地可控性、降低推理延迟,同时节省算力成本。

再往上是数据层和知识层,包括企业自有的知识、外部的公共知识,通过能力层,比如RAG、屏幕理解、多模态理解、软件操作能力,形成可执行的流程闭环。

在场景层,目前我们聚焦在四大主要方向:流程办理、知识问答、数据分析、文档处理。

比如流程办理,不只是一个业务系统的自动化,而是可以跨越多个业务模块,实现系统间的信息流转和自动化接管。知识问答则通过RAG技术,让大模型结合企业自有知识库,形成真正可用的问答助手。数据分析里,支持跨系统信息整合、结构化输出。文档处理方面,则从文档解析、抽取到自动审核,都做了深度集成。

在应用端,该智能体兼容OA、ERP、CRM、WMS这些企业核心软件系统。

此外,实在Agent包括两种形态:一是API-Agent工作流模式,将大模型、知识库、文档能力与RPA能力组合;二是UI-Agent模式,可通过一句话指令生成可执行工作流,由RPA组件自动完成操作。

三、核心模型与产品能力:支撑智能体可持续演进

核心技术层面,我们重点训练了专属的TARS大模型,在步骤拆解、组件映射上,相比GPT-4o、DeepSeek-R1、Qwen2.5-72B等在多个指标上超越,并且支持私有化部署。

第二是TARS-VL多模态大模型,它针对GUI界面和屏幕语义的理解,做了大规模训练,包括元素定位、状态判定、异常识别,在Mind2Web、ScreenSpot等标准数据集上取得较为显著的成绩,且提升GUI理解能力大约3个百分点。

第三,除外对两个模型的强化以外,在落地过程中,我们还结合超过1000款企业常用软件、上万种业务场景做了预训练,形成一个包含流程操作、数据采集、状态识别等能力的知识库和指令体系。

这样即使面对陌生的软件环境,也能快速适配并迁移操作策略,降低未知适配的成本。

在产品特性方面,实在Agent支持一句话生成流程,用户不需要专业技能就能使用,具备极简易用性。

它打通了AI与RPA工作流的整合,能真正跨系统完成数据流转,本地RPA流程也支持一键跳转到流程可视化编辑界面,方便后期优化。并且其还内置了大量工具和模板,包括网页抓取、IPD文档处理、网络搜索、流程市场,方便企业快速复用并减少重复开发。

我们也建设了一个智慧中心,能对智能体、知识库、工具进行上下架管理,并提供数据可视化分析,未来也能接入企业自研或者外部采购的大模型,灵活地按需配置。

四、跨端探索与端侧优化:让智能体触达真实业务场景

智能体的能力需要算力的支持,无论是私有化算力集群、云端资源,还是端侧硬件,都必须形成协同。

特别是在端侧部署方面,客户普遍要求数据安全可控,需要通过模型量化、裁剪及大模型和小模型的混合部署方案,兼顾性能和成本。此外,在算法层面可采用轻量模型预处理,结合大模型完成复杂推理,降低算力占用并优化执行效率。

实在智能还建设了数字员工运营平台,将已执行过的流程和任务规划经验沉淀为长期记忆,供后续智能体规划调用,实现持续优化。

在算力和需求双向驱动的架构里,我们规划的是服务端管理与下发、端侧执行、以及通过数字员工运营平台形成可持续优化的反馈回路。

在前后端系统联调和部署加速方面,实在Agent也做了多种探索。

在PC端,我们与惠普基于ZBook系列AI PC产品,共同打造了一套适合企业场景的端侧智能体解决方案。考虑到PC端相较一体机或工作站的算力限制,我们在方案中引入本地小型知识库,以及大模型与小模型混合部署方案,用于屏幕识别与页面处理。

欧阳小刚提到与惠普联合打造的Z系列数字员工一体机,搭载实在智能的企业大脑服务,开箱30分钟完成部署,核心业务与数据全程本地处理。

Z系列数字员工一体机基于HP Z8 Fury G5工作站,得益于四块NVIDIA® RTX 5880 Ada的强大算力,轻松支持部门级与企业级的AI部署方案。

例如,在页面理解上,将传统CNN训练的目标检测能力和OCR能力,与多模态大模型进行任务路由,通过OCR或目标检测对页面进行预处理,再交由大模型做深入识别,从而加快整体推理过程并降低对高性能显存的占用。

在手机端,我们也打造了“实在手机Agent”,包含两种形态。一种是通过手机远程控制PC端或云端的智能体体系,实现任务下发和状态监控,方便企业移动办公;另一种则在手机本地运行轻量化智能体,通过语音或触控下发指令,完成信息采集、自动化任务处理等场景。

举例来说,一个场景是通过智能体收集全网热点信息并汇总成报告,另一个是为经常出差人员提供的生活助理功能,支持在12306等平台通过语音操作完成电子发票申请和开票流程。

此外,我们还在探索基于云手机的批量运行方案,对于需要大规模并行操作的企业任务,例如多店铺的销售数据采集或评论抓取,实在Agent可以在云手机环境中实现大规模智能体并行调度,完成信息收集、汇总、分析等全流程能力。

车机端的探索也在持续推进,虽然目前仍处于早期阶段,但我们尝试通过视觉理解和模型调度来实现对车载第三方应用的操作,因为车机自带的软件通常可以被控制,但第三方软件缺乏可用接口,需要通过纯视觉的方式实现元素定位和功能触发。这一原理与PC端和手机端的智能体能力逻辑是一致的。

在整体应用场景和客户案例方面,目前我们落地较多的领域包括审核审计、数据挖掘研判、智能问答等。比如在与某商业地产企业合作的案例中,采用API Agent的工作流模式,打造了一个超级助理,整合知识查询、数据分析和多智能体协同,实现从智能问数到多模型治理的端到端流程,显著优化分析效率。

举个具体例子,超级助理可以针对“米村拌饭”这样的企业进行洞察分析,先理解分析需求,然后筛选合适的能力模块,规划并执行分析步骤,形成洞察报告。

另一个案例是与浙江菜鸟物流合作,围绕人才补贴申请审核、智能偏仓预警等业务流程,结合智能体与RPA能力打造数字员工方案,实现大幅度节省人工人天的投入,提高整体审核效率和准确性。

客户对引入数字员工后的ROI评估非常明确:就是原本需要多少人力和时间完成的任务,现在通过智能体自动完成,直接节约人力资源成本,达到提质增效的目标。

最后简要介绍一下公司情况。实在智能成立于2018年,总部位于杭州,在北京、上海、广州、深圳、日本东京、马来西亚吉隆坡等地均设有分支机构。服务客户主要涵盖央国企、世界500强企业,在金融、制造、政务、电商等领域均有大量落地案例。

我们的愿景是,“让智能体成为企业可信赖、可控、可持续优化的数字员工。”

谢谢大家。

以上是欧阳小刚演讲内容的完整整理。