首页 > 汽车自驾 > 汽车自驾 > 阶跃开源4B Agent模型,跑通所有安卓设备,手搓党一键部署

阶跃开源4B Agent模型,跑通所有安卓设备,手搓党一键部署

发布时间:2025-11-30 21:31:57

首次将GUI Agent模型与完整配套基建同步开放,支持手搓党一键部署!

这就是阶跃星辰刚刚开源的GELab-Zero

其中4B版本的GUI Agent模型在手机端、电脑端等多个GUI榜单上全面刷新同尺寸模型性能纪录,取得SOTA成绩。

随着AI在手机等消费终端的普及,Mobile Agent正从“能不能用”迈向“能否规模化落地”。

GUI Agent是执行能力最强的形态之一。它基于视觉理解即可适配几乎所有App,无需厂商额外改造,接入成本极低。

此外,阶跃还同步开源了基于真实业务场景的自建评测标准AndroidDaily,以期推动GUI领域模型评测向消费级、规模化应用发展。

 

同尺寸性能 SOTA,端到端、轻量化、速度快

 

要知道,让GUI Agent在不同品牌与系统版本的设备上顺畅运行并不轻松。

移动生态的高度碎片化让开发者需处理多设备ADB连接、依赖安装、权限配置、推理服务部署、任务编排与回放等繁琐流程,工程成本高昂,精力难以聚焦在策略创新与体验设计上。

要推动移动端Agent真正规模化,必须首先降低开发与使用门槛,让开发者专注于创造价值,而非重复搭建底层设施。

基于此,阶跃开源了GELab-Zero。

它主要包含三部分:

 

  • 一个能在本地运行的GUI Agent模型GELab-Zero-4B-preview
  • 即插即用的完整推理工程基建,解决所有脏活累活
  • 基于真实业务场景的自建评测标准AndroidDaily

 

研究团队在ScreenSpot、OSWorld、MMBench、Android World多个开源基准测试上对GELab-Zero-4B-preview模型进行了全面评估。

这些基准测试涵盖了GUI理解、定位、交互等多个维度。

从测试结果可以看出,GELab-Zero-4B-preview在多项开源基准测试中超越其他主流模型,拿下同尺寸SOTA



值得一提的是,GELab-Zero-4B-preview的表现还超越了参数量更大的GUI-Owl-32B等模型,性能更优,也更易部署。



来看一下研究团队给出的示例场景。

 

复杂任务

 

场景1:在外卖平台同时采购跨品类、不同规格和数量的商品。

Prompt:去饿了么离我最近的盒马鲜生购买:红颜草莓300g、秘鲁比安卡蓝莓125g(果径18mm)、当季新鲜黄心土豆500g、粉糯贝贝南瓜750g、盒马大颗粒虾滑、2瓶盒马纯黑豆豆浆300ml、小王子夏威夷果可可脆120g、盒马菠菜面、盒马五香牛肉、5袋好欢螺柳州螺狮粉(加辣加臭)400g、m&m’s牛奶巧克力豆100g

可以看到,模型精准识别了物品信息,并顺畅地完成了多步骤、重复性的购买操作。

场景2:在企业福利APP中领取餐券。

Prompt:打开给到App,在我的,下滑寻找,员工权益-奋斗食代,帮我领劵。

上述示例展示了GELab-Zero-4B-preview执行的能力和范围具有很强的泛化性,无论在国民级APP还是小众产品平台,都可以顺利完成任务。

 

模糊指令

 

场景1:在某个视频平台上播放指定演员的经典作品。

Prompt:在腾讯视频上找一部成龙的经典动作片播放。

接到指令后,GELab-Zero-4B-preview自主拆解“经典”这一需求,确定执行标准。

过程中,模型先打开腾讯视频,识别并关闭了弹窗,搜索“成龙”后在电影类目中选择了页面上成龙评分最高的代表作播放。

场景2:找一个周末能带孩子玩的地方。

Prompt:帮我找个周末能带孩子去玩的地方。

接到指令后,模型首先在内容平台搜索“北京周末带娃”,然后自主判断衡量标准后为用户推荐北京园博园“顽酷奇遇”,并为用户提炼出该地点的亮点——“有巨型装置卡通,亲子活动丰富”。

可以看到,GELab-Zero-4B-preview模型能够很好地执行复杂任务和模糊指令,不仅可以准确、流畅地执行涉及到多步骤、多主体、重复操作的任务,也能对“好看”“适合玩的”“经典”等偏笼统和主观性的指令进行自主拆解,确定执行路径和标准。

GUI+基建=GUI Agent MCP,一键拉起部署

针对GUI智能体,研究人员构建了一整套完整的技术架构体系,可以一键拉起获得类似开源GUI Agent MCP的体验。

汽车自驾更多>>

阿里千问加入“一句话点外卖” 不用等了,丰田GR GT准备“截胡”下一代日产GT-R! 全新小鹏G01谍照,超5m大六座SUV,“广州揽胜”吗? 本田换标 能否换量|汽势观察 黄金、白银双双创历史新高,有金饰品牌较前日上涨29元/克 解码基金“擒牛术”:布局十倍股的三大核心逻辑 人工智能板块,20%批量涨停!920207,连续30%封板! 智能厨电成CES最卷品类:AI接管一切,人人都是米其林大厨 春节不打烊!京东京喜自营开启马年年货节 苹果2026年首款iPhone来了!iPhone 17e最快下月登场:有5大升级 杜比在CES 2026展示全新创新成果 杜比全景声已获超35家汽车品牌采用 雷军需要第三次All In 联想发布,一系列AI大动作! CES 2026:ROG重磅发布幻系列全能笔记本新品 雷神科技CES 2026速报:新一代“轻型”旗舰游戏本雷神ZERO Air实机首秀 22.99 万元起!新一代小米 SU7 开启预售,「安全」性能重点加强 一加Turbo 6搭载超高刷护眼屏,强调夜间使用更舒适 moto推出首款大折叠手机 8.1英寸2K内屏 2026年了还用 60Hz?iPhone 17e 曝光:苹果的“低价”底线到底在哪 终于来了!苹果推送 iOS 26.3 新系统更新 曝OPPO Find X9系列去年销量约80万台 Ultra即将问世 华为手机价格前十排行榜 市场预计三星Q4营业利润有望飙升160% 凯迪拉克“真慌了”,降价14.5万,配2.0T+9AT,蜂鸟底盘油耗7.7L 凯美瑞降价,合资慌了,用户笑了 红旗全固态电池车下线:中国新能源产业的“技术拐点” 创近9年新高!长安汽车2025年销量出炉 关于大众和小鹏合作的第一台车,我们整理了这些信息 2025买车质量榜单大变天!丰田竟跌出第一梯队,合资车靠不靠谱? 吉利全域AI 2.0重磅发布!汽车变身“智慧生命体”,开车体验变天