一、问题:智能代理操作成为手机厂商新竞争焦点 近期,智能手机领域出现一个值得关注的技术趋势——多家科技企业相继推出或强化"智能代理操作"功能,即由大型语言模型直接在手机端执行应用操作,替代用户完成点外卖、叫车、网购等一系列日常任务。
在三星Galaxy S26系列发布会上,三星与谷歌联合宣布,将在该机型上率先搭载基于Gemini的屏幕自动化能力。
该功能允许智能系统识别屏幕内容、模拟操作行为,并在关键步骤将确认权交还用户。
与此同时,国内市场上,搭载豆包手机助手的努比亚M153已率先实现类似功能,阿里巴巴旗下千问也在同一赛道持续推进。
三家企业几乎同期发力,但技术路径却呈现出明显分歧。
这一现象背后,既有各方对用户需求的不同理解,也有对安全边界的不同判断。
二、原因:技术路径分歧源于市场环境与价值取向差异 豆包手机助手采用的是图形界面代理方案,其核心逻辑是通过读取屏幕像素,模拟人眼识别按钮与输入框,再模拟手指点击完成操作。
这一方案的最大优势在于通用性强,理论上可适配任意应用,无需开发者进行额外适配。
这种"开放式"思路与国内用户对功能便捷性的高度期待相契合,也与国内移动互联网生态高度碎片化的现实相适应。
谷歌的选择则明显更为审慎。
Gemini屏幕自动化并不直接在用户手机桌面上执行操作,而是在安卓系统内部开启一个本地虚拟沙盒环境,让智能系统在隔离空间内运行目标应用。
整个过程对用户可见,用户可随时介入或终止。
此外,谷歌还主动限制了首批支持自动化的应用范围,仅开放Lyft、Uber、GrubHub、DoorDash、Uber Eats及星巴克等少数平台,并对不同订阅级别的用户设置了每日使用次数上限。
这种"既激进又保守"的策略,折射出欧美市场对数据隐私与用户授权的高度敏感。
在相关监管框架日趋严格的背景下,谷歌选择以权限隔离和操作透明度换取用户信任,是一种兼顾商业推进与合规风险的现实考量。
三、影响:三条路径重塑移动生态竞争格局 三种技术路径的并行推进,正在从不同维度重塑移动互联网生态的竞争格局。
对于应用开发者而言,谷歌推出的AppFunctions接口体系具有深远意义。
这一机制允许应用主动向系统声明可被智能系统调用的功能模块,例如外卖应用可声明支持搜索餐厅、添加商品、提交订单等能力,从而实现更精准、更可控的智能调用。
这意味着,未来移动应用的竞争维度将不再局限于界面设计与用户体验,能否高效接入智能代理体系,将成为影响应用生命力的重要变量。
对于手机厂商而言,智能代理能力正在成为差异化竞争的新战场。
从努比亚M153到三星Galaxy S26,硬件厂商与软件平台的深度绑定趋势愈发明显。
谁能率先构建起稳定、安全、易用的智能代理生态,谁就可能在下一轮产品周期中占据先机。
对于普通用户而言,这一变化意味着手机的使用方式正在经历一次根本性转变。
从"人操作手机"到"人指挥手机",交互逻辑的重构将深刻影响用户习惯的养成与迁移。
四、对策:安全边界与开放生态需同步推进 当前各方在推进智能代理能力时,均面临一个共同挑战:如何在功能开放性与操作安全性之间找到合理平衡点。
谷歌的沙盒隔离机制与分级授权设计,提供了一种可供参考的思路——通过系统层面的权限管控,将智能系统的操作空间限定在可预期、可审计的范围之内。
这种设计虽然在短期内限制了功能的覆盖广度,但有助于建立用户信任基础,为后续能力扩展创造条件。
国内厂商在追求功能通用性的同时,同样需要重视操作透明度与用户知情权的保障。
随着智能代理能力逐步渗透至支付、通讯、个人信息管理等敏感场景,建立清晰的操作日志、异常提醒与一键撤销机制,将是赢得用户长期信赖的必要前提。
监管层面,相关部门也有必要适时跟进,针对智能代理操作涉及的数据采集、行为记录与责任归属等问题,研究制定相应的规范框架,为行业健康发展提供制度保障。
人工智能手机迈向系统级能力,是一次从“功能叠加”到“秩序重构”的跃迁。
能否把自动化放进可控的制度与技术框架,让应用生态在标准接口下形成良性协同,将决定这场变革是昙花一现的噱头,还是重塑移动计算体验的长期趋势。