豆包手机:这个给咱们带来跨端自动化体验的革命性ai 助手

豆包手机:这个给咱们带来跨端自动化体验的革命性AI助手,终于拿到了千万级投资。这年头,科技圈里到处都是自动化和智能化的玩法,豆包手机就是里头的弄潮儿,一下子就吸引了大伙儿的眼球。它不光靠脸蛋好看,还靠技术硬实力搞定了一笔不少的天使投资。说到这机子的核心本事,那就是多模态操控。它能在安卓手机、Chrome浏览器还有PC桌面上,像变魔术一样完成一系列跨端自动化的复杂活儿。 这背后的活儿可没那么轻松,全靠两位知名硬件大厂出来的工程师——张志勇和单文榜在撑着。他俩用自己搞出来的AgentZeroFlow,配上国产大模型,硬是让机器有了像人一样去读屏幕、点按钮、滑动屏幕的本领。这下好了,用户想吃外卖、想看电影票啥的,直接把手机交给豆包手机办就行,再也不用为那些繁琐操作头疼了。 跟市面上的别的工具比起来,豆包手机走的是另一条路。他们直接跟手机厂家深度合作搞授权,拿到高权限后就能绕过那些用户和APP的授权步骤。虽然这招体验感确实不错,但也因为得罪了不少APP厂商,闹得他们很不痛快,甚至还引发了好几次封杀行动。 在技术实现上,ZeroFlow完全依赖于Android系统里那个给视障人士准备的无障碍服务(AccessibilityService)。有了这层权限加持,Agent就能读屏幕上的内容了。然后它就开始模仿真人的动作,点击、滑动各种操作玩得转。理论上讲这套方案很难被APP那边给封掉。 不过开发的路上也不是一路顺风的。张志勇自己也吐槽过,好多网页为了不让人自动化操作,故意搞得特复杂验证环节和隐藏元素满天飞。这可真给多模态理解带来了不少麻烦。怎么让Agent用最少的截图就弄懂咱们的意思?还有那些烦人的广告弹窗和页面跳转,这些都会影响多模态理解的准确性。 聊到以后怎么跟大厂竞争这档子事,张志勇表现得倒是挺自信:他根本不怵大厂搞出来的那些同质化产品。毕竟大厂的生态系统都是隔离的环境嘛。哪怕他们也会了类似的技术,也照样很难做到真正的跨平台自动化操作。 ZeroFlow借鉴了OpenClaw开源那一套的理念,重点把安全性和便捷性做了深度优化。这样就能保证咱们用户的隐私和数据不出岔子。说到便捷性那更是绝了:大家只要在浏览器里注册个账号就能上手用了,技术门槛几乎为零。这让更多普通用户都能享受到跨端自动化的好处。 ZeroFlow的设计思路可不单单是为了做个编程助手。它背后的核心玩法能迁移到很多知识工作的场景里去——比如搞财务分析、做运营流程这些活儿。只要工作有重复又有逻辑的地方,都能变成ZeroFlow施展拳脚的地盘。张志勇和单文榜就盼着用这技术把大伙儿从那些繁重的工作里解放出来,好让咱们能腾出心思去搞更有创造性的任务。 科技发展得这么快,豆包手机这次的成功不光是个新的解决方案那么简单;更是在给智能助手的未来探路。以后啊,豆包手机还会接着完善功能,给咱们带来更高效、更便捷的生活体验。