苹果研发移动端ai 模型,让手机更智能

苹果研究团队最近放出了一个大招,弄出了一个专门给手机用的多模态大语言模型,叫Ferret-UI Lite。这个模型只有30亿参数,但跑起来却跟那些参数多24倍的服务器端模型一样厉害,甚至有时候还更能打。这简直是把移动设备上的AI应用给开了个新口子。 以前那些大模型在看手机屏幕的时候,因为分辨率不够高或者图标太小,经常会看错东西。Ferret-UI Lite就不一样了,它搞了个"推理时裁剪"的技术,第一次随便猜一下,然后就会聪明地锁定那个地方放大来看,就像人调整眼睛焦点一样。这样一来,它就不用把整个画面都看一遍了,大大节省了算力。 移动端的数据少是个大问题,研究团队也没辙。于是他们就弄了个合成数据系统,里面有任务生成器、规划器、执行者和批评者四个模块。这个系统能模拟用户怎么操作手机,让AI自己在虚拟环境里完成任务,还能纠正错误。它产生的数据量很大,而且里面全是那种实际操作中容易碰到的怪事,比如按了没反应的按钮或者弹窗弹出来捣乱。实验证明,这么训练出来的模型比人工标注的数据还要稳定。 在测试中,Ferret-UI Lite展示了很强的交互能力,点一下、滑一下这些简单动作都能准确完成。虽然在处理那些需要多步配合的复杂任务上还有提升空间,但它完全在设备本地处理数据的特性实在是太香了。 这个模型让手机上的自动化操作变成了现实,而且还不用把屏幕截图传到网上去,这样就把用户的隐私给保住了。这项成果证明了移动端AI模型现在已经进入了轻量化又高效的新时代。通过创新的架构设计和数据处理方法,小参数量的模型终于在性能上追上了大家伙儿。 这可是给智能手机和平板电脑这些设备实现更智能的界面交互打下了坚实的技术基础。研究团队也把相关细节都公开了,方便学术界和产业界的人继续研究和改进。