高德地图最近把全球第一个由大模型驱动的视觉认知步行导引系统——地标AI领航给推出来了。这个系统把千问大模型、亿级POI还有千万级街景图像融合在一起,让导航能“看懂”环境、“听懂”人话。以前导航就只给个方向和距离,现在它能像真人一样,根据你眼前的真实地标来指路,实现“所见即所导”,把大家走路时经常遇到的方向感模糊、进度不清、找不着终点的难题都给解决了。 平时咱们指路都爱用“在那边”、“走那条路”或者“穿过红色建筑”这种表达,高德的这个系统也是一样,通过环境里的参照物让路线更明确。要想让机器像人一样指路,得先在脑子里建个地理语义网络。所以高德用了超亿级的POI数据库、高精度的路网拓扑还有覆盖全国大部分城市的千万级高精街景图像。 再加上千问大模型的多模态能力,系统能认出交通设施、商铺这些东西,还能评估它们的醒目程度,最后生成自然语言描述。 为了让导航更管用,高德用了“双重筛选”:一是只在你起步、转弯或者快到目的地时说话;二是只挑那些容易看见的地标,比如地铁标识、银行牌子或者餐馆招牌。 文案也变得很口语化,会强调颜色、形态和相对位置,像“左侧第二个玻璃门”。实测发现,用户听了地标提示后,平均比以前快2秒确认方向,还能少看手机。 这次推出的地标AI领航,是高德在空间智能上的又一大突破。通过大模型对物理世界的语义蒸馏,高德把空间智能做得更直观、更好用。