Inception推出Mercury 2,这次他们给大语言模型带来了性能上的重大突破。这个新模型主要是为生产环境中的AI应用设计的,通过并行优化而不是传统的顺序解码来提高处理速度。2月24日正式发布后,开发者既可以通过官网申请权限来直接使用,也可以通过聊天界面先体验一把。 Inception说,这个模型主要是要解决一个常见的问题:以前的自回归顺序解码太慢了。现在采用的并行优化可以让多个Token同时生成,只需要少数几步就能完成任务。这次的技术改动不仅让速度变得更快,还改变了大家对推理的看法。通常大家觉得要提高智能水平就得花更多时间去计算、更多样本或者重试,但这次不一样。 Mercury 2用了基于扩散的推理技术,保证了在实时的延迟限制下还能给出高质量的结果。官方还表示它跟OpenAI的API很兼容,特别适合那些对响应速度要求特别高的场景。主要的使用范围包括写代码、智能体交互、语音聊天还有搜索和RAG操作。 有网友问Mercury 2到底是啥?这就是Inception开发的一个大家伙,号称是世界上最快的推理型大模型。它的绝招在于用了并行优化的方法,能一下子算出好几个Token,从而把生成速度提上去、把延迟降下来。 还有人想知道它能拿来干啥?主要是干那些对延迟敏感又要特别流畅的活。像写代码、机器互相交流、实时语音聊天这些都可以用它来做。 至于怎么用这个东西?开发者可以去Inception官网申请权限去访问它,也可以在聊天窗口里先试试水。既然它跟OpenAI的API互相通用,大家以后把它整合进现有的系统里就很方便了。