ai 智能体在全球权威的测评里拿了第一,深度研究能力也到了世界顶尖水平。

国内的AI智能体在全球权威的测评里拿了第一,深度研究能力也到了世界顶尖水平。最近,DeepResearch Bench这个国际上的权威测评系统发了最新报告,说百度用千帆平台做出来的Qianfan-DeepResearch Pro在综合测评里表现特别好,直接排到了第一位。这事儿充分说明咱们国家在AI前沿技术这块儿,尤其是模拟专家做复杂认知任务方面,已经非常领先了。 这次测评建立了一个新标杆。DeepResearch Bench这套体系是专家一起设计的,专门用来衡量深度研究智能体的生产力。它还特别设计了一套有100个博士级别任务的测试集,覆盖了22个学科,像自然科学、人文社科啥的都有。另外还引入了RACE报告质量评价框架和严格的引文验证机制,补上了全球评测在端到端深度研究这块的空白。结果显示,百度的千帆智能体在全面性、洞察力这些方面都是行业第一。 这说明它不仅能找信息准确,还能做深度分析和逻辑推理,报告质量也很受认可。现在的AI不光是帮人干活了,还得像个能自己思考的伙伴一样。深度研究要求系统像专家一样思考,完成从理解需求、做计划、找信息到最后出结论的全过程。这种模式突破了以前AI只能干单一任务或者浅层生成内容的局限。 百度这个智能体用了Agentic架构,通过任务理解、规划和执行的循环机制实现自主处理。它的设计里有两个亮点:一个是“由粗到细”的策略来处理不确定性;另一个是实时反思机制,让系统能随时调整策略避免犯错。 这个技术的成熟会改变研究方式。比如在学术上能快速整理文献综述;在金融投资上能分析市场和财报;在商业决策上提供战略支持。过去要花好几天整理的东西它现在几分钟就搞定了。 最后在出报告的时候还特别省事。先弄个严密的核心报告,再根据这个直接转换成Markdown、HTML这些格式,一次研究多格式输出。 这事儿能做成靠的是强大的底层基础设施支撑。百度千帆Agent Infra平台提供了从模型到工具再到数据的一站式服务。现在平台上已经有超过130万个智能体应用在跑了,像“百度AI搜索”这种工具每天都被调用几千万次。这就形成了一个良性循环。 这次拿第一是咱们国家AI从“感知”走向“决策”的重要一步。它不光是技术突破,更是展示了AI作为新型生产力工具的潜力。以后肯定能在更多关键领域发挥作用。未来还要推动技术创新、拓展应用和打造安全的生态系统才行。