复旦联手开发的AI“大考“:当语言模型面对真实企业文档表现如何?
这项由复旦大学、浙江大学与上海期绥智风公司联合开展的研究以预印本形式发布于2026年6月23日论文编号为arXiv:2606.24526v1有兴趣深入了解的读者可通过该编号查询完整论文。假设你是一家跨国公司的财务分析师老板今天早上把一个装满文件的硬盘扔给你里面有将近一万份报告、表格、年鉴和合同格式各异语言混杂日期标注方式也五花八门。老板只问了你一句话把这里面有用的数字给我找出来算一个结果。你手里没有万能搜索引擎只能靠自己逐步翻查。这件事对人类来说已经够难了——而研究团队想知道的是那些号称无所不知的大型语言模型在这种情况下到底能不能胜任这正是AGORA这套测试体系的出发点。AGORA是Archive-Grounded Office Reasoning Assessment的缩写翻译过来就是基于档案库的办公室推理能力评估。它不是在考模型背了多少知识而是在考模型能不能像一个真正的职场老手那样在一堆乱糟糟的真实文件里翻找线索、理清矛盾、最终算出一个准确答案。在正式展开之前有必要先解释一下为什么要做这件事。过去几年大型语言模型的发展速度惊人从ChatGPT到各类国产模型它们在标准考题、代码生成、文章写作上的表现越来越亮眼。但研究团队注意到一个问题企业真正需要AI帮忙做的事情往往不是回答谁发明了电灯这类可以直接从训练数据里调取答案的问题而是在自家内部档案里翻出几份相互关联的报告把里面的数字对齐、换算、综合最终给出一个能用于决策的结论。这类能力现有的测试体系几乎没有覆盖到。---一、为什么现有的AI考题还不够用现在市面上已经有不少针对AI的测试体系但研究团队发现它们大多各有缺陷。打个比方现有的测试就像是在考一个厨师能不能背出标准食谱——但企业真正需要的是一个能在冰箱只剩一堆零散食材的情况下自己想办法烧出一桌好菜的厨师。以多跳问答测试为例这类测试要求AI综合多条信息才能得出答案但它们用的素材几乎清一色是维基百科的文章——格式统一、内容可靠、来源单一。真实职场里的文件哪有这么规整一份政府统计年鉴可能用农历纪年一份企业财报可能用财年而非自然年一份合同可能用英文配套的附件却是日文表格而且同一个指标在不同文件里的单位和定义都可能不一样。另一类测试比如专门考验AI在网络上搜索和浏览信息能力的GAIA和BrowseComp虽然更接近真实任务却走向了另一个极端——它们考的是在整个开放互联网上找信息的能力而不是在一个固定的、封闭的企业内部档案库里工作。这两件事在本质上是不同的前者需要判断哪个网页可信后者需要在已知的文件集合里精确定位。最接近AGORA设计思路的是一个叫做OfficeQA Pro的测试它把检索和计算结合起来要求AI在一个大型企业风格的文档库里工作。然而这个测试的所有文件都来自同一个来源——美国财政部的通知公告——这意味着AI只要摸清了这一类文件的特点就能占据相当大的优势并不能真正说明它在其他类型文件上的表现。AGORA想做的就是把这三个方向都纳进来真实的档案库、必须主动探索而非被动接受信息、同时覆盖多个完全不同的专业领域。只有这样才能真正考验一个AI模型是否具备在职场中独立工作的能力。---二、这套大考究竟考什么文件库有多大AGORA的核心设计是这样的给AI一个包含大量真实文件的文件夹然后提出一个问题要求AI自己在这个文件夹里翻找、推理、计算最后给出一个精确的数字答案。整个测试覆盖八个专业领域包括农业与能源、建筑与房地产、商业管理、教育与学术、金融经济、医疗健康、法律以及技术与制造。每个领域都有自己独立的文件库合计收录了9664份真实职场文件总字符数约达3.72亿。这个规模意味着什么目前市面上最强大的AI模型一次能看的文字大概是几十万到几百万字也就是说即便是最顶尖的模型对着一个领域的文件库也根本没办法把所有文件全部读完再回答问题。它必须学会像一个经验丰富的档案员那样先判断哪些文件可能有用再有针对性地深入阅读而不是漫无目的地把所有东西都扫一遍。这种有策略地探索的能力正是AGORA想考察的核心技能之一。测试中一共有362道题目每道题都有且只有一个精确的数字答案而且必须来自文件库内部不能依赖模型之前学到的背景知识。这样设计的好处是显而易见的不需要人工评判答案好不好直接比对数字对不对就行了评价结果客观、可重复不受评判者主观判断的影响。每道题的设计都要求AI跨越多份文件来收集证据。也就是说答案不会出现在某一份文件里而是需要从文件A里取一个数字再从文件B里取另一个数字然后还要处理这两份文件在时间单位或货币单位上的差异最后才能完成计算。这对AI来说既是信息检索的挑战也是逻辑推理的考验。---三、这些文件是怎么收集和整理的研究团队构建AGORA的过程本身就是一项相当精细的工程可以分成三个大的阶段来理解。第一个阶段是收集和整理文件。研究人员从官方的职业分类系统出发提炼出八个主要专业领域然后让一个自动化的深度搜索程序去网络上检索相关的公开文件人工核验后下载存档。这些文件涵盖PDF、Markdown文本、Excel表格和CSV数据表四种格式每种格式都按照专门的规则进行切分处理最终统一转换成纯文本格式。PDF文件每五页合并成一个片段文本文件按8000个词元的滑动窗口切割Excel和CSV文件则被提炼为包含列名、数据类型、统计摘要和样本行的紧凑表格描述。切分完成后系统对每个片段打了一个信息密度分数优先保留那些充满数字、表格和时间序列数据的片段剔除目录页、标题页这类没有实质内容的碎片。每个领域最终保留分数最高的100个片段作为出题的种子材料。第二个阶段是出题。这个过程本身就用到了AI。一个专门的AI程序拿到种子片段之后会主动在文件库里搜索相关的其他片段找到跨越多个文件的关联事实然后起草一道问题同时给出参考推理路径和验证代码。起草完成之后还要经过两道加工工序。第一道叫做精炼目的是确保问题表述清晰、没有歧义、回答路径合理第二道叫做混淆处理目的是防止作弊。说到混淆处理这是一个非常有意思的设计。研究团队发现如果问题里直接提到了关键实体的名字AI只需要两步搜索就能找到答案这就失去了考察在茫茫文件海洋里主动探索能力的意义。于是他们专门设计了一套测试程序检测问题里是否存在词汇泄露题目里的词直接指向答案文件和结构泄露题目直接说出了本该由AI自己推断出来的实体。一旦发现泄露就把相关的实体名称或关键词替换成角色描述或等价表达比如把某家具体公司的名字替换成持仓报告中排名最高的一篮子股票里规模最大的上游动物蛋白集团这样的迂回表述。这样一来AI就不得不真正去理解文件内容、自己推断出具体指的是哪家公司而不是靠关键词直接搜到答案。第三个阶段是质量控制。每道题都要经过多重筛查。首先把题目以闭卷方式交给DeepSeek-V4-Pro如果这个模型不看文件就能答对说明答案可以从它的训练数据里直接调取这道题就会被淘汰——因为AGORA考的是在文件库里找答案的能力而不是考知识储备。接着把题目交给三个模型组成的评审小组GPT-5.5、DeepSeek-V4-Flash和DeepSeek-V4-Pro如果三个模型都答对了说明题目太简单同样淘汰。然后用一个代码模型在两种条件下分别解题——一次只给问题一次给问题加参考推理路径——来验证题目是否有唯一正确答案、推理路径是否合理。最后还要经过人工标注员的逐题审核。经过这一系列关卡最终保留了362道题。---四、八个领域的考卷长什么样通过Appendix E中的示例题目可以非常直观地感受到AGORA的难度和复杂程度。农业与能源领域的一道题要求AI扮演一个投资组合分析师先在德国可再生能源监管数据里按照特定条件筛选出符合要求的技术类别行再从三份不同的政府简报中提取投资数据计算两种增长率的均值最后用百分点表示差值精确到小数点后两位。建筑与房地产领域的题目则更加曲折要求AI在日本住房调查报告里找到特定的受访者选择项再在英国国家住房调查的估值报告里找到另一个指标然后把两个数字做除法结果精确到小数点后三位。法律领域的题目里AI需要在英格兰和威尔士的殡葬改革项目文件里找出公众意见征集窗口的开始和结束日期以及收到的提交件总数还要在法国法定法典摘录页面里找出满足特定条件的法典计算每份法典两个日期戳之间的有符号日历天数差值然后用这些数字经过一系列运算得出最终答案。这些题目的共同特点是答案藏在多份文件里每份文件只提供一块拼图而且各块拼图之间往往存在单位、定义或时间框架上的不一致需要AI自己识别并处理这些不一致之后才能完成计算。---五、八个模型参加考试结果如何研究团队选择了八个当下主流的大型语言模型参加测试其中既有商业闭源模型也有开源或部分开源的模型覆盖了当前性能梯队的不同层级。参加测试的模型分别是GPT-5.5、Gemini-3.1-Pro、Gemini-3.1-Flash-Lite、DeepSeek-V4-Flash、DeepSeek-V4-Pro、GLM-5.1、Qwen3.5-35B-A3B以及Qwen3.5-9B。所有模型都在同一套测试环境下运行。每道题的执行环境是一个完全隔离的沙盒文件库以本地目录的形式挂载没有任何网络访问权限。模型只有一个工具可以用bash命令行。它可以用这个工具浏览目录结构、查看文件内容、搜索关键词、执行Python脚本做计算但除此之外别无其他。每道题最多允许200轮交互时间上限是3600秒也就是一小时。如果模型在规定时间和轮次内没有输出一个格式正确的答案这道题直接记为答错。测试结果在整体上形成了一个非常清晰的两级分化格局。第一梯队的五个模型准确率集中在40%到60%之间Gemini-3.1-Pro以59.39%排名第一GPT-5.5以54.70%位居其次GLM-5.1以50.00%排名第三DeepSeek-V4-Pro以45.86%位列第四DeepSeek-V4-Flash以40.06%排在第五。第二梯队的三个模型则表现惨淡Qwen3.5-35B-A3B只有11.33%Gemini-3.1-Flash-Lite只有6.35%Qwen3.5-9B只有3.04%。两个梯队之间的差距高达28.73个百分点远远超过同一梯队内部任意两个模型之间的差距。更令人注目的是第二梯队的模型不是在某几个领域表现差——它们在几乎所有领域都接近了0%的地板。Qwen3.5-9B在八个领域中有五个的得分在3%以下Gemini-3.1-Flash-Lite在八个领域中有六个的得分在7%以下。---六、分域成绩才是真正的照妖镜总分排名只是故事的一半更有意思的是各个领域的横向比较。排名第一的Gemini-3.1-Pro在八个领域中拿下了五个第一但它在金融与经济领域的得分只有41.03%——这个分数甚至低于它在其他领域的整体平均水平而且在金融领域排名第四输给了GLM-5.156.41%、GPT-5.553.85%和DeepSeek-V4-Pro46.15%。GPT-5.5在法律和技术领域排第一却在商业管理领域只拿到38.00%是五个第一梯队模型里商业领域得分最低的。DeepSeek-V4-Pro总分比GPT-5.5低了将近9个百分点却在商业管理领域42.00%超过了GPT-5.538.00%。研究团队用了一个非常直观的方式来呈现这种分域差异把每个模型在某个领域的得分减去这个模型的总分得到一个残差。正数表示这个模型在这个领域超出了自己的平均水平负数表示低于平均水平。从这张图可以看出难度在很大程度上不是某个领域本身的固有属性而是某个模型与某个领域的特定组合决定的。商业领域对Gemini-3.1-Pro来说是强项比均值高了13个百分点对GPT-5.5来说却是弱项比均值低了17个百分点。金融领域对Gemini-3.1-Pro来说是软肋比均值低了18个百分点对GLM-5.1来说却是强项比均值高了6个百分点。这个发现的实际意义在于如果你只用一个领域的测试结果来评价AI模型的能力你很可能会得出完全错误的排名。一个在金融领域排名第四的模型在整体能力上实际上排名第一。只有跨越多个领域测试才能得到一个更接近真实情况的全面评价。---七、答错的原因比答错本身更值得关注研究团队不只是统计了对错还逐一分析了所有答错的案例把失败原因归纳成五大类别。第一类叫做检查不完整也就是模型跳过了解题所需的某份关键文件根本没有找到该找的证据。第二类叫做证据识别错误也就是模型找到了正确的文件但从里面提取了错误的数值——比如把错误的一列数据当成了正确的指标。第三类叫做资源耗尽也就是模型把允许的轮次、时间或上下文窗口全用光了还没得出答案。第四类叫做指令不遵从也就是模型忽视了题目里明确提出的某个计算要求。第五类叫做幻觉也就是模型凭空捏造了答案或者在推理过程中遗忘了之前已经找到的正确信息。在第一梯队的五个模型中前三类与证据相关的错误检查不完整、证据识别错误、指令不遵从是最主要的失败原因说明这些模型的瓶颈在于如何在大量文件里准确定位和提取证据而不是在推理和计算环节。幻觉问题在第一梯队中相对较小没有超过12%。但各个模型在资源耗尽这一项上的差异极为悬殊。GPT-5.5在所有失败原因里资源耗尽排名第一比例高达24.59%——这意味着这个模型经常在还没得出答案的时候就把可用资源用完了。DeepSeek-V4家族则完全是另一个极端资源耗尽的比例不超过1.10%说明这个系列的模型在探索过程中更加简洁高效。最夸张的是Gemini-3.1-Flash-Lite资源耗尽的比例高达69.61%——它几乎在每一道题上都跑到时间或轮次耗尽才停下来却得出不了正确答案基本上相当于交了一份大量空白的试卷。对于第二梯队的模型Qwen3.5-9B和Qwen3.5-35B-A3B幻觉问题上升为主要失败原因比例约达40%。这说明这些较小的模型和第一梯队模型的差距不主要来自计算能力而来自它们在面对大量文件时无法保持只说文件里有的内容这种基本原则——它们更容易自己编造答案而不是坦承没有找到足够的证据。---八、探索时间越长越可能是迷路了研究团队还专门分析了模型在每道题上花了多少轮交互才给出最终答案以及这些轮次数与答题结果之间的关系。在所有第一梯队模型中可以观察到一个非常一致的规律答对的题目往往在交互轮次比较少的时候就给出了答案而交互轮次越来越多、一直拖到接近上限的题目几乎清一色是答错的。换句话说如果一个模型在20到40轮内搞定了一道题它很可能是找到了正确的路径从容地完成了检索和计算但如果它一直在探索翻来覆去地搜索却迟迟无法给出答案那它很可能已经迷失在文件库里只是在做无效的重复工作而不是在接近答案。这个发现对于理解AI在实际工作中的行为模式很有启发意义。在真实的职场环境里当一个员工在同一件事情上反复折腾却毫无进展通常意味着他需要换一种思路而不是继续做同样的事情。AI模型在这个测试里表现出了同样的问题——它们缺乏意识到自己已经走错路并及时调整策略的能力。---归根结底AGORA这套测试想说的是让AI模型帮你在企业文件库里找证据、算数字这件事目前还远未到可以放心交出去的程度。即便是当前全球性能最强的模型之一也只能答对不到60%的题目。而且同一个模型在不同专业领域的表现差异极大你无法通过它在某一个领域的成绩来推断它在其他领域的可靠性。这对于现实中已经开始把AI引入工作流程的企业和团队来说是一个值得认真对待的警示。现在市场上很多AI工具宣传自己能在企业内部知识库里检索和推理但这份测试告诉我们能做和做得准之间还有相当大的距离。在那些需要精确答案的场合——比如财务核对、法规合规检查、医疗数据分析——盲目信任AI的输出结果可能会带来真实的风险。另一方面这份研究也揭示了一个值得持续关注的方向当前AI模型在主动、有策略地探索大型文件库这件事上还有明显的短板特别是在跨文件对齐不一致的数据这个环节以及在知道何时该放弃当前路径、重新思考这个判断上。这些方向的进步才是让AI真正成为可信职场助手的关键所在。如果你对这个话题感兴趣不妨思考一个延伸问题假如给AI模型配备更强大的工具比如专门的表格处理插件或领域专属的搜索引擎它的表现会有多大提升目前AGORA的设计故意只给了模型一个bash命令行工具就是为了把工具影响剥离出去专注于评估模型本身的能力。下一步更精细地研究不同工具配置对表现的影响将会是这个领域的重要课题。有兴趣深入了解这项研究全貌的读者可以通过arXiv编号2606.24526查阅完整论文。---QAQ1AGORA测试和其他AI能力测试有什么本质区别AAGORA要求AI在一个固定的、封闭的真实文件库里主动探索和推理而不是回答可以从训练数据里直接调取答案的问题也不是在开放互联网上搜索。它同时覆盖八个专业领域强调跨文件拼合证据、处理不一致数据并要求给出精确数字答案这三个要素组合在一起是现有测试体系没有同时覆盖到的。Q2为什么排名第一的Gemini-3.1-Pro在金融领域反而不如其他模型A研究团队发现难度在很大程度上是模型与领域的组合共同决定的而不是某个领域本身固定更难。不同模型在训练数据构成、指令遵从方式和推理习惯上存在差异这些差异会在不同类型的文件和问题上产生不同方向的影响导致总分领先的模型在某些特定领域反而落后于其他模型。Q3AGORA测试中AI答错的最主要原因是什么A对于性能较强的第一梯队模型最主要的失败原因是三类与证据相关的问题跳过了关键文件没有检查、找到了正确文件但提取了错误数值、以及忽略了题目里的某个具体计算要求。对于较小的第二梯队模型幻觉问题更突出这些模型更容易在没有找到足够证据的情况下自行编造答案。

相关新闻