--- title: "MapSatisfyBench:首个以满意度为核心目标的地图智能体评测基准" source_url: "https://mp.weixin.qq.com/s/HNQFGzcRkB16ZbdvF7op9g" ingested: 2026-06-18 sha256: pending type: raw --- # MapSatisfyBench:首个以满意度为核心目标的地图智能体评测基准 高德地图平台技术中心AI评测部联合北京大学推出 MapSatisfyBench——首个以满意度为核心目标的地图智能体评测基准。该基准将评估范式从"任务完成度"升级为"决策满意度",并通过行为链证据将主观体验转化为客观、可量化的评估指标。 论文:https://arxiv.org/abs/2606.17453 数据及代码开源:将于6月底开源 ## 一、什么是 MapSatisfyBench MapSatisfyBench 不是只有一套数据集,而是一套完整的 Agent 评测系统,由三个模块组成: 1. **数据集与真值**:从去标识化的交互序列中提取影响用户满意度的隐式决策因素,构建结构化的决策参照系。 2. **动态交互仿真框架**:UserAgent 模拟用户、沙箱回放真实工具调用,让 Agent 在真实交互中被评估。 3. **全链路评估指标体系**:从任务执行到隐式需求满足,多维度量化 Agent 决策能力。 MapSatisfyBench 的评测哲学:不标"正确答案",标"影响用户接受度的因素"。 ## 二、核心方法论:从行为链到可评估的结构化真值 ### 隐式决策因素挖掘 MapSatisfyBench 提出"还原-识别-过滤"三步法,应用于大规模匿名地图服务日志,从匿名后交互序列中系统性发现影响满意度的隐式决策因素。 **第一步:还原。** 基于全链路交互信号还原决策逻辑。通过联合查询前序操作、当前表达、查询后序操作及最终任务状态,结合连续性分析与反馈归因,甄别任务推进与无关噪声,并定位原始意图的未满足点。 **第二步:识别。** 识别表述与满意响应间的语义缺口。通过将还原出的完整需求与显式查询比对,识别查询未显式表述、但会显著缩小可行解空间的隐式因素,输出候选隐式需求集。 **第三步:过滤。** 并非所有识别出的隐式因素都适合用于评估。该环节将每个因素的证据追溯到决策时刻可用的信息源,只保留在模型回答前、从可见信息中有据可查的因素,来确保评估公平性。 ### 隐式因素的满意度影响量化 对于每个保留的隐式因素,MapSatisfyBench 通过证据支持权重,量化行为链证据对用户接受概率的支持强度。该权重将用户的长期稳定倾向与当前时空场景下的即时成立概率相耦合: **长期偏好概率**:采用三因子分解模型刻画偏好的动态演化特征: - 偏好强度:基于匿名化历史交互的统计分布,计算同一决策维度内支持该因素的操作占比 - 时新性:区分日常习惯与情境性偏好,对近期或非常规证据赋予更高权重 - 时间动量:通过短期与长期偏好强度的变化率梯度赋值,精准识别偏好的形成、巩固或衰减趋势 **即时成立概率**:刻画当前时空语境对长期稳定倾向的动态调制作用,捕捉"习惯-场景"博弈。其计算包含两个核心环节: - 有效证据圈选:从当天前序交互中,圈选与当前隐式决策点属于同一决策维度,且在当前任务场景下仍然有效的前序动作 - 奖惩因子映射:基于有效证据的相关性、连续性与冲突情况,映射为分档惩罚/奖励系数 ### 五维真值构建 MapSatisfyBench 不定义单一标准答案,而是构建融合显式约束、隐式需求与交互体验的结构化决策参照系 G(x) = (E, Z, T, C, R): | 维度 | 符号 | 说明 | |------|------|------| | 显式决策约束 | E(x) | 基于 query 字面与时空背景,界定任务的基本有效性边界与事实性要求 | | 隐式决策约束 | Z(x) | 刻画用户接受概率背后的未言明决策因子,每个因子均配评估策略、约束类型与满意度影响权重 | | 工具调用轨迹 | T(x) | 规范预期工具类型、参数约束及调用顺序,确保复杂任务的可执行性 | | 主动澄清轮次 | C(x) | 界定澄清频次,衡量系统对用户认知负担的控制水平 | | 结果可靠性 | R(x) | 校验响应内容与工具输出、事实知识的一致性,杜绝幻觉 | ### 真值质量控制 "生成-校验-审定"三阶闭环质控体系: 1. 自动生成:大模型基于行为链信号完成意图归因与结构化标注 2. 共识校验:多独立 LLM 并行评判,以跨模型一致性自动标记低共识样本 3. 专家审定:争议样本盲审复核,达标样本二次交叉验证 ## 三、确定性仿真环境与全链路评估体系 - **UserAgent**:当被评估的 Agent 主动问询时,UserAgent 根据真值中的完整需求自动提供最小充分回答,使评测自然扩展到多轮对话场景 - **离线沙箱**:缓存了 22 个真实地图服务工具 API 的响应,确保可复现的公平比较 ### 七维评估指标 | 维度 | 指标 | 说明 | |------|------|------| | 任务执行 | 显式决策因子完成率 ECR | 衡量对用户显式表述需求的理解与覆盖程度 | | 任务执行 | 工具选择准确率 TS | 衡量工具选择与参数设置的正确性 | | 结果可靠性 | 信息忠实度分数 IFS | 衡量生成内容与工具输出及事实依据的一致性 | | 交互体验 | 隐式决策因子满足率 IISR | 衡量对隐式需求的洞察与响应能力 | | 交互体验 | 交互效率 Eff | 衡量达成任务目标所需的对话轮次与认知负担 | | 交互体验 | 决策可接受概率 AR | ECR × IISR,显式任务未完成或隐式需求缺失均导致显著衰减 | | 交互体验 | 满意度效率分数 SES | 高效提供高满意度决策的综合效能,低满意度不可由短轮次补偿 | ## 四、关键发现 基于 React Agent 框架,对 12 个主流大模型进行完整评估(GPT 系列、Claude 系列、Gemini 系列、DeepSeek 系列、Qwen 系列)。 **发现一:模型普遍"能完成任务",但"猜不准你"。** 前沿模型 ECR 普遍高于 0.85(GPT-5.3 达 0.9272),仅轻量级模型明显偏低;但 IISR 最高仅 0.7170(Claude-4.6-Opus),AR 与 SES 更为严苛,SES 非思考模式最高分仅 0.2755。 **发现二:模型缺乏主动获取可用证据的能力。** 所有模型的工具选择准确率(TS)均低于 50%,交互效率(Eff)均低于 0.5。评测环境中提供了匿名化偏好总结和历史交互统计数据,但模型普遍较少调用——如 POI 搜索调用次数是特征总结工具的 23 倍(16,061 vs 691)。 **发现三:思考模式能补课,但补不到满分。** 开启思考模式后三组模型 IISR 均有提升,Gemini 3.1 Pro 增幅最大。但即使在思考模式下,所有模型的 IISR 仍显著低于 ECR。 ## 结语 当前基于 LLM 的地图智能体的主要局限,已不再是地理知识不足或指令执行不力,而是无法从用户的行为链中稳定恢复那些虽未言明、但对决策是否被用户接受至关重要的隐式决策因素。 从"理解任务"到"给出用户愿意接受的方案"——这是地图智能体从"可用"迈向"好用"必须跨越的关键一步。