--- title: "大模型社会智能如何诊断?浙大团队提出 NICE:理论驱动型社会智能评测基准" source_url: "https://mp.weixin.qq.com/s/Xr3t8vHZoer1eHSBsYN7ZA" source: "wechat|Hyman的杂货铺" author: "Hyman的杂货铺" publish_date: "2026-06-12" ingested: "2026-06-12" type: article tags: [] source_type: wechat sha256: "6f4c3645ad2fa53024f556a31004901cfc720b8a09435700b095a1a65d50eb98" --- 浙江大学心理与行为科学系与人工智能学院联合团队提出 NICE 基准——一个面向大语言模型能力诊断的、理论驱动型的社会智能评测基准。NICE 将社会智能组织为 4 大类、11 维度、34 个能力内涵,用 137 道中国情境排序题评测 5 个前沿 LLM,发现模型总体准确率高于人类参考组(75.1% vs 70.4%),但社会智能发展并不均衡,「沟通」(D3 Communication)是集体短板。 **论文标题**:NICE: A Theory-Grounded Diagnostic Benchmark for Social Intelligence of LLMs **论文链接**:https://arxiv.org/abs/2605.29685 **数据集链接**:https://huggingface.co/datasets/icilab2026/NICE ## 大模型的社会智能评测面临三个关键 gap 社会智能(Social Intelligence)通常指个体理解、融入并适应社会环境的能力。对于大模型来说,它直接关系到人机交互的质量与安全。 近年来虽然已有不少评测基准关注大模型社会能力(心理理论、情绪理解、道德判断等),但对于"如何系统评估大模型社会智能",现有评测基准仍存在三个关键 gap: - **Gap 1**:缺少整体全面、理论驱动的社会智能评测框架 - **Gap 2**:缺少精细到能力内涵的诊断能力 - **Gap 3**:缺少贯穿全流程的严谨心理测量学方法 NICE 正是围绕这三个 gap 提出的。 ## NICE:一个理论驱动、可诊断的社会智能 Benchmark 依据系统文献综述与多轮专家验证构建的社会智能理论框架,NICE 将社会智能分为四大类别(Norm, Interaction, Cognition, Experience),并包含 11 个维度和 34 个能力内涵。 **四大类别下的 11 个维度**: | 类别 | 维度 | 解释 | |------|------|------| | 社会认知(Cognition) | 社会感知、社会理解与洞察 | 模型如何感知、理解和推断社会信息 | | 社会交互(Interaction) | 沟通、情绪利用、关系管理、自我一致性 | 模型如何选择合适的沟通、情绪、关系和行为策略 | | 社会学习(Experience) | 观察模仿、适应性学习 | 模型如何从观察、互动结果和反馈中学习 | | 社会规范(Norm) | 社会文化智能、社会责任、道德与伦理智能 | 模型如何理解社会文化规则、道德约束和责任要求 | NICE 是第一个全面解读社会智能的评测框架,且每一道题都与唯一的内涵清晰对应。 ## 题目形式:不仅选择正确答案,还需要将答案分级排序 NICE 最终包含 137 个题项,主要基于代表性中国情境进行设计。每道题含一个社会情境、一个问题和若干候选回应。回应具有从最优到最差的质量梯度: - **最优回应**:符合情境、互动目标和社会规范 - **次优回应**:部分合理,但理解、表达或规范适切性不足 - **最差回应**:忽略关键信息,或违反互动目标、关系边界与规范 测试时,模型需将候选回应从最优到最差完整排序,与专家标准答案完全一致才算正确。这种排序跳出以往非黑即白的评判,更契合真实社交的复杂性,同时考察了模型社会判断的合理性和边界敏感性。 ## 题目生成与验证:从框架构建到题项开发的全流程心理测量方法 NICE 的构建分四阶段:框架构建 → 素材收集 → 题项构建 → 题项评估与验证。 - **框架构建**:结合人类与 AI 社会智能理论及专家访谈形成初步理论框架;经 16 位专家评分和焦点小组,从必要性、相关性和可区分性验证修订框架;最后采用层次分析法(AHP)比较各层级重要性,确定各维度相对权重 - **素材收集**:整理 18 个社会智能相关 LLM 评测基准与 43 个经典心理学范式,作为题项开发参考 - **题项构建**:由 2 位具 7–8 年心理学研究经验的研究者严格围绕目标维度和能力内涵设计题项,确保内涵对齐 - **题项评估与验证**:经三轮评估修订,12 位评估者从可靠性、效度、中立对每题作 5 点评分,保留阈值 3.5 分;任一低于阈值的题项需根据反馈修订重测 ## NICE 揭示了什么?模型总体表现较高,但社会智能并不均衡 研究团队使用 NICE 评测了 5 个前沿 LLM:GPT-5.5、Claude-Opus-4.7、Gemini-3.1-pro-preview、DeepSeek-V4-pro 和 Qwen3.6-plus。同时招募了 14 名成年中文母语者作为人类参考组。 ### 总体表现:LLM 平均准确率高于人类参考组 从总体准确率看,LLM 平均准确率为 **75.1%**,人类参考组平均准确率为 **70.4%**,差距约 4.7 个百分点。其中 Gemini-3.1-pro-preview 和 GPT-5.5 位居前两名,Claude-Opus-4.7 总体准确率最低(71.1%)。 ### 进一步分析:社会智能总分高,不代表每种能力都强 **发现 1**:LLM 优势集中在部分维度,尚未全面领先 在 11 个维度中,LLM 在社会感知、情绪运用、自我一致性、适应性学习和社会责任等维度表现出优势,但仍有多个维度未显示稳定优势。社会智能不是单一总分可概括的能力。 **发现 2**:沟通是当前前沿 LLM 的一致短板 在所有 11 个维度中,**D3 沟通(Communication)是人类参考组显著优于 LLM 的维度**。更重要的是,对于被评测的 5 个模型,D3 都是得分最低的维度。这一结果说明,即便模型总体表现较高,在处理沟通交流、细微信号理解和互动边界时仍存在系统性弱点。 **发现 3**:沟通短板集中在多轮沟通、非言语沟通和同步性 进一步拆解发现,模型在 D3 维度的短板主要集中在三个能力内涵:多轮沟通、非言语沟通和同步性。当前模型尤其不擅长处理依赖互动节奏、非语言线索、高度依赖上下文连续性的沟通任务。 **发现 4**:模型可能过度偏好显性礼貌行为 在一个初次见面的场景案例中,所有模型和人类都能正确识别最优选项,但在最差选项判断上出现分歧:对于"对他人 180 度鞠躬",71.43% 的人类参与者认为这是最差选择;然而 Claude-Opus-4.7 和 GPT-5.5 在 3 次独立测试中从未把它排为最差,而是稳定地将其放在第二位。后续解释显示,人类参与者认为这种行为在现实社交中显得夸张、不自然;而 GPT-5.5 则倾向于把它理解为一种礼貌表达。 这揭示了大模型可能过度偏好显性礼貌行为,却低估情境中的越界和不合时宜。如果社会智能评测基准只做单选测试,这类问题很可能被掩盖。NICE 通过排序任务让模型识别行为边界,从而暴露出更细微的社会智能缺陷。 ## NICE 的意义:让社会智能评测从总分竞赛走向能力诊断 NICE 的贡献可概括为三点: 1. **NICE 是第一个系统全面的社会智能评测基准**。它将社会智能组织为 4 个类别、11 个维度和 34 个能力内涵,为大模型社会智能评测提供整体全面的理论基础 2. **NICE 支持能力内涵级别的诊断**。每道题都对应一个经理论框架验证的能力内涵,模型错误可被定位到更具体的社会智能弱点,而不会淹没在总分或维度分数里 3. **NICE 的构建完全遵循了心理测量方法**。它避免多个子任务的简单拼凑,在框架构建、题项开发和验证过程中全程引入心理测量原则 对于大模型研究来说,NICE 提供了一张社会智能能力地图。对于模型训练和对齐来说,NICE 也提供了一种更可操作的反馈信号,指出模型具体在哪些能力内涵上存在缺陷。