---
title: "大模型社会智能如何诊断？浙大团队提出 NICE：理论驱动型社会智能评测基准"
source_url: "https://mp.weixin.qq.com/s/Xr3t8vHZoer1eHSBsYN7ZA"
source: "wechat|Hyman的杂货铺"
author: "Hyman的杂货铺"
publish_date: "2026-06-12"
ingested: "2026-06-12"
type: article
tags: []
source_type: wechat
sha256: "6f4c3645ad2fa53024f556a31004901cfc720b8a09435700b095a1a65d50eb98"
---

浙江大学心理与行为科学系与人工智能学院联合团队提出 NICE 基准——一个面向大语言模型能力诊断的、理论驱动型的社会智能评测基准。NICE 将社会智能组织为 4 大类、11 维度、34 个能力内涵，用 137 道中国情境排序题评测 5 个前沿 LLM，发现模型总体准确率高于人类参考组（75.1% vs 70.4%），但社会智能发展并不均衡，「沟通」（D3 Communication）是集体短板。

**论文标题**：NICE: A Theory-Grounded Diagnostic Benchmark for Social Intelligence of LLMs
**论文链接**：https://arxiv.org/abs/2605.29685
**数据集链接**：https://huggingface.co/datasets/icilab2026/NICE

## 大模型的社会智能评测面临三个关键 gap

社会智能（Social Intelligence）通常指个体理解、融入并适应社会环境的能力。对于大模型来说，它直接关系到人机交互的质量与安全。

近年来虽然已有不少评测基准关注大模型社会能力（心理理论、情绪理解、道德判断等），但对于"如何系统评估大模型社会智能"，现有评测基准仍存在三个关键 gap：

- **Gap 1**：缺少整体全面、理论驱动的社会智能评测框架
- **Gap 2**：缺少精细到能力内涵的诊断能力
- **Gap 3**：缺少贯穿全流程的严谨心理测量学方法

NICE 正是围绕这三个 gap 提出的。

## NICE：一个理论驱动、可诊断的社会智能 Benchmark

依据系统文献综述与多轮专家验证构建的社会智能理论框架，NICE 将社会智能分为四大类别（Norm, Interaction, Cognition, Experience），并包含 11 个维度和 34 个能力内涵。

**四大类别下的 11 个维度**：

| 类别 | 维度 | 解释 |
|------|------|------|
| 社会认知（Cognition） | 社会感知、社会理解与洞察 | 模型如何感知、理解和推断社会信息 |
| 社会交互（Interaction） | 沟通、情绪利用、关系管理、自我一致性 | 模型如何选择合适的沟通、情绪、关系和行为策略 |
| 社会学习（Experience） | 观察模仿、适应性学习 | 模型如何从观察、互动结果和反馈中学习 |
| 社会规范（Norm） | 社会文化智能、社会责任、道德与伦理智能 | 模型如何理解社会文化规则、道德约束和责任要求 |

NICE 是第一个全面解读社会智能的评测框架，且每一道题都与唯一的内涵清晰对应。

## 题目形式：不仅选择正确答案，还需要将答案分级排序

NICE 最终包含 137 个题项，主要基于代表性中国情境进行设计。每道题含一个社会情境、一个问题和若干候选回应。回应具有从最优到最差的质量梯度：

- **最优回应**：符合情境、互动目标和社会规范
- **次优回应**：部分合理，但理解、表达或规范适切性不足
- **最差回应**：忽略关键信息，或违反互动目标、关系边界与规范

测试时，模型需将候选回应从最优到最差完整排序，与专家标准答案完全一致才算正确。这种排序跳出以往非黑即白的评判，更契合真实社交的复杂性，同时考察了模型社会判断的合理性和边界敏感性。

## 题目生成与验证：从框架构建到题项开发的全流程心理测量方法

NICE 的构建分四阶段：框架构建 → 素材收集 → 题项构建 → 题项评估与验证。

- **框架构建**：结合人类与 AI 社会智能理论及专家访谈形成初步理论框架；经 16 位专家评分和焦点小组，从必要性、相关性和可区分性验证修订框架；最后采用层次分析法（AHP）比较各层级重要性，确定各维度相对权重
- **素材收集**：整理 18 个社会智能相关 LLM 评测基准与 43 个经典心理学范式，作为题项开发参考
- **题项构建**：由 2 位具 7–8 年心理学研究经验的研究者严格围绕目标维度和能力内涵设计题项，确保内涵对齐
- **题项评估与验证**：经三轮评估修订，12 位评估者从可靠性、效度、中立对每题作 5 点评分，保留阈值 3.5 分；任一低于阈值的题项需根据反馈修订重测

## NICE 揭示了什么？模型总体表现较高，但社会智能并不均衡

研究团队使用 NICE 评测了 5 个前沿 LLM：GPT-5.5、Claude-Opus-4.7、Gemini-3.1-pro-preview、DeepSeek-V4-pro 和 Qwen3.6-plus。同时招募了 14 名成年中文母语者作为人类参考组。

### 总体表现：LLM 平均准确率高于人类参考组

从总体准确率看，LLM 平均准确率为 **75.1%**，人类参考组平均准确率为 **70.4%**，差距约 4.7 个百分点。其中 Gemini-3.1-pro-preview 和 GPT-5.5 位居前两名，Claude-Opus-4.7 总体准确率最低（71.1%）。

### 进一步分析：社会智能总分高，不代表每种能力都强

**发现 1**：LLM 优势集中在部分维度，尚未全面领先

在 11 个维度中，LLM 在社会感知、情绪运用、自我一致性、适应性学习和社会责任等维度表现出优势，但仍有多个维度未显示稳定优势。社会智能不是单一总分可概括的能力。

**发现 2**：沟通是当前前沿 LLM 的一致短板

在所有 11 个维度中，**D3 沟通（Communication）是人类参考组显著优于 LLM 的维度**。更重要的是，对于被评测的 5 个模型，D3 都是得分最低的维度。这一结果说明，即便模型总体表现较高，在处理沟通交流、细微信号理解和互动边界时仍存在系统性弱点。

**发现 3**：沟通短板集中在多轮沟通、非言语沟通和同步性

进一步拆解发现，模型在 D3 维度的短板主要集中在三个能力内涵：多轮沟通、非言语沟通和同步性。当前模型尤其不擅长处理依赖互动节奏、非语言线索、高度依赖上下文连续性的沟通任务。

**发现 4**：模型可能过度偏好显性礼貌行为

在一个初次见面的场景案例中，所有模型和人类都能正确识别最优选项，但在最差选项判断上出现分歧：对于"对他人 180 度鞠躬"，71.43% 的人类参与者认为这是最差选择；然而 Claude-Opus-4.7 和 GPT-5.5 在 3 次独立测试中从未把它排为最差，而是稳定地将其放在第二位。后续解释显示，人类参与者认为这种行为在现实社交中显得夸张、不自然；而 GPT-5.5 则倾向于把它理解为一种礼貌表达。

这揭示了大模型可能过度偏好显性礼貌行为，却低估情境中的越界和不合时宜。如果社会智能评测基准只做单选测试，这类问题很可能被掩盖。NICE 通过排序任务让模型识别行为边界，从而暴露出更细微的社会智能缺陷。

## NICE 的意义：让社会智能评测从总分竞赛走向能力诊断

NICE 的贡献可概括为三点：

1. **NICE 是第一个系统全面的社会智能评测基准**。它将社会智能组织为 4 个类别、11 个维度和 34 个能力内涵，为大模型社会智能评测提供整体全面的理论基础
2. **NICE 支持能力内涵级别的诊断**。每道题都对应一个经理论框架验证的能力内涵，模型错误可被定位到更具体的社会智能弱点，而不会淹没在总分或维度分数里
3. **NICE 的构建完全遵循了心理测量方法**。它避免多个子任务的简单拼凑，在框架构建、题项开发和验证过程中全程引入心理测量原则

对于大模型研究来说，NICE 提供了一张社会智能能力地图。对于模型训练和对齐来说，NICE 也提供了一种更可操作的反馈信号，指出模型具体在哪些能力内涵上存在缺陷。