--- title: "让AI成为真正的社会生产力——跨越Token效率门槛走向AI普惠" type: source source: wechat source_url: https://mp.weixin.qq.com/s/Cmioejp77LENAnAMo2r3Aw tags: [wechat, article, claude, openai, gpt, agent, harness, openclaw] review_value: 7 review_confidence: 8 review_recommendation: worth-reading review_stars: 3 created: 2026-05-16 updated: 2026-05-16 sha256: d0e50a0e1ed7fea1e034af072d6c53773f3f1f224674e515fe15f081d3fb6556 --- --- source: wechat source_url: https://mp.weixin.qq.com/s/Cmioejp77LENAnAMo2r3Aw ingested: 2026-05-16 feed_name: 腾讯研究院 wechat_mp_fakeid: MP_WXS_2399148061 source_published: 2026-04-30 --- # 让AI成为真正的社会生产力——跨越Token效率门槛走向AI普惠 司晓 腾讯研究院院长 袁晓辉 腾讯研究院副 院长 白惠天 腾讯研究院高级研究员 今年三月GTC大会上,黄仁勋说,如果一个年薪50万美元的工程师,用不了25万美元的Token,他会很深感不安。Meta在这件事上更为极端:他们搞了一个内部Token消耗排行榜,谁用得多谁上榜,末尾的可能被裁员,一些Meta员工甚至开始卷一个名为Token Legend的非官方头衔。Token Maxing (Token消耗最大化) 由此开始流行起来,烧Token越多的人,越被认为是更懂AI、更会用AI、更能驾驭AI的人。 这种做法有它的合理性。在AI落地的早期阶段,企业鼓励员工大量使用AI,是为了让人尽快建立与AI的协作习惯,找到真正能产生价值的场景。但当使用量上去之后,问题也跟着来了: 这么多Token烧下去,到底有多少转化成了真实的生产力? 目前我们看到已经有公司开始踩刹车了。一些在AI转型上走得很积极的大企业,早期鼓励员工放开用,现在也不得不回到成本核算的桌上。大企业尚且如此,预算更紧的中小公司面对的账单压力可想而知。 这就引出了一组问题,一个Token到底值多少钱?该怎么花?由谁来付?付了之后值不值?这是AI时代正在浮现的一门新学问,Token经济学。它要关切的,首先是成本投入到底产生了什么价值,每一分Token花出去有没有对应的产出;在此基础上,才能回答一个更大的问题, AI能不能从个人到组织到社会完成一次真正的扩散,从少数人的高端工具,变成一种人人能用、企业敢投、社会有能力承载的新生产力。 ** ** ** ** ** Token形式主义的陷阱 ** 追求Token消耗听起来天经地义,似乎烧得多说明你在用AI,用得多说明你懂AI。但这里有一个重要问题没有覆盖到: 一个人烧了这么多Token到底做成了什么事。 Token可以刷,产出不能刷。任何一个本来该衡量结果的指标,一旦被当作目标本身,就会从工具变成表演。这就是一种Token形式主义,本质和历史上所有被KPI挟持过的指标没什么两样——程序员比拼代码行数,结果代码越写越冗长;客服中心考核接线量,结果通话质量直线下降;学术界用论文数量衡量产出,结果灌水论文泛滥。Token消耗量的评估方向也会带来类似的问题。 还有一个几乎所有企业内AI用户的默认选择,即打开AI工具的那一瞬间,下意识选中最新、最强那一档模型。在AI发展初期,这是合理的——大家需要直接体验AI的能力上限,节省比较模型和选择模型的时间。但当大家已经用了一段时间、清楚地知道不同模型之间的能力差异之后,还把所有任务一律交给最贵的前沿模型,就是杀鸡用牛刀了。做最有挑战的规划任务用前沿模型是合理的,但写一行注释、改一个变量名、整理一段会议记录还都用前沿模型,那就是巨大的浪费了。 我们看到有些公司的Token开销从一年的百万跳到几千万,这数十倍增长中有多少真正带来生产力的提升,有多少是默认选项造成的浪费?今天可能没人算得清楚。 企业中出现的这种现象可能源于一个机制错位:Token的成本由公司承担,产出归个人享有。这和去吃酒店的免费自助餐是一回事,在免费模式下,没有人有节约的概念,能吃贵的就吃贵的。 长远来看,这种失衡对行业和公司都不是好事。如果Token开销持续膨胀,却无法证明对应的产出提升,企业迟早会收紧预算甚至叫停AI项目,最终受损的还是每一个使用者。归根到底,衡量AI的尺度应该是它真正辅助人办成了多少事,它让多少人的工作价值真正被放大,而不是消耗了多少Token。 工作产出才是衡量Token效率的尺度,而不是Token的消耗量。 ** ** ** ** ** Token效率:从能不能用到用得值不值 ** Token经济学真正要回答的,是每消耗一个Token能创造多大的价值。这就是Token Efficiency,即Token效率,AI时代的Token投入产出比 ( ROI) 。 如果说AI上半场大家卷的是AI能不能用,下半场卷的就是AI用得值不值。 这件事过去两年没人着急讨论,是因为模型可用性本身还是瓶颈。但今年我们来到了一个重要的拐点。AI领域正在同时发生两件事:一是前沿模型继续卷智力的上限,二是大多数模型开始拓展普惠的广度。在智力这条线上,前沿模型的能力还在继续往上推,但面向真实场景发挥作用的边际效益正在递减。再强的前沿模型,也很难改变绝大多数场景下的用户体验。当适应真实任务场景的模型可用性不再稀缺,焦点就应该从能不能用转向用得值不值。 当然,这并不意味着我们当下就应该一刀切地压缩Token消耗。今天的人们对AI的认知仍然存在很大的鸿沟,前沿用户已经在指挥多个AI智能体协同干活了,但更多人还停留在跟AI聊天对话的阶段,如何将AI带来的智能更好地用到生产场景,人们还需要体验和了解AI的能力边界。在当前的市场教育阶段,大模型厂商、AI应用厂商、产业中的企业和个人用户,可能都要承担一部分烧Token的学习成本。只有先大规模地测试、跑出场景之后,才知道该怎么省Token。问题的关键在于,大家烧完Token之后,能不能沉淀出一套可复用的效率方案。 要真正提升Token效率,工程圈也在努力。Harness Engineering驾驭工程正在成为大家讨论的焦点。本质上来看,Harness的目的是让AI产生确定性的产出,即让AI的产出可预期、可衡量、可持续,而Token效率是其中一个重要维度。我们也已经在实践中看到大家提升Token效率的三种尝试: 一是把任务分级。 AI可以做很多事情,每件事情的价值显然是不一样的。一句翻译和一次医疗诊断都选择用同一档模型来处理,是很大的浪费。不同任务天然适合不同规格的模型。做好任务分级,就能带来投入产出效率的提升。 二是给出价格信号。 目前模型厂商提供针对单一模型的API计价,对普通用户会有一个挑战,真正理解众多模型的Token成本结并不容易,模型的输入输出会有不同的价格,即使是输入的价格,还会区分缓存命中和缓存未命中,用户的心智成本太高了。因此,不少AI产品采用的计价方式是积分制 (Credits、Points) ,即用户购买的不是Token量,而是一套标准化的积分。例如在CodeBuddy、WorkBuddy、Cursor、Manus、Lovart等AI应用产品中,不同模型对应积分的多少是不同的,积分充当了模型之间的标准货币。用户使用前沿模型消耗更多积分,用普通模型消耗更少积分;在复杂任务上消耗更多积分,在简单任务上消耗更少积分。积分相当于一种内部结算货币,帮用户屏蔽了多币种的复杂性——就像欧元区统一货币后,消费者不再需要在每次跨境消费时比较汇率。用户无需了解每次调用了哪个模型、消耗了多少Token,只需看积分账单就能感知单次任务的投入产出和整月的总消耗。这种设计让差异化的分层定价变成了用户可感知的产品机制。这种透明设计有两个好处:一是让用户认识到AI使用的成本,二是让用户可以在简单任务上主动选择更便宜的模型,把预算留给真正需要前沿模型的场景。价格信号更大的意义在于让用户感受到智能是有层次的,省钱只是附带的结果。 三是做好模型路由。 任务分级是认知,价格信号是评估,路由是认知落地的工程支持。一个用户不应该被逼着在每次提问前先做一次判断,这个问题算不算复杂、值不值得用前沿模型。AI应用应该帮用户做这件事,根据任务的特征自动把它送到最合适的那一档模型上去。腾讯CodeBuddy应用中的模型自动选择模式 (auto) 就是遵循这样的理念,会自动识别用户意图,用最合适的模型来解决。比如代码补全交给小模型,解释和生成用中等模型,复杂规划和疑难问题解决才动用前沿模型,帮助用户降低心智成本的同时,节约积分消耗。在路由体系里,不同模型的定价已经分化明显,有些前沿模型非常贵,有些擅长执行的模型价格低到接近免费,这让路由功能可以节约的成本空间变得很大。 做到以上三点,Token效率才能真正落地。 但值得注意的是,提升Token效率还有一个同等重要的前提:即使用者的AI素养。模型路由可以交给产品侧的Harness Engineering来支撑,但任务分级就需要用户自己的判断力了:哪些任务该交给哪一档模型,需要用户建立对模型能力的理解。此外,用户对驾驭AI的理解也会影响在某项任务中提供给AI的上下文情况,——只提供跟当前任务相关的上下文信息,还是让模型自己在系统中自己搜索东拼西凑,不仅影响模型的产出质量,还非常影响积分的消耗。只有AI产品和用户能力共同成长,才能让Token效率真的提升上去。 ** ** ** ** ** AI普惠:从个人到组织到社会 ** 只有Token效率持续提升,才会真正带来AI普惠,而这个过程会在个人、组织和社会三个层次同时发生。 第一个层次是个人。 真正决定AI能不能渗透到普通人生活里的,是模型能否用更低的成本满足用户的场景需求——比如能不能跑在手机上、能不能以接近零的成本稳定服务到亿级用户。一款十亿用户量级的产品,每天要承接数以百亿次的简单请求,让参数最大的前沿模型去处理这些请求,账面成本会膨胀到任何一家公司都承担不起的量级。十亿人的AI,天生就不可能是最贵的AI,而应该是适配不同场景需求的,由不同尺寸模型构成的一套完整谱系。这也是为什么像一些服务海量用户的国民级产品,在接入AI时会自然走向小尺寸模型:这是普惠和智能的最优解。 第二个层次是组织,尤其是中小企业。 中小企业是Token经济学最值得关注的一层。它们没有海量Token预算,试错空间极其有限,每一次AI账单的跳涨都会直接影响经营利润。它们真正需要的,是一个月月算得过账、事事能办到位的可靠助手,而非一个能一夜写完五千行代码的英雄主义工具。这里真正起作用的,是Token 效率的一整套体系,让它们用得到与业务相匹配的模型,用得起日常运转所需的Token,也能从价格信号里清楚地看到每一分AI投入对应了怎样的产出。一家外贸小企业能不能用AI接住海外客户的深夜来信,一家区域教育机构能不能用AI帮老师备课,一家几十人的咨询公司能不能用AI整理一份尽调,这些事一旦变得可承担、可预期、可控制,AI才真正走进了国民经济的细胞。 腾讯做混元模型的这两年,核心思路就是把模型谱系从大到小铺完整,让不同层次的需求都能找到对应的模型。大参数量模型承接金融、医疗、政务这些错不起的决策场景;中等尺寸模型支撑元宝日常对话、企业智能体等研发生产场景;端侧模型为手机等终端设备做好前瞻储备。不久前发布的Hy3 preview,瞄准的是企业级Agent这个当下最能产生价值的领域。这个尺寸的模型,行业里其实一直缺一个兼顾可靠性和成本的选项。Hy3的设计目标是让企业在规模化部署Agent时,让单次调用成本能落在可持续使用的区间里。对一家正在把AI融入日常运转的企业来说,让AI可用可靠又能价格可控,比什么都重要。 第三个层次是社会。 当一个个具体的人用得顺,一家家真实的中小企业用得起,Token就不再只是技术账本上的成本条目,它开始成为一种新的社会资源,像电力、像带宽、像公路一样,被分层、被调度、被合理分配。从个人的一次咨询,到组织的一次业务闭环,再到整个社会算力资源的合理调配,才能形成一套有效、有秩序的Token经济体系。这套秩序一旦建立起来,AI才可能真正从一项前沿技术,变成真正的生产力,进而孵化出新的生产关系。而当我们真正建立了用来计量Token投入产出的计价评估体系和基础设施,我们才能重新看清未来人将如何跟AI更好地协作。把握Token经济学的价值,需要我们加深对AI作为生产力工具的本质的理解,也需要将产业界的实践持续提炼,去描绘出Token经济学的蓝图。 ** ** ** ** ** 结语 ** 追求Token消耗有它的历史阶段意义,但它不是终局。当使用量积累到一定程度,焦点必然要从有没有用转向用得值不值。让大小模型各归其位、让每一个Token都能在对的场景里产生真实的价值,AI才可能成为一种能被个人用得顺、被组织用得起、被社会用得长的新的生产力。 从追求Token消耗到追求Token效率,从高端工具到真实生产力,这一跃会发生在无数个具体的场景,而非某一款新旗舰模型的发布会现场。当一家中小企业第一次用可控的成本跑通自己的业务,当一款国民级产品第一次把AI无感地递到了每一个普通用户手里,当一个原本被AI挡在门外的行业终于有了把它用起来的那个起点,AI普惠才真正拉开了序幕。 让AI真正走进更多人的生活、更多组织的日常、更广阔的社会空间,这是腾讯这两年、也是未来很多年,都要持续回答的一道题。让人放心,把人放大,也是AI普惠最终要兑现的承诺。 ** 司晓: [ 《AI要让人放心,把人放大》 ]() 白惠天、袁晓辉 : [ 《Token经济学七问——一份关于AI新经济的入门地图》 ]() ** 👇 点个 “在看” ** ** 分享洞见 **