---
title: "Claude 最歧视的，是印度三哥"
source: wechat
url: https://mp.weixin.qq.com/s/_X_iaH_O__XMjpP4D-MRUg
ingest_date: 2026-07-04
vxc: 56
stars: 4
sha256: dc6b4dd23c228bfe200e0113942091d181b6c54da9ce711a15eb9b94aa750e3c
---

# Claude 最歧视的，是印度三哥

**来源**: AGI Hunt

**发布日期**: 2026-04-29

**原文链接**: https://mp.weixin.qq.com/s/_X_iaH_O__XMjpP4D-MRUg

---

你知道吗：同样一段话，用印地语发给 Claude，token 消耗是英语的 3.24 倍 。

这个数字来自 AI 研究员 Aran Komatsuzaki 昨天做的一个实验。

他把 Rich Sutton 那篇著名的《The Bitter Lesson》（苦涩的教训）翻译成了 7 种语言，然后分别丢进 OpenAI 和 Anthropic 的 tokenizer 里数 token。

收费站

结果发现……Claude 的 tokenizer 对非英语用户，简直像在对外地人收过路费。

01

## 测试方法

方法很简单。

Sutton 的《The Bitter Lesson》是 AI 领域一篇经典短文，原文是英文，长度适中，内容固定，很适合拿来做跨语言对比的基准。

Aran 把这篇文章翻译成了印地语、阿拉伯语、中文、俄语、法语、西班牙语，然后分别粘贴到 OpenAI 和 Claude 的 token 计数器里。

以 OpenAI 英文原文的 token 数为基准（1.00×），看看其他语言「膨胀」了多少。

结果如下：

token 开销对比

蓝色是 OpenAI，橙色是 Anthropic。

英语：OpenAI 1.00×，Anthropic 1.04×，几乎一样。

西班牙语：OpenAI 1.18×，Anthropic 1.62×，Claude 开始拉开差距了。

法语：OpenAI 1.30×，Anthropic 1.79×。

中文：OpenAI 1.15×，Anthropic 1.71×。

到了阿拉伯语：OpenAI 1.31×，Anthropic 2.86×。

而印地语，OpenAI 是 1.37×，Anthropic 直接飙到了 3.24×。

换句话说，一个印度用户用印地语和 Claude 聊天，同样的内容，要比英语用户多花 3 倍多的 token。

02

## 不只是贵

拥有 20x Max 的你可能会想，多花点 token 也就是多花点钱嘛，反正我有的是不限量套餐。

还真不是这么简单。

token 数量膨胀带来的连锁反应，远不止账单上的数字（并且套餐也有限额啊！）。价格只是第一刀，更为要命的是： 延迟 。

3.24 倍的 token，意味着模型在开始生成回答之前，光是「读题」就要多花将近一倍的时间。

首 token 延迟（TTFT）直接被拖垮，用户的体验 会是 断崖式下降。

三重打击

Aran 自己也算了一笔账：

“ 3 倍慢的解码速度，加上 3 倍频繁的 context 压缩，光想想就头疼。

token 多了，输入处理慢了，输出也慢了，而且上下文窗口更容易被撑满，触发压缩的频率也更高。

对于在生产环境跑 Claude 的印度开发者来说，这三重打击几乎是致命的：贵 3 倍、慢 3 倍、压缩 3 倍。

03

## 扩大战场

Aran 觉得只比 OpenAI 和 Anthropic 两家还不够，于是又做了一轮更大范围的测试。

这次他把模型扩展到了 6 家：OpenAI、Gemini 3.1、Qwen3.6、DeepSeek V4、Kimi K2.6、Anthropic。语言也增加到了 10 种，加入了日语、韩语、德语。

结果出来了，热力图如下： 

六家模型对比

颜色越深，代表 token 膨胀越严重。

几个关键发现：

赛跑

中文在中国模型上比英文还便宜。 Qwen 0.85×，DeepSeek 0.87×，Kimi 0.81×。毕竟是自家地盘，tokenizer 专门优化过。

Gemini 和 Qwen 对非英语最友好。 平均膨胀率分别是 1.22× 和 1.23×，比 OpenAI 的 1.33× 还低。（Google Gemini 果然对三哥挺友好……）

Anthropic 全场倒数第一。 平均膨胀率 2.07×，比第二差的 Kimi（1.76×）还要高出一大截。

而印地语，是所有语言里被「歧视」得最惨的。 Anthropic 上 3.11×，Kimi 上 2.63×，连 DeepSeek 都要 2.67×。

平均下来，一段印地语文本在这 6 家模型上的 token 消耗是英文的 2 倍。

04

## 关于 Tokenizer

说到这里，可能有不少人会问：tokenizer 到底是个什么东西？为什么它会「歧视」某些语言？

这里简单来介绍一下：大模型并不直接读文字，它读的是 token，一种介于「字」和「词」之间的文本单位。

token，译为 「词 元 」 。

而 tokenizer 的工作，就是把你输入的文字切成一个个 token，交给模型处理。切完之后有多少个 token，就决定了你要付多少钱、等多长时间。

碎片化

那 tokenizer 是怎么决定从哪里「切」的呢？

目前主流的方法叫 BPE（Byte Pair Encoding），训练过程大概是这样的：

一开始，tokenizer 只认识最基本的单位，也就是字节（byte）。英文字母 a、b、c 各占一个字节，所以「hello」就是 5 个 token。

然后，它开始在训练数据里找规律： 哪两个 token 经常挨在一起出现？

比如英文里「th」出现频率极高，那就把「t」和「h」合并成一个新 token「th」。

这个过程反复进行：「th」和「e」合并成「the」，「ing」合并成一个 token……最终形成一个词汇表，通常大小在 10 万左右。

问题就出在这里了。

tokenizer 原理

训练数据里英文占比最大，所以英文的常见组合都被合并成了高效的大 token。一个英文单词「understanding」可能只占 1-2 个 token。

但印地语呢？

训练数据里占比太少了，tokenizer 根本没见过足够多的印地语文本来学习高效的合并规则。于是它只能退回到最笨的方式：按字节拆。

而且这里还有一层底层的「先天不平等」：UTF-8 编码里，英文字母占 1 个字节，但印地语的天城文（Devanagari）每个字符要占 3 个字节。

也就是说，在 tokenizer 开始学习合并之前，印地语的每个字符就已经比英文「大」了 3 倍。

先天劣势加上后天忽视，印地语的 token 效率自然是……惨不忍睹。

05

## 市场决定一切

理解了 tokenizer 的原理，就不难理解为什么 Anthropic 的表现最差了。

Aran 分析了原因：

“ 他们确实优先投入了代码能力，但最根本的原因应该是市场规模。英语加中文差不多占了全球 GDP 的一半，还没算英语国家以外的英语使用者。

tokenizer 的词汇表容量有限，就像一本只有 10 万个词条的词典。英文和代码占了大头，中文也分到了一些（毕竟市场大），而印地语、阿拉伯语这些语言，分到的份额就少得可怜。 

词汇表分蛋糕

Google 和阿里做得好一些，因为它们本身就服务全球多语言市场，在 tokenizer 训练数据里给了非英语语言更多权重。

而 Anthropic 的重心一直在英文和代码上，多语言优化显然不是优先级。

说白了，tokenizer 的效率分配，就是市场份额的映射。

谁的市场大，谁的 token 就便宜。

06

## 双重打击

这里还有一个更让老铁扎心的现实。

在印度，花 20 美元订阅 Claude Pro，大概占月收入中位数的 5% 左右。而在美国，同样的 20 美元连月收入的 0.5% 都不到。

双重收费

AI 本来应该是让技术变得更民主化的工具。

结果印度的三哥用户们，先是花了更高比例的收入买了「门票」，进了门之后发现，同样的功能，因为 tokenizer 的问题，实际消耗还要再翻 3 倍。

相当于门票就比别人贵，进了门发现物价也比别人高。

也是雪中送炭了……

07

## 顺手补缺

值得一提的是，Aran 在做这个实验的过程中发现，网上居然没有一个 Claude 的 token 计数器（OpenAI 早就有了），于是他顺手做了一个：

Claude token 计数器

这个工具不需要你提供 API key，直接粘贴文本就能数 token，还能看占上下文窗口的百分比。

他后来也发现已经有人做过一个类似的 Claude token 计数器，但那个需要你输入自己的 API key。

而他的版本因为是在 Artifact 里跑的，没法直接调用 Claude 的 token 计数 API，所以用了一个“取巧”的方法来实现。

（具体怎么个取巧……他没细说。

08

## 苦涩的讽刺

这整件事里，还有个值得一品的，是 Aran 选来做测试的那篇文章本身。

Sutton 在《The Bitter Lesson》里论证的核心观点是： 人类设计的各种启发式方法（heuristics），最终都会输给纯粹的算力 。

而 tokenizer，恰恰就是这样一种人类设计的启发式方法。

它试图用人类的语言学知识来高效地压缩文本，但结果……对某些语言的用户来说，这种「高效」完全是单方面的。

也许 Sutton 说得对。

也许有一天，tokenizer 这个东西本身就会被淘汰，被某种更暴力但更公平的方法取代。

但在那一天到来之前，用印地语和 Claude 聊天的人，每说一句话，都在交 3 倍的税。

原来印度三哥的「三」，是要交三倍税的意思啊……

◇ ◆ ◇

相关链接：

• 原始推文：https://x.com/arankomatsuzaki/status/2049125048792006965

• Aran 的 Claude Token Counter：https://claude-tokenizer.vercel.app/

• 后续扩展对比：https://x.com/arankomatsuzaki/status/2049177688402022730