--- title: "Claude 最歧视的,是印度三哥" source: wechat url: https://mp.weixin.qq.com/s/_X_iaH_O__XMjpP4D-MRUg ingest_date: 2026-07-04 vxc: 56 stars: 4 sha256: dc6b4dd23c228bfe200e0113942091d181b6c54da9ce711a15eb9b94aa750e3c --- # Claude 最歧视的,是印度三哥 **来源**: AGI Hunt **发布日期**: 2026-04-29 **原文链接**: https://mp.weixin.qq.com/s/_X_iaH_O__XMjpP4D-MRUg --- 你知道吗:同样一段话,用印地语发给 Claude,token 消耗是英语的 3.24 倍 。 这个数字来自 AI 研究员 Aran Komatsuzaki 昨天做的一个实验。 他把 Rich Sutton 那篇著名的《The Bitter Lesson》(苦涩的教训)翻译成了 7 种语言,然后分别丢进 OpenAI 和 Anthropic 的 tokenizer 里数 token。 收费站 结果发现……Claude 的 tokenizer 对非英语用户,简直像在对外地人收过路费。 01 ## 测试方法 方法很简单。 Sutton 的《The Bitter Lesson》是 AI 领域一篇经典短文,原文是英文,长度适中,内容固定,很适合拿来做跨语言对比的基准。 Aran 把这篇文章翻译成了印地语、阿拉伯语、中文、俄语、法语、西班牙语,然后分别粘贴到 OpenAI 和 Claude 的 token 计数器里。 以 OpenAI 英文原文的 token 数为基准(1.00×),看看其他语言「膨胀」了多少。 结果如下: token 开销对比 蓝色是 OpenAI,橙色是 Anthropic。 英语:OpenAI 1.00×,Anthropic 1.04×,几乎一样。 西班牙语:OpenAI 1.18×,Anthropic 1.62×,Claude 开始拉开差距了。 法语:OpenAI 1.30×,Anthropic 1.79×。 中文:OpenAI 1.15×,Anthropic 1.71×。 到了阿拉伯语:OpenAI 1.31×,Anthropic 2.86×。 而印地语,OpenAI 是 1.37×,Anthropic 直接飙到了 3.24×。 换句话说,一个印度用户用印地语和 Claude 聊天,同样的内容,要比英语用户多花 3 倍多的 token。 02 ## 不只是贵 拥有 20x Max 的你可能会想,多花点 token 也就是多花点钱嘛,反正我有的是不限量套餐。 还真不是这么简单。 token 数量膨胀带来的连锁反应,远不止账单上的数字(并且套餐也有限额啊!)。价格只是第一刀,更为要命的是: 延迟 。 3.24 倍的 token,意味着模型在开始生成回答之前,光是「读题」就要多花将近一倍的时间。 首 token 延迟(TTFT)直接被拖垮,用户的体验 会是 断崖式下降。 三重打击 Aran 自己也算了一笔账: “ 3 倍慢的解码速度,加上 3 倍频繁的 context 压缩,光想想就头疼。 token 多了,输入处理慢了,输出也慢了,而且上下文窗口更容易被撑满,触发压缩的频率也更高。 对于在生产环境跑 Claude 的印度开发者来说,这三重打击几乎是致命的:贵 3 倍、慢 3 倍、压缩 3 倍。 03 ## 扩大战场 Aran 觉得只比 OpenAI 和 Anthropic 两家还不够,于是又做了一轮更大范围的测试。 这次他把模型扩展到了 6 家:OpenAI、Gemini 3.1、Qwen3.6、DeepSeek V4、Kimi K2.6、Anthropic。语言也增加到了 10 种,加入了日语、韩语、德语。 结果出来了,热力图如下: 六家模型对比 颜色越深,代表 token 膨胀越严重。 几个关键发现: 赛跑 中文在中国模型上比英文还便宜。 Qwen 0.85×,DeepSeek 0.87×,Kimi 0.81×。毕竟是自家地盘,tokenizer 专门优化过。 Gemini 和 Qwen 对非英语最友好。 平均膨胀率分别是 1.22× 和 1.23×,比 OpenAI 的 1.33× 还低。(Google Gemini 果然对三哥挺友好……) Anthropic 全场倒数第一。 平均膨胀率 2.07×,比第二差的 Kimi(1.76×)还要高出一大截。 而印地语,是所有语言里被「歧视」得最惨的。 Anthropic 上 3.11×,Kimi 上 2.63×,连 DeepSeek 都要 2.67×。 平均下来,一段印地语文本在这 6 家模型上的 token 消耗是英文的 2 倍。 04 ## 关于 Tokenizer 说到这里,可能有不少人会问:tokenizer 到底是个什么东西?为什么它会「歧视」某些语言? 这里简单来介绍一下:大模型并不直接读文字,它读的是 token,一种介于「字」和「词」之间的文本单位。 token,译为 「词 元 」 。 而 tokenizer 的工作,就是把你输入的文字切成一个个 token,交给模型处理。切完之后有多少个 token,就决定了你要付多少钱、等多长时间。 碎片化 那 tokenizer 是怎么决定从哪里「切」的呢? 目前主流的方法叫 BPE(Byte Pair Encoding),训练过程大概是这样的: 一开始,tokenizer 只认识最基本的单位,也就是字节(byte)。英文字母 a、b、c 各占一个字节,所以「hello」就是 5 个 token。 然后,它开始在训练数据里找规律: 哪两个 token 经常挨在一起出现? 比如英文里「th」出现频率极高,那就把「t」和「h」合并成一个新 token「th」。 这个过程反复进行:「th」和「e」合并成「the」,「ing」合并成一个 token……最终形成一个词汇表,通常大小在 10 万左右。 问题就出在这里了。 tokenizer 原理 训练数据里英文占比最大,所以英文的常见组合都被合并成了高效的大 token。一个英文单词「understanding」可能只占 1-2 个 token。 但印地语呢? 训练数据里占比太少了,tokenizer 根本没见过足够多的印地语文本来学习高效的合并规则。于是它只能退回到最笨的方式:按字节拆。 而且这里还有一层底层的「先天不平等」:UTF-8 编码里,英文字母占 1 个字节,但印地语的天城文(Devanagari)每个字符要占 3 个字节。 也就是说,在 tokenizer 开始学习合并之前,印地语的每个字符就已经比英文「大」了 3 倍。 先天劣势加上后天忽视,印地语的 token 效率自然是……惨不忍睹。 05 ## 市场决定一切 理解了 tokenizer 的原理,就不难理解为什么 Anthropic 的表现最差了。 Aran 分析了原因: “ 他们确实优先投入了代码能力,但最根本的原因应该是市场规模。英语加中文差不多占了全球 GDP 的一半,还没算英语国家以外的英语使用者。 tokenizer 的词汇表容量有限,就像一本只有 10 万个词条的词典。英文和代码占了大头,中文也分到了一些(毕竟市场大),而印地语、阿拉伯语这些语言,分到的份额就少得可怜。 词汇表分蛋糕 Google 和阿里做得好一些,因为它们本身就服务全球多语言市场,在 tokenizer 训练数据里给了非英语语言更多权重。 而 Anthropic 的重心一直在英文和代码上,多语言优化显然不是优先级。 说白了,tokenizer 的效率分配,就是市场份额的映射。 谁的市场大,谁的 token 就便宜。 06 ## 双重打击 这里还有一个更让老铁扎心的现实。 在印度,花 20 美元订阅 Claude Pro,大概占月收入中位数的 5% 左右。而在美国,同样的 20 美元连月收入的 0.5% 都不到。 双重收费 AI 本来应该是让技术变得更民主化的工具。 结果印度的三哥用户们,先是花了更高比例的收入买了「门票」,进了门之后发现,同样的功能,因为 tokenizer 的问题,实际消耗还要再翻 3 倍。 相当于门票就比别人贵,进了门发现物价也比别人高。 也是雪中送炭了…… 07 ## 顺手补缺 值得一提的是,Aran 在做这个实验的过程中发现,网上居然没有一个 Claude 的 token 计数器(OpenAI 早就有了),于是他顺手做了一个: Claude token 计数器 这个工具不需要你提供 API key,直接粘贴文本就能数 token,还能看占上下文窗口的百分比。 他后来也发现已经有人做过一个类似的 Claude token 计数器,但那个需要你输入自己的 API key。 而他的版本因为是在 Artifact 里跑的,没法直接调用 Claude 的 token 计数 API,所以用了一个“取巧”的方法来实现。 (具体怎么个取巧……他没细说。 08 ## 苦涩的讽刺 这整件事里,还有个值得一品的,是 Aran 选来做测试的那篇文章本身。 Sutton 在《The Bitter Lesson》里论证的核心观点是: 人类设计的各种启发式方法(heuristics),最终都会输给纯粹的算力 。 而 tokenizer,恰恰就是这样一种人类设计的启发式方法。 它试图用人类的语言学知识来高效地压缩文本,但结果……对某些语言的用户来说,这种「高效」完全是单方面的。 也许 Sutton 说得对。 也许有一天,tokenizer 这个东西本身就会被淘汰,被某种更暴力但更公平的方法取代。 但在那一天到来之前,用印地语和 Claude 聊天的人,每说一句话,都在交 3 倍的税。 原来印度三哥的「三」,是要交三倍税的意思啊…… ◇ ◆ ◇ 相关链接: • 原始推文:https://x.com/arankomatsuzaki/status/2049125048792006965 • Aran 的 Claude Token Counter:https://claude-tokenizer.vercel.app/ • 后续扩展对比:https://x.com/arankomatsuzaki/status/2049177688402022730