前阵子 Claude Opus 4.7 发布,推特(X)上的海外老哥们哀嚎一片:有人抱怨一次对话就把额度干光了,有人跑同样的代码成本竟然翻倍。
但神奇的是,咱们中文圈的玩家却基本没感觉。难道 Anthropic 官方良心发现,给中文用户做了专属优化?
别高兴太早!有硬核大佬经过实测发现:根本不是中文躲过了涨价,而是中文原本就贵得离谱!
不仅如此,坊间甚至流传着一个玄学传说:“古文比现代汉语更省 Token,用文言文跟 AI 对话能省大钱”。到底咋回事?咱们今天就来扒一扒大模型圈里隐秘的“中文税”。
测出来的残酷真相:老外的AI,中文就是贵
大佬用包含了新闻、技术文档、日常对话、古文等 22 段文本,分别喂给了 Claude、GPT-4o,以及咱们国产的 Qwen(通义千问)和 DeepSeek,得出了一个让人哭笑不得的结论:
在 Claude 和 GPT 上,中文一直比英文贵;而在 Qwen 和 DeepSeek 上,中文反而比英文便宜!
在旧版 Claude 模型下,同样的语意,中文 Token 消耗比英文高出 11% 到 64% 不等!也就是说,同样一份工作,中文用户得多花一半的钱。而且,由于 Token 消耗快,上下文窗口也被严重挤压。你的 200K 窗口,塞进去的中文内容硬生生比英文少 40% 到 70%。
反观咱们的国产模型 DeepSeek 和 Qwen,中文版消耗反而比英文版便宜,DeepSeek 甚至能便宜三分之一。
破案了:一个汉字,到底被切成了几块?
为什么同样的文字换个语言,Token 数就不一样?这就不得不提 AI 的“积木切割机”——Tokenizer(分词器)了。
AI 是不认识字的,它只认 Token(数字编号)。英文的分词很符合直觉,比如一个单词通常就是一个 Token。
但到了中文,情况就尴尬了。比如“人工智能正在重塑全球的信息基础设施”这句话,喂给 GPT-4 和国产的 Qwen,切出来的结果天差地别:
同一句 16 个汉字的话,GPT-4 切出来 19 个 token,Qwen 切出来只有 6 个!
这是因为西方 AI 底层采用了一种叫 BPE(Byte Pair Encoding)的算法,按训练语料里的字符频率来合并 Token。因为老外的语料库里英文多、中文少,中文汉字进不了“高频词表”,只能被当成最基础的 UTF-8 字节处理。
一个汉字占 3 个字节,在早期模型里直接变成 3 个 Token!后来 GPT 扩大了词表,勉强把汉字缩小到 1-2 个 Token,但效率依旧被英文吊打。
而国产模型从一开始就把大量中文词组当成“默认语言”塞进了词表,所以“人工智能”四个字在 Qwen 眼里,直接算 1 个 Token。中文字均信息密度本来就高,只要不乱切,省钱优势立刻拉满。
玄学探讨:用文言文跟 AI 聊天真能省钱?
再来说说那个离谱的传言:古文比现代文更省钱?测试数据证明:这居然是真的!
在所有模型里,古文的 Token 消耗不但比现代中文少,甚至比英文还少。
原因很简单:古文极其精炼。“学而不思则罔,思而不学则殆”只有 12 个字,翻译成白话文字数直接翻倍。而且古文里的“之乎者也”属于超高频字,在词表里都有独立位置,不会被拆碎。
但是(划重点)!这其实是个陷阱。
古文在字面上省了 Token,却把推理的压力全丢给了 AI。就像你传了一个压缩包给它,文件是小了,但解压费劲啊!用古文对话,Token 省了,但 AI 的推理成本直线上升,理解准确度还会下降,纯纯是得不偿失。
碎片里的奇迹与中文的“宿命”
说到把汉字切碎,这里其实藏着一个意外的彩蛋。汉字是表意文字,比如“焱”字,三个“火”,就算你不认识,也知道它跟火有关。这叫偏旁部首。
当老外的 Tokenizer 把汉字切成三个无意义的 UTF-8 字节时,它本该失去这些结构信息。但神奇的是,1990 年代 Unicode 联盟给汉字分配编码时,刚好是按部首排序的!
这意味着,共享同一个部首的字(比如“海”和“河”),它们的 UTF-8 编码开头是一样的!所以 AI 在被强行投喂了海量的“字节碎片”后,竟然通过这种巧合,自己学会了类似人类看偏旁部首认字的逻辑!
【编辑观察】
这让人不禁想到 1947 年,林语堂倾家荡产发明的那台“明快打字机”。
当时的英文打字机只有 26 个字母,而中文有成千上万个字。怎么把中文塞进西方设计的“键盘”里?
林语堂把汉字拆成偏旁部首,发明了“检索+选择”的交互方式。虽然这台机器在当时失败了,但它的灵魂一直活到了今天——变成了我们现在用的拼音和五笔输入法。
从打字机到今天的 Tokenizer,中文一直在面对同一个历史难题:如何接入一套为西方语言设计的基础设施?
好在,AI 时代我们有了 Qwen、DeepSeek 这些原生重视中文体验的国产模型,终于不用再被莫名其妙收“中文税”了。下次打游戏查攻略、让 AI 帮你写代码时,遇到中长篇的任务,果断切国产大模型吧,省下来的 API 额度,买杯奶茶它不香吗?


评论
暂无评论