大模型“中文税”之谜:用中文和AI聊天,凭啥比英文更费钱?

前阵子 Claude Opus 4.7 发布,推特(X)上的海外老哥们哀嚎一片:有人抱怨一次对话就把额度干光了,有人跑同样的代码成本竟然翻倍。

但神奇的是,咱们中文圈的玩家却基本没感觉。难道 Anthropic 官方良心发现,给中文用户做了专属优化?

别高兴太早!有硬核大佬经过实测发现:根本不是中文躲过了涨价,而是中文原本就贵得离谱!

不仅如此,坊间甚至流传着一个玄学传说:“古文比现代汉语更省 Token,用文言文跟 AI 对话能省大钱”。到底咋回事?咱们今天就来扒一扒大模型圈里隐秘的“中文税”。

测出来的残酷真相:老外的AI,中文就是贵

大佬用包含了新闻、技术文档、日常对话、古文等 22 段文本,分别喂给了 Claude、GPT-4o,以及咱们国产的 Qwen(通义千问)和 DeepSeek,得出了一个让人哭笑不得的结论:

在 Claude 和 GPT 上,中文一直比英文贵;而在 Qwen 和 DeepSeek 上,中文反而比英文便宜!

在旧版 Claude 模型下,同样的语意,中文 Token 消耗比英文高出 11% 到 64% 不等!也就是说,同样一份工作,中文用户得多花一半的钱。而且,由于 Token 消耗快,上下文窗口也被严重挤压。你的 200K 窗口,塞进去的中文内容硬生生比英文少 40% 到 70%。

反观咱们的国产模型 DeepSeek 和 Qwen,中文版消耗反而比英文版便宜,DeepSeek 甚至能便宜三分之一。

破案了:一个汉字,到底被切成了几块?

为什么同样的文字换个语言,Token 数就不一样?这就不得不提 AI 的“积木切割机”——Tokenizer(分词器)了。

AI 是不认识字的,它只认 Token(数字编号)。英文的分词很符合直觉,比如一个单词通常就是一个 Token。

但到了中文,情况就尴尬了。比如“人工智能正在重塑全球的信息基础设施”这句话,喂给 GPT-4 和国产的 Qwen,切出来的结果天差地别:

同一句 16 个汉字的话,GPT-4 切出来 19 个 token,Qwen 切出来只有 6 个!

这是因为西方 AI 底层采用了一种叫 BPE(Byte Pair Encoding)的算法,按训练语料里的字符频率来合并 Token。因为老外的语料库里英文多、中文少,中文汉字进不了“高频词表”,只能被当成最基础的 UTF-8 字节处理。

一个汉字占 3 个字节,在早期模型里直接变成 3 个 Token!后来 GPT 扩大了词表,勉强把汉字缩小到 1-2 个 Token,但效率依旧被英文吊打。

而国产模型从一开始就把大量中文词组当成“默认语言”塞进了词表,所以“人工智能”四个字在 Qwen 眼里,直接算 1 个 Token。中文字均信息密度本来就高,只要不乱切,省钱优势立刻拉满。

玄学探讨:用文言文跟 AI 聊天真能省钱?

再来说说那个离谱的传言:古文比现代文更省钱?测试数据证明:这居然是真的!

在所有模型里,古文的 Token 消耗不但比现代中文少,甚至比英文还少。

原因很简单:古文极其精炼。“学而不思则罔,思而不学则殆”只有 12 个字,翻译成白话文字数直接翻倍。而且古文里的“之乎者也”属于超高频字,在词表里都有独立位置,不会被拆碎。

但是(划重点)!这其实是个陷阱。

古文在字面上省了 Token,却把推理的压力全丢给了 AI。就像你传了一个压缩包给它,文件是小了,但解压费劲啊!用古文对话,Token 省了,但 AI 的推理成本直线上升,理解准确度还会下降,纯纯是得不偿失。

碎片里的奇迹与中文的“宿命”

说到把汉字切碎,这里其实藏着一个意外的彩蛋。汉字是表意文字,比如“焱”字,三个“火”,就算你不认识,也知道它跟火有关。这叫偏旁部首。

当老外的 Tokenizer 把汉字切成三个无意义的 UTF-8 字节时,它本该失去这些结构信息。但神奇的是,1990 年代 Unicode 联盟给汉字分配编码时,刚好是按部首排序的!

这意味着,共享同一个部首的字(比如“海”和“河”),它们的 UTF-8 编码开头是一样的!所以 AI 在被强行投喂了海量的“字节碎片”后,竟然通过这种巧合,自己学会了类似人类看偏旁部首认字的逻辑!

【编辑观察】

这让人不禁想到 1947 年,林语堂倾家荡产发明的那台“明快打字机”。

当时的英文打字机只有 26 个字母,而中文有成千上万个字。怎么把中文塞进西方设计的“键盘”里?

林语堂把汉字拆成偏旁部首,发明了“检索+选择”的交互方式。虽然这台机器在当时失败了,但它的灵魂一直活到了今天——变成了我们现在用的拼音和五笔输入法。

从打字机到今天的 Tokenizer,中文一直在面对同一个历史难题:如何接入一套为西方语言设计的基础设施?

好在,AI 时代我们有了 Qwen、DeepSeek 这些原生重视中文体验的国产模型,终于不用再被莫名其妙收“中文税”了。下次打游戏查攻略、让 AI 帮你写代码时,遇到中长篇的任务,果断切国产大模型吧,省下来的 API 额度,买杯奶茶它不香吗?

评论

暂无评论

公告栏
邮箱注册功能回归啦!!!
新版首页有 bug,缺少了签到,可以先复制地址进入:https://xiawanshe.com/welcome
网站整体换 Next.js 的情况下,看来 bug 有点多,发现 bug请一定告诉我们
《梗百科》有 bug,没有分页,再改了~
重构“圈子”中
由于短信签名过期,目前注册功能,无法发送短信,然后还写了 bug,没有检查出错误代码!
恭喜《梗百科》上线!
我们几乎完全新写了整套网站,肯定还有很多bug和功能体验缺失,欢迎直接在“全部圈子-虾玩社站”务给我们反馈!
虾玩社上线啦
热门圈子
club-icon
游戏资讯
热门讨论
  • Steam惊现3600元天价游戏,国区竟真有玩家排雷

    土豆abc
  • 网传PS6售价恐破1000美元?发售日与护航阵容大起底!

    土豆abc
  • 有生之年系列!《大神》迎来20周年,神谷英树再执导筒操刀新游

    土豆abc
  • Faker重提S7痛哭名场面:不觉得对手有多强,但输得太无力

    土豆abc
  • 氪金买来人工智障?Claude偷偷“降智”被代码总监实锤!

    土豆abc
  • 国产大排面!《地平线6》曝光首发五菱宏光神车

    土豆abc
  • 追剧党的赛博粮仓塌了?网盘迎史上最严“海外剧”清查!

    土豆abc
  • 大学生修电脑遇“山寨京东”,没动一颗螺丝敢要价6000?

    土豆abc
  • 模拟器模块上新

    0x7e3