关于Token的翻译

偷蹭抢样样不落,信达雅一个不沾。

OpenClaw的出圈,使得token作为一种新的货币形式,出现在大家的视野里。人们意识到这也许是未来的“开元通宝”,是呼吸的空气,是智能时代的血液,它却没有一个朗朗上口的中文名。

于是命名之争开始了。

其实关于token如何翻译,早在NLP(自然语言处理)时代已有讨论,当时token表示分词以后被tokenizer编码而成的高维张量,是神经网络理解信息的元单位,我想不到比“词元”更好的名称。但是,从业者还是叫它token,我认为从发音角度看,token明显比词元(需要压缩嘴唇空气并变化嘴形)更加省力,而且token的抽象性更好,也不影响行内理解,因此“词元”常作释义而非指代用。

二流报纸炒冷饭:漫谈词元

最近,第二次token命名大战由臭名昭著的新智元打响第一枪。我的评价是:

你收到了个蛋,新智元。

在这篇强行贴金的文章里,新智元引用了大佬们的言论,论证“智元”很不错。从前面我们对“词元”的分析看,除了发音仍然拗口,“智元”确实承载了“智能”、“单位”和“金钱”的含义,所以我虽然恶心,却不得不接受这鲜花插在牛粪上的事实:有朝一日,我那不懂AI的爸妈爷奶也高度依赖上了豆包,开始为智能付电费的时候,他说“我这个月又花了xx智元。” 我也只能接受。

我坚持称之为token。

但是,网友们会发力,我只能说天下苦新智元久矣,这不是脑袋的问题,这是屁股的问题——没有你,对我很重要。下面我来节选知乎的精彩评论:

@ 拉德拉的一勺白糖:就像把Valorant翻译成无畏契约/特战英豪一样的蠢事。我们只会叫做“打瓦”。(发音简单的重要性)

@ 胡又天:我觉得还是音译好,就叫[豆],就像打欢乐斗地主要花的钱一样。现在流行用[米]指代钱,用豆指代token,也比新造生僻词好得多。(有点利好豆包,不过总比新智元让人舒适。)

@ 奏书:偷蹭抢样样不落,信达雅一个不沾。一坨狗屎。(文化人说话就是好听。)

@ 焚琴者:智元这个名字不可能留下来。它根本不像一个口语用词。你试试在一句正常的话里用它:”这个模型的上下文窗口是128K智元。”太重了!一个计量单位不应该比它计量的东西还引人注目。(答主引入了“重”的概念,很新颖的角度,确实作为一个计量单位来说,它的存在感太强了。)

@ Schroenberg:狗屁不通。大家在翻译科技名词的时候要考虑可扩展性。即如果英文学术圈让这个词的概念发生自然扩展,汉语对应的翻译能不能也体现出扩展的关系。

@ 梏权:【机器之薪】和【量智位】也是好选择。

@ 倪大业:Ai时代的门口,有人在研究技术的先进性,有人在思考应用的经济性。有的人最在意的居然是思想的主体性。(这就是意识形态的斗争!)

@ hypnotised:一代人有一代人的套接字。我觉得这种专业术语最省事最有效磨损最少的方法就是不翻译。免得看二手中文资料还要绞尽脑汁猜测原来的英文术语是什么。

从学术上,这从来就不是一个技术问题,而是一个文学问题。

总结上面知友的言论,“智元”整体给到NPC:

  • 信,忠于原文:不敢恭维,主观意识太多了;

  • 达,发音通顺:更是一坨;

  • 雅,文雅优美:差强人意。

评论