·

必一新闻

必一新闻

必一体育 “Token”必须死?

发布日期:2026-05-26 19:48 来源:未知 作者:admin 浏览次数:

必一体育 “Token”必须死?

本文为《Token 经济学》系列第九期。token 正在重塑 AI 时期的价值坐标,当所有这个词东谈主都在用 token 丈量 AI 的价值时,两篇险些同期发表的论文提议了一个更根底的问题:谈话生成的中枢诡计,是否必须发生在 token 空间里?若是谜底是含糊的,那么围绕 token 开发的时期范式、家具叙事和生意模式,都将濒临重新订价。

文|晓静

剪辑|徐青阳

"我谈话的局限,即意味着我寰宇的局限。"(Die Grenzen meiner Sprache bedeuten die Grenzen meiner Welt.)

玄学家维特根斯坦在 1921 年写下这句话时,他褒贬的是东谈主类瓦解的鸿沟。一百年后,这句话精准地描写了大谈话模子濒临的结构性窘境,若是 AI 的"谈话"即是破裂 token 序列,那么它的"寰宇"长久被困在 token 能抒发的范围内。

这也引出了一个一直被有策划的中枢问题:大谈话模子能走到 AGI(通用东谈主工智能)吗?

2024 年 12 月,OpenAI 前首席科学家 Ilya Sutskever 在 NeurIPS 发表主题演讲,他说"预西宾行将斥逐"。2026 年 3 月,图灵奖得主 Yann LeCun 离开 Meta 创办 AMI Labs,径直宣判"大谈话模子路子错了"。

两位深度学习殿堂级的大师,一位遴选颠覆我方亲手开启的预西宾时期,另一位遴选持续践行我方信守多年的寰宇模子路子,去赌" LLM 的下一个时期"。虽然完全不是刻下的模子不好用或莫得生意价值,大模子的用户数目及渗入率都在捏续增长,产业价值会越来越大。可是从时期旅途来看,他们要抒发的是:这条路有一个结构性的天花板,这个天花板有时卡在通往 AGI(通用东谈主工智能)的路上。

2026 年 5 月,MIT 何恺明团队和字节跨越 Seed 实验室险些同期发布论文,给出了一个更明确的信号:谈话生成的中枢建模进程无须历久发生在破裂 token 空间中,也不错飘摇到领悟 embedding 或 latent 空间里完成,临了再映射回环本。

这是第一批来自工程实验的硬笔据,逐 token 瞻望可能是通向 AGI 路上的一个局部最优解。但领悟空间范式洞开了另一条路,这条路的天花板也许更高。

图片由 AI 生成

01 天花板在哪?

维特根斯坦的话不错这么清楚。

东谈主类的破裂谈话不是想维的原生体式。大脑里面的瓦解举止是领悟的、并行的、高维的。比如东谈主类预料一个苹果时,激活的不是"苹果"两个字的 token,而是一大片嗅觉皮层的领悟举止模式,包括面孔、质感、分量、咬下去的声息。东谈主之是以把这团领悟体验压缩成"苹果"这个破裂标记,简陋是因为东谈主类大脑的带宽逼你序列化。

东谈主类谈话是进化瞎想的有损压缩左券,它是跨脑传输的工程谐和。

咱们当今用到的主流的生意化大模子家具,底层都是自转头架构(瞻望下一个 token)。

自转头大模子作念的事情是,在这个压缩左券的输出体式上建模。它无法清楚"寰宇如何运作",它了解的是"东谈主类遴选用什么标记序列来描写寰宇"。它们极其擅长模拟东谈主类的谈话行动,但模拟谈话行动和清楚寰宇之间,差着一个意志论的鸿沟。

比如体魄感受,祸患是怎么的;空间直观,知谈若何接住球但无法描写如何接住的;因果搅扰的具身响应,比如若是"我把这个椅子推倒会怎么"的直观。这些荫藏在东谈主类大脑中的"嗅觉",从未被任何东谈主类谈话编码过。是以它们从未插足西宾数据,在 token 序列上作念任何建模,岂论参数多大、数据多多,都波及不到这些维度。

这即是 token 范式的天花板。

02 "潜逃"实验

从 token 空间潜逃的第一批实验正在发生。

何恺明团队的 ELF(Embedded Language Flows,镶嵌式谈话流)作念了一件反直观的事:把翰墨生成的全进程留在领悟向量空间里完成,只在临了一步,真实独一临了一步,雅博体育app下载中国官网入口才把领悟向量投影回东谈主类可读的翰墨。它用 Flow Matching(一种 2022 年由 Yaron Lipman 等东谈主提议的领悟正则化流框架)从噪声动身,沿学习到的速率场平滑演化到策划镶嵌。32 个采样步,生成质地卓绝破裂模子用 1024 步的驱散。西宾数据约 450 亿 token,独一主流次第的至极之一。

图:ELF 仅用 32 步采样即超越 MDLM、Duo 等破裂模子 1024 步的生成质地,且未使用蒸馏加快。模子参数 105M,西宾数据约为同类次第的至极之一。

四天后发布的 Cola DLM(字节 Seed 团队):先用 Text VAE 把谈话压缩成更深层的语义潜空间,再在这个纯语义空间里用 Flow Matching 建模全局先验,临了才解码回环字。论端淑确说:扩散进程作念的是"潜在先验运输",不是" token 级别的不雅测规复"。20 亿参数,8 个基准,与同体量自转头模子和依然 scale 到 1000 亿参数的 LLaDA2.0 严格对比,领悟路子的 scaling 弧线是健康的。

图:Cola DLM 举座架构图

两篇论文的中枢都在抒发,token 不是谈话建模的必要条款。领悟空间不错作念得更好、更快、更省。

图:自转头模子逐 token 生成,每一步不可逆遴选一个破裂标记,已选 token 锁定后续所有这个词可能性。

图:领悟流模子从噪声动身,沿速率场平滑演化到策划镶嵌,全程可逆可调,仅在止境映射回环字,ELF 论文。

03 AI 巨头也在质疑" Tokenization "?

这两篇论文仅仅学术信号,科技巨头也在用真金白银下注。

Google 是最早、也最强硬地走向"原生多模态长入"的巨头。Gemini 的时期报告明确写谈:它是" from the ground up "西宾的多模态模子, " not by bolting a frozen vision encoder onto a text decoder "(不是把冻结的视觉编码器接到文本解码器上)。

文本、图像、音频、视频在合并个模子里交错西宾,分享提神力层。这个瞎想玄学从 2023 年 12 月的 Gemini 1.0 延续到了 2026 年的 3.1 Pro。2026 年 3 月发布的 Gemini Embedding 2 把这件事推到了表征层面:一个 embedding 模子,原生继承文本、图像、文档、音频、视频输入,必一体育中国官网入口沿途映射到合并个 3072 维向量空间。

Google 在作念的事情,本色上即是为所有这个词模态建造一个长入的领悟坐标系,模态之间的鸿沟在这个坐标系里不存在。

OpenAI 走了一条更抨击的路。GPT-4V 时期的架构是拼接式的,由一个视觉编码器外挂到谈话模子上,跨模态信息需要经过稀奇的投影层传递。GPT-5 系列公开强化了多模态推理才气,但 OpenAI 并未涌现实足细的架构信息。不错礼服的是,OpenAI 正在把文本、视觉、视频等才气更深地整合进中枢模子体验;弗成礼服的是,它是否依然完成了长入 Transformer 层面的架构切换。

根据外媒报谈 Sora 运营时间"被职工视作牵累核默算力的吞金兽"。OpenAI 遴选砍掉视频运用,把算力纠合到 GPT-5.5 的 Agent 架构和 Codex 代码器用上。这也不错揣度:OpenAI 招供多模态长入的标的,但在视频生成这个具体维度上暂时退场,恭候更高效的架构决策闇练后重新插足。

ag真人app官方网站入口

字节跨越 Seed 团队在 Cola DLM 论文的临了一句话是"为破裂文本与领悟模态的长入建模指出了一条具体旅途"。Seed 团队浮现视频生成模子 Seedance 系列依然在使用访佛的领悟潜空间架构,独到上风在于:它同期领有抖音 /TikTok 级别的海量视频数据和前沿模子计议才气。若是领悟长入空间如实是下一代架构的谜底,字节是最有条款起始在工业范围考证它的公司。

Anthropic 的遴选是所有这个词巨头中最独到的,它在刻意规避多模态生成。欺压 2026 年 5 月,Claude 莫得原生图像生成才气,莫得视频清楚,莫得音频处理。2026 年 4 月发布的 Claude Design 生成的是结构化瞎想产出物,原型图、线框图、幻灯片,而不是像素级图像。

Anthropic 把险些所有这个词资源压在文本推理和代码践诺上。这个战术在生意上正在被考证:Claude Code 年化收入 25 亿好意思元,2026 年 5 月 Anthropic 隐含估值冲到 1.2 万亿好意思元(36 氪报谈),主要靠的是企业客户为推理和代码才气付费。但从范式演进的角度看,这是一个在聚集时期债的遴选。若是两到三年后竞争的中枢转向"谁能在长入领悟空间里同期清楚和生成所有这个词模态",Anthropic 就很被迫。

在巨头除外,两个最值得眷注的孤苦押注来自 Ilya Sutskever 和 Yann LeCun。Sutskever 创办的 SSI(Safe Superintelligence)在 2025 年 5 月完成 20 亿好意思元融资,估值 320 亿好意思元——莫得家具、莫得论文、莫得任何公开时期细节。投资东谈主买的简陋是他对"下一个范式"的判断力。他在 NeurIPS 2024 所说的"预西宾行将斥逐",指的是靠堆数据瞻望 next token 的形状已到收益递减阶段,下一步需要的是质变。

LeCun2026 年 3 月离开责任卓绝十年的 Meta,创办 AMI Labs,融资 10.3 亿好意思元,估值 35 亿。他的 JEPA 路子和 ELF/Cola DLM 玄学重叠,都是离开 token 空间、在领悟表征空间建模,但标的不同。JEPA 不追求生成传神的输出,强调在笼统空间里瞻望事物演化的物理成果。

LeCun 在 5 月的访谈中说:"自转头机制逐一瞻望 token,本色是在字符级别作念统计复现,不是在建模寰宇的因果律例。参数目的加多搞定不了这个结构性劣势。"他觉得,生成仅仅模拟,瞻望才是清楚。

04 若是 token 范式衰竭,谁会莫得夙昔?

作念视频 tokenizer 的公司首当其冲。VQ-VAE、MAGVIT、OmniTokenizer,这些责任的中枢价值目标是"高质地视频破裂编码"。英伟达的 Cosmos Tokenizer、微软的 VidTok,大厂也在竞争。若是谈话生成都运转把中枢诡计迁徙到领悟空间,那么视频这类自然领悟的数据,更莫得情理被默许压成破裂 token 序列。

真确的问题会造成:什么样的视觉表征既能高效压缩,又能保留实足的物理、时序和语义结构。

然后是"多模态"这个家具叙事本人。当所有这个词模态分享一个领悟空间时,"多模态才气"造成默许建设,不再是互异化卖点。就像今天没东谈主把"维持汉文和英文"当成一个 AI 家具的中枢竞争力。作念模态桥接和对都的中间层家具也濒临雷同的问题——若是基础模子原生在长入空间运行,文本和视觉之间不存在需要被弥补的"鸿沟",弥补鸿沟的生意就莫得情理存在。

再往下贱推一步,今天所有这个词这个词行业按 token 收费,是因为自转头模子的资本结构极其透明:生成 1000 个 token 即是串行跑 1000 步推理,输入输出的 token 数径直等于算力糜掷。

但若是中枢诡计迁徙到领悟空间,扩散模子可能用固定步数生成纵情长度文本,输出长度与诡计量脱钩,"糜掷了几许 token "就不再是资本的确凿度量。

仅仅,AI 的发展太快,计算 AI 生意价值的真确订价体系还没固定下来,下一个范式可能就会发生。而具体会是多快,莫得东谈主能够瞻望。

05 大谈话模子能走到 AGI 吗?

回到开头的问题,大谈话模子范式能走到 AGI 吗?

从 token 范式本人的结构来看,弗成,它的西宾信号有信息论上的硬上限。东谈主类谈话行为有损压缩左券,在编码时就不可逆地丢弃了寰宇的多半结构。在压缩产物上作念任何建模,都还原不了被丢弃的维度。

但"杀死 tokenization "也不等于到达 AGI。ELF 和 Cola DLM 讲解了领悟空间更高效、更优雅,但它们的西宾数据仍然来自东谈主类产出的内容,一个有损压缩后的寰宇。LeCun 看到了这一层,是以他押注"能瞻望物理成果的寰宇模子"。Sutskever 大略也看到了。

但这也许仅仅第一步,若是模子不再受困于东谈主类谈话的压缩体式时,它需要的新西宾信号从那儿来?

谜底大略不在更多的数据里,而在某种主动探索中——辞寰宇中行动,承受成果,从响应中学习。

这将是咱们在后头的另外一篇著述中必一体育,持续有策划的主题。