必一体育 “Token”必须死？

发布日期：2026-05-26 19:48 来源：未知作者：admin 浏览次数：

必一体育 “Token”必须死？

本文为《Token 经济学》系列第九期。token 正在重塑 AI 时期的价值坐标，当所有这个词东谈主都在用 token 丈量 AI 的价值时，两篇险些同期发表的论文提议了一个更根底的问题：谈话生成的中枢诡计，是否必须发生在 token 空间里？若是谜底是含糊的，那么围绕 token 开发的时期范式、家具叙事和生意模式，都将濒临重新订价。

文｜晓静

剪辑｜徐青阳

"我谈话的局限，即意味着我寰宇的局限。"（Die Grenzen meiner Sprache bedeuten die Grenzen meiner Welt.）

玄学家维特根斯坦在 1921 年写下这句话时，他褒贬的是东谈主类瓦解的鸿沟。一百年后，这句话精准地描写了大谈话模子濒临的结构性窘境，若是 AI 的"谈话"即是破裂 token 序列，那么它的"寰宇"长久被困在 token 能抒发的范围内。

这也引出了一个一直被有策划的中枢问题：大谈话模子能走到 AGI（通用东谈主工智能）吗？

2024 年 12 月，OpenAI 前首席科学家 Ilya Sutskever 在 NeurIPS 发表主题演讲，他说"预西宾行将斥逐"。2026 年 3 月，图灵奖得主 Yann LeCun 离开 Meta 创办 AMI Labs，径直宣判"大谈话模子路子错了"。

两位深度学习殿堂级的大师，一位遴选颠覆我方亲手开启的预西宾时期，另一位遴选持续践行我方信守多年的寰宇模子路子，去赌" LLM 的下一个时期"。虽然完全不是刻下的模子不好用或莫得生意价值，大模子的用户数目及渗入率都在捏续增长，产业价值会越来越大。可是从时期旅途来看，他们要抒发的是：这条路有一个结构性的天花板，这个天花板有时卡在通往 AGI（通用东谈主工智能）的路上。

2026 年 5 月，MIT 何恺明团队和字节跨越 Seed 实验室险些同期发布论文，给出了一个更明确的信号：谈话生成的中枢建模进程无须历久发生在破裂 token 空间中，也不错飘摇到领悟 embedding 或 latent 空间里完成，临了再映射回环本。

这是第一批来自工程实验的硬笔据，逐 token 瞻望可能是通向 AGI 路上的一个局部最优解。但领悟空间范式洞开了另一条路，这条路的天花板也许更高。

图片由 AI 生成

01 天花板在哪？

维特根斯坦的话不错这么清楚。

东谈主类的破裂谈话不是想维的原生体式。大脑里面的瓦解举止是领悟的、并行的、高维的。比如东谈主类预料一个苹果时，激活的不是"苹果"两个字的 token，而是一大片嗅觉皮层的领悟举止模式，包括面孔、质感、分量、咬下去的声息。东谈主之是以把这团领悟体验压缩成"苹果"这个破裂标记，简陋是因为东谈主类大脑的带宽逼你序列化。

东谈主类谈话是进化瞎想的有损压缩左券，它是跨脑传输的工程谐和。

咱们当今用到的主流的生意化大模子家具，底层都是自转头架构（瞻望下一个 token）。

自转头大模子作念的事情是，在这个压缩左券的输出体式上建模。它无法清楚"寰宇如何运作"，它了解的是"东谈主类遴选用什么标记序列来描写寰宇"。它们极其擅长模拟东谈主类的谈话行动，但模拟谈话行动和清楚寰宇之间，差着一个意志论的鸿沟。

比如体魄感受，祸患是怎么的；空间直观，知谈若何接住球但无法描写如何接住的；因果搅扰的具身响应，比如若是"我把这个椅子推倒会怎么"的直观。这些荫藏在东谈主类大脑中的"嗅觉"，从未被任何东谈主类谈话编码过。是以它们从未插足西宾数据，在 token 序列上作念任何建模，岂论参数多大、数据多多，都波及不到这些维度。

这即是 token 范式的天花板。

02 "潜逃"实验

从 token 空间潜逃的第一批实验正在发生。

何恺明团队的 ELF（Embedded Language Flows，镶嵌式谈话流）作念了一件反直观的事：把翰墨生成的全进程留在领悟向量空间里完成，只在临了一步，真实独一临了一步，雅博体育app下载中国官网入口才把领悟向量投影回东谈主类可读的翰墨。它用 Flow Matching（一种 2022 年由 Yaron Lipman 等东谈主提议的领悟正则化流框架）从噪声动身，沿学习到的速率场平滑演化到策划镶嵌。32 个采样步，生成质地卓绝破裂模子用 1024 步的驱散。西宾数据约 450 亿 token，独一主流次第的至极之一。

图：ELF 仅用 32 步采样即超越 MDLM、Duo 等破裂模子 1024 步的生成质地，且未使用蒸馏加快。模子参数 105M，西宾数据约为同类次第的至极之一。

四天后发布的 Cola DLM（字节 Seed 团队）：先用 Text VAE 把谈话压缩成更深层的语义潜空间，再在这个纯语义空间里用 Flow Matching 建模全局先验，临了才解码回环字。论端淑确说：扩散进程作念的是"潜在先验运输"，不是" token 级别的不雅测规复"。20 亿参数，8 个基准，与同体量自转头模子和依然 scale 到 1000 亿参数的 LLaDA2.0 严格对比，领悟路子的 scaling 弧线是健康的。

图：Cola DLM 举座架构图

两篇论文的中枢都在抒发，token 不是谈话建模的必要条款。领悟空间不错作念得更好、更快、更省。

图：自转头模子逐 token 生成，每一步不可逆遴选一个破裂标记，已选 token 锁定后续所有这个词可能性。

图：领悟流模子从噪声动身，沿速率场平滑演化到策划镶嵌，全程可逆可调，仅在止境映射回环字，ELF 论文。

03 AI 巨头也在质疑" Tokenization "？

这两篇论文仅仅学术信号，科技巨头也在用真金白银下注。

Google 是最早、也最强硬地走向"原生多模态长入"的巨头。Gemini 的时期报告明确写谈：它是" from the ground up "西宾的多模态模子， " not by bolting a frozen vision encoder onto a text decoder "（不是把冻结的视觉编码器接到文本解码器上）。

文本、图像、音频、视频在合并个模子里交错西宾，分享提神力层。这个瞎想玄学从 2023 年 12 月的 Gemini 1.0 延续到了 2026 年的 3.1 Pro。2026 年 3 月发布的 Gemini Embedding 2 把这件事推到了表征层面：一个 embedding 模子，原生继承文本、图像、文档、音频、视频输入，必一体育中国官网入口沿途映射到合并个 3072 维向量空间。

Google 在作念的事情，本色上即是为所有这个词模态建造一个长入的领悟坐标系，模态之间的鸿沟在这个坐标系里不存在。

OpenAI 走了一条更抨击的路。GPT-4V 时期的架构是拼接式的，由一个视觉编码器外挂到谈话模子上，跨模态信息需要经过稀奇的投影层传递。GPT-5 系列公开强化了多模态推理才气，但 OpenAI 并未涌现实足细的架构信息。不错礼服的是，OpenAI 正在把文本、视觉、视频等才气更深地整合进中枢模子体验；弗成礼服的是，它是否依然完成了长入 Transformer 层面的架构切换。

根据外媒报谈 Sora 运营时间"被职工视作牵累核默算力的吞金兽"。OpenAI 遴选砍掉视频运用，把算力纠合到 GPT-5.5 的 Agent 架构和 Codex 代码器用上。这也不错揣度：OpenAI 招供多模态长入的标的，但在视频生成这个具体维度上暂时退场，恭候更高效的架构决策闇练后重新插足。

ag真人app官方网站入口

字节跨越 Seed 团队在 Cola DLM 论文的临了一句话是"为破裂文本与领悟模态的长入建模指出了一条具体旅途"。Seed 团队浮现视频生成模子 Seedance 系列依然在使用访佛的领悟潜空间架构，独到上风在于：它同期领有抖音 /TikTok 级别的海量视频数据和前沿模子计议才气。若是领悟长入空间如实是下一代架构的谜底，字节是最有条款起始在工业范围考证它的公司。

Anthropic 的遴选是所有这个词巨头中最独到的，它在刻意规避多模态生成。欺压 2026 年 5 月，Claude 莫得原生图像生成才气，莫得视频清楚，莫得音频处理。2026 年 4 月发布的 Claude Design 生成的是结构化瞎想产出物，原型图、线框图、幻灯片，而不是像素级图像。

Anthropic 把险些所有这个词资源压在文本推理和代码践诺上。这个战术在生意上正在被考证：Claude Code 年化收入 25 亿好意思元，2026 年 5 月 Anthropic 隐含估值冲到 1.2 万亿好意思元（36 氪报谈），主要靠的是企业客户为推理和代码才气付费。但从范式演进的角度看，这是一个在聚集时期债的遴选。若是两到三年后竞争的中枢转向"谁能在长入领悟空间里同期清楚和生成所有这个词模态"，Anthropic 就很被迫。

在巨头除外，两个最值得眷注的孤苦押注来自 Ilya Sutskever 和 Yann LeCun。Sutskever 创办的 SSI（Safe Superintelligence）在 2025 年 5 月完成 20 亿好意思元融资，估值 320 亿好意思元——莫得家具、莫得论文、莫得任何公开时期细节。投资东谈主买的简陋是他对"下一个范式"的判断力。他在 NeurIPS 2024 所说的"预西宾行将斥逐"，指的是靠堆数据瞻望 next token 的形状已到收益递减阶段，下一步需要的是质变。

LeCun2026 年 3 月离开责任卓绝十年的 Meta，创办 AMI Labs，融资 10.3 亿好意思元，估值 35 亿。他的 JEPA 路子和 ELF/Cola DLM 玄学重叠，都是离开 token 空间、在领悟表征空间建模，但标的不同。JEPA 不追求生成传神的输出，强调在笼统空间里瞻望事物演化的物理成果。

LeCun 在 5 月的访谈中说："自转头机制逐一瞻望 token，本色是在字符级别作念统计复现，不是在建模寰宇的因果律例。参数目的加多搞定不了这个结构性劣势。"他觉得，生成仅仅模拟，瞻望才是清楚。

04 若是 token 范式衰竭，谁会莫得夙昔？

作念视频 tokenizer 的公司首当其冲。VQ-VAE、MAGVIT、OmniTokenizer，这些责任的中枢价值目标是"高质地视频破裂编码"。英伟达的 Cosmos Tokenizer、微软的 VidTok，大厂也在竞争。若是谈话生成都运转把中枢诡计迁徙到领悟空间，那么视频这类自然领悟的数据，更莫得情理被默许压成破裂 token 序列。

真确的问题会造成：什么样的视觉表征既能高效压缩，又能保留实足的物理、时序和语义结构。

然后是"多模态"这个家具叙事本人。当所有这个词模态分享一个领悟空间时，"多模态才气"造成默许建设，不再是互异化卖点。就像今天没东谈主把"维持汉文和英文"当成一个 AI 家具的中枢竞争力。作念模态桥接和对都的中间层家具也濒临雷同的问题——若是基础模子原生在长入空间运行，文本和视觉之间不存在需要被弥补的"鸿沟"，弥补鸿沟的生意就莫得情理存在。

再往下贱推一步，今天所有这个词这个词行业按 token 收费，是因为自转头模子的资本结构极其透明：生成 1000 个 token 即是串行跑 1000 步推理，输入输出的 token 数径直等于算力糜掷。

但若是中枢诡计迁徙到领悟空间，扩散模子可能用固定步数生成纵情长度文本，输出长度与诡计量脱钩，"糜掷了几许 token "就不再是资本的确凿度量。

仅仅，AI 的发展太快，计算 AI 生意价值的真确订价体系还没固定下来，下一个范式可能就会发生。而具体会是多快，莫得东谈主能够瞻望。

05 大谈话模子能走到 AGI 吗？

回到开头的问题，大谈话模子范式能走到 AGI 吗？

从 token 范式本人的结构来看，弗成，它的西宾信号有信息论上的硬上限。东谈主类谈话行为有损压缩左券，在编码时就不可逆地丢弃了寰宇的多半结构。在压缩产物上作念任何建模，都还原不了被丢弃的维度。

但"杀死 tokenization "也不等于到达 AGI。ELF 和 Cola DLM 讲解了领悟空间更高效、更优雅，但它们的西宾数据仍然来自东谈主类产出的内容，一个有损压缩后的寰宇。LeCun 看到了这一层，是以他押注"能瞻望物理成果的寰宇模子"。Sutskever 大略也看到了。

但这也许仅仅第一步，若是模子不再受困于东谈主类谈话的压缩体式时，它需要的新西宾信号从那儿来？

谜底大略不在更多的数据里，而在某种主动探索中——辞寰宇中行动，承受成果，从响应中学习。

这将是咱们在后头的另外一篇著述中必一体育，持续有策划的主题。

上一篇：上一篇：必一(中国) 12000毫安时+主动散热电扇, 荣耀WIN 2要把游戏手机逼上末路

下一篇：下一篇：必一体育中国官网入口存储资本承压下, Q1’26中国手机销量双降, 618 降价难改长期形状

必一新闻

必一体育 “Token”必须死？