

[新智元导读]80分钟的拳击式辩论!Transformer合股髻明东谈主亲身下场为我方的作品辩说,对面三位挑战者直指五大死穴。这是AI架构十年来最硬的一次正面交锋。总揽AI黄金十年的架构,地基是不是照旧松了?
Transformer凭什么总揽AI这样久?
长凹凸文、系念、推理这些短板,新架构真能冲破吗?
所谓「后Transformer」,到底是更强的系念机制、更高效的序列建模,照旧从磨砺到系统齐得换一套?
5月5日,旧金山,Pathway搞了场拳击擂台式的辩论赛。
这不是比方,是真擂台。

一边是Transformer的共同发明东谈主ŁukaszKaiser,另一边是目标「后Transformer时间」的新架构派。

夺目一个细节:耀主张机制的两位合股髻明东谈主,「Transformer八子」之一LlionJones,坐在了Kaiser的对立面。。
话题就一个:下一代AI架构到底长什么样。
现场坐满盘考者、创业者和投资东谈主。输赢不靠投票,靠「clapometer」——鼓掌计分器,谁掌声响谁赢。
这是一场刀刀见红、提名谈姓的硬碰硬。
当裁判晓谕比赛运转,总揽了全球AI架构近十年的传奇,第一次被它的缔造者亲身拉上了被告席进行自保辩说。
这场想想界的重量级对决,从Transformer的五大死穴运转。
苦Transformer久矣
五大死穴
ŁukaszKaiser的身份让这场辩论的重量径直拉满。
他是Transformer的合股髻明东谈主。
2017年那篇调动扫数这个词AI模式的论文「AttentionIsAllYouNeed」,他是作家之一。之后他参与了ChatGPT、GPT系列和o1的践诺工程设备。
他是当事东谈主。他今天坐在这里,是为我方的作品作念辩说。
对面的三位挑战者,来头相通不小。
LlionJones,Transformer的另一位合股髻明东谈主,SakanaAI团结首创东谈主。
AdrianKosowski,Pathway首席科学官,BDH架构的发明东谈主。
MatthiasLechner,LiquidAI首席手艺官,MIT液态神经麇集的共同发明东谈主。

这本人即是手艺史上极其陌生的画面。创造吞并个东西的东谈主,对它的往时产生了根人性不合。
Kaiser开场用了一个类比。
他说Transformer的耀主张机制,就像文籍经管员的卡片索引系统。
你走进藏书楼,说出你要找的内容(query),经管员打开卡片目次(key),找到对应的书架位置,把书取出来交给你(value)。

松懈。高效。全局检索。
但挑战者们要问的是:如若这个藏书楼有一亿本书呢?每次查询齐要翻遍扫数卡片,这个系统还能撑住吗?
这即是O(n²),悬在Transformer头上的达摩克利斯之剑。
三位挑战者莫得腌臜地说「Transformer不成了」。他们拆出了五个具体的、面前Transformer架构无法在绸缪层面处治的绽开贵重。
每一个齐直指关键。

挑战者们最历害的隐喻,直指Transformer的系念与握续学习颓势:「土拨鼠之日」。
在电影《土拨鼠之日》中,主角每天醒来,寰宇齐会重置,昨天的系念涣然冰释。

目下,Transformer亦然如斯。
每一次推理(ForwardPass),它的权重(Weights)齐是全齐冻结的。
哪怕你今天跟它聊了十个小时,它学到了绝妙的新常识,鄙人一次会话启动时,它依然是一个失忆的傻子。
当今工业界为了处治这个问题,拚命往里塞RAG(检索增强生成)、长凹凸文(KVCache)。
但这根蒂不是架构级的解法,而是用努力的算力在伤口上贴创可贴。
五大死穴,每一个单拎出来齐不是小事。合在一齐,组成了一张完整的告状书。
但告状书不等于判决书。
Kaiser的底牌
你行你上,拿弧线话语
濒临五大袭击,Kaiser莫得逐一斟酌。
他没说O(n²)不是问题,没说灾祸性淡忘不存在,178直播2026世界杯赛事直播入口没说Transformer尽善尽好意思。
他抛出了一句话,成了整场辩论的中枢:
除非Post-Transformer说明注解更好的scaling弧线,不然Transformer仍然是主流。

这句话的杀伤力在于,它把举证包袱推回了挑战者。
什么是scaling弧线?
简便说,即是「进入更多算力和数据,AI才调莳植若干」。

Transformer总揽近十年,最中枢的原因不是它没颓势,而是它的scaling弧线于今没被任何架构卓越。
这是OpenAI敢砸几十亿好意思元磨砺GPT、Anthropic握续扩大Claude领域的底气。
Kaiser的逻辑极其明晰:
你说Transformer有五个问题?我欢跃。
但有问题的东西和应该被替换的东西之间,有一谈范围。跨过它,你需要的不是五篇论文,是一条更好的scaling弧线。
然后,他伸开了更具体的辩说,何况带着工程现场的铁锈味。
并行性是硬意旨。
上周,在最新的Nvidia硬件上,Kaiser再行已毕了Transformer和几个旧式RNN,并作念了对比。
开云2026世界杯官方授权平台相等小的GRU,比一个大得多的Transformer还要慢50倍。

RNN如实优好意思,但它的章程彭胀特质在面前硬件上即是一场灾祸。
如若真存在一种更好的架构,你需要用50倍的时候去说明注解它——而大大量实验室莫得这个耐性。
十年的工程荟萃。
不仅仅GPU优化,编译器、磨砺框架(PyTorch、JAX)、推理引擎(vLLM、TensorRT-LLM)、量化器具——扫数这个词AI工程栈齐围绕Transformer搭建。

换架构意味着这一切齐要重来。
隐式的「握续学习」,早已发生。
Kaiser指出,Transformer在大领域预磨砺后,前向传播中进展出的凹凸体裁习(In-ContextLearning),在数学上其实完满模拟了反向传播中的梯度着落。

换句话说,你们说它不会学,它其果然以另一种神志悄悄地学。
他的辩说不是「Transformer恒久是最优解」,而是「Transformer当今是最优解,除非你说明注解不是」。
然后他甩出一句让对面哑口难过的话:
也许找到下一个架构的,正值会是Transformer本人——而不是你们。
全场笑声。
但全球齐听出来了:这是负责的。
AI:无东谈主可挡的光明往时
Kaiser的放浪陈词,莫得说「Transformer恒久是最优解」。他说的是:「目下,Transformer仍然赢。」
「目下」这个词,是他留给挑战者的惟一症结。
更精巧的是,他亲手交出了一件本属于我方阵营的刀兵。
后Transformer阵营此前最大的短板,是「缺少大算力的工程和硬件考据」——新架构跑得慢、没东谈主繁荣为它改芯片。但Kaiser我方承认,这谈壁垒正在被解析:
当今,AIAgent照旧学会了写极高难度的CUDA和Triton核函数。

即便一个新架构领先运行慢50倍,你只需要把代码丢给Agent,它就能在短时候内帮你优化脱险些能榨干GPU算力的专用内核。
硬件彩票的壁垒,正在被智能体设备生态我方砸碎。

这意味着,一朝有东谈主在百万Token、千万Token的极长凹凸文任务上,用Post-Transformer架构跑出一条更漂亮的困惑度弧线,哪怕唯独少量点上风,也会在scaling的放大镜下,酿成对旧帝国的致命一击。
Kaiser致使主动忽视:应该成就一个合股的测试尺度——用困惑度推测扫数架构在同等条款下的学习才调。
「咱们应该在这件事上达成共鸣,然后各自去说明注解我方的架构更好。」
这句话的潜台词是:挑战赛老成运转。
而Jones的临了一句话更径直:
今天我莫得取得任何原理让我怀疑我方的信念:有更好的东西存在。当阿谁冲破到来,咱们扫数东谈主齐会进入后Transformer时间,Łukasz也不例外——因为他届时别无接管。
这场「拳击赛」看似戏谑,但它的赢输径直决定了Claude、ChatGPT等硅谷双雄的底层地基是否需要被全部推倒重建。
如若后Transformer(Post-Transformer)阵营领有更优胜的ScalingLaw(缩放定律)弧线178直播2026世界杯比赛直播,扫数这个词东谈主类通往AGI的物理阶梯图齐将被改写。