178直播2026世界杯比赛直播总揽AI十年的Transformer, 要被亲爹亲手砸碎?

来源：178直播2026世界杯赛事直播入口作者：admin 发布时间：2026-05-30 浏览：151

[新智元导读]80分钟的拳击式辩论！Transformer合股髻明东谈主亲身下场为我方的作品辩说，对面三位挑战者直指五大死穴。这是AI架构十年来最硬的一次正面交锋。总揽AI黄金十年的架构，地基是不是照旧松了？

Transformer凭什么总揽AI这样久？

长凹凸文、系念、推理这些短板，新架构真能冲破吗？

所谓「后Transformer」，到底是更强的系念机制、更高效的序列建模，照旧从磨砺到系统齐得换一套？

5月5日，旧金山，Pathway搞了场拳击擂台式的辩论赛。

这不是比方，是真擂台。

一边是Transformer的共同发明东谈主ŁukaszKaiser，另一边是目标「后Transformer时间」的新架构派。

夺目一个细节：耀主张机制的两位合股髻明东谈主，「Transformer八子」之一LlionJones，坐在了Kaiser的对立面。。

话题就一个：下一代AI架构到底长什么样。

现场坐满盘考者、创业者和投资东谈主。输赢不靠投票，靠「clapometer」——鼓掌计分器，谁掌声响谁赢。

这是一场刀刀见红、提名谈姓的硬碰硬。

当裁判晓谕比赛运转，总揽了全球AI架构近十年的传奇，第一次被它的缔造者亲身拉上了被告席进行自保辩说。

这场想想界的重量级对决，从Transformer的五大死穴运转。

苦Transformer久矣

五大死穴

ŁukaszKaiser的身份让这场辩论的重量径直拉满。

他是Transformer的合股髻明东谈主。

2017年那篇调动扫数这个词AI模式的论文「AttentionIsAllYouNeed」，他是作家之一。之后他参与了ChatGPT、GPT系列和o1的践诺工程设备。

他是当事东谈主。他今天坐在这里，是为我方的作品作念辩说。

对面的三位挑战者，来头相通不小。

LlionJones，Transformer的另一位合股髻明东谈主，SakanaAI团结首创东谈主。

AdrianKosowski，Pathway首席科学官，BDH架构的发明东谈主。

MatthiasLechner，LiquidAI首席手艺官，MIT液态神经麇集的共同发明东谈主。

这本人即是手艺史上极其陌生的画面。创造吞并个东西的东谈主，对它的往时产生了根人性不合。

Kaiser开场用了一个类比。

他说Transformer的耀主张机制，就像文籍经管员的卡片索引系统。

你走进藏书楼，说出你要找的内容（query），经管员打开卡片目次（key），找到对应的书架位置，把书取出来交给你（value）。

松懈。高效。全局检索。

但挑战者们要问的是：如若这个藏书楼有一亿本书呢？每次查询齐要翻遍扫数卡片，这个系统还能撑住吗？

这即是O(n²)，悬在Transformer头上的达摩克利斯之剑。

三位挑战者莫得腌臜地说「Transformer不成了」。他们拆出了五个具体的、面前Transformer架构无法在绸缪层面处治的绽开贵重。

每一个齐直指关键。

挑战者们最历害的隐喻，直指Transformer的系念与握续学习颓势：「土拨鼠之日」。

在电影《土拨鼠之日》中，主角每天醒来，寰宇齐会重置，昨天的系念涣然冰释。

目下，Transformer亦然如斯。

每一次推理（ForwardPass），它的权重（Weights）齐是全齐冻结的。

哪怕你今天跟它聊了十个小时，它学到了绝妙的新常识，鄙人一次会话启动时，它依然是一个失忆的傻子。

当今工业界为了处治这个问题，拚命往里塞RAG（检索增强生成）、长凹凸文（KVCache）。

但这根蒂不是架构级的解法，而是用努力的算力在伤口上贴创可贴。

五大死穴，每一个单拎出来齐不是小事。合在一齐，组成了一张完整的告状书。

但告状书不等于判决书。

Kaiser的底牌

你行你上，拿弧线话语

濒临五大袭击，Kaiser莫得逐一斟酌。

他没说O(n²)不是问题，没说灾祸性淡忘不存在，178直播2026世界杯赛事直播入口没说Transformer尽善尽好意思。

他抛出了一句话，成了整场辩论的中枢：

除非Post-Transformer说明注解更好的scaling弧线，不然Transformer仍然是主流。

这句话的杀伤力在于，它把举证包袱推回了挑战者。

什么是scaling弧线？

简便说，即是「进入更多算力和数据，AI才调莳植若干」。

Transformer总揽近十年，最中枢的原因不是它没颓势，而是它的scaling弧线于今没被任何架构卓越。

这是OpenAI敢砸几十亿好意思元磨砺GPT、Anthropic握续扩大Claude领域的底气。

Kaiser的逻辑极其明晰：

你说Transformer有五个问题？我欢跃。

但有问题的东西和应该被替换的东西之间，有一谈范围。跨过它，你需要的不是五篇论文，是一条更好的scaling弧线。

然后，他伸开了更具体的辩说，何况带着工程现场的铁锈味。

并行性是硬意旨。

上周，在最新的Nvidia硬件上，Kaiser再行已毕了Transformer和几个旧式RNN，并作念了对比。

开云2026世界杯官方授权平台

相等小的GRU，比一个大得多的Transformer还要慢50倍。

RNN如实优好意思，但它的章程彭胀特质在面前硬件上即是一场灾祸。

如若真存在一种更好的架构，你需要用50倍的时候去说明注解它——而大大量实验室莫得这个耐性。

十年的工程荟萃。

不仅仅GPU优化，编译器、磨砺框架（PyTorch、JAX）、推理引擎（vLLM、TensorRT-LLM）、量化器具——扫数这个词AI工程栈齐围绕Transformer搭建。

换架构意味着这一切齐要重来。

隐式的「握续学习」，早已发生。

Kaiser指出，Transformer在大领域预磨砺后，前向传播中进展出的凹凸体裁习（In-ContextLearning），在数学上其实完满模拟了反向传播中的梯度着落。

换句话说，你们说它不会学，它其果然以另一种神志悄悄地学。

他的辩说不是「Transformer恒久是最优解」，而是「Transformer当今是最优解，除非你说明注解不是」。

然后他甩出一句让对面哑口难过的话：

也许找到下一个架构的，正值会是Transformer本人——而不是你们。

全场笑声。

但全球齐听出来了：这是负责的。

AI：无东谈主可挡的光明往时

Kaiser的放浪陈词，莫得说「Transformer恒久是最优解」。他说的是：「目下，Transformer仍然赢。」

「目下」这个词，是他留给挑战者的惟一症结。

更精巧的是，他亲手交出了一件本属于我方阵营的刀兵。

后Transformer阵营此前最大的短板，是「缺少大算力的工程和硬件考据」——新架构跑得慢、没东谈主繁荣为它改芯片。但Kaiser我方承认，这谈壁垒正在被解析：

当今，AIAgent照旧学会了写极高难度的CUDA和Triton核函数。

即便一个新架构领先运行慢50倍，你只需要把代码丢给Agent，它就能在短时候内帮你优化脱险些能榨干GPU算力的专用内核。

硬件彩票的壁垒，正在被智能体设备生态我方砸碎。

这意味着，一朝有东谈主在百万Token、千万Token的极长凹凸文任务上，用Post-Transformer架构跑出一条更漂亮的困惑度弧线，哪怕唯独少量点上风，也会在scaling的放大镜下，酿成对旧帝国的致命一击。

Kaiser致使主动忽视：应该成就一个合股的测试尺度——用困惑度推测扫数架构在同等条款下的学习才调。

「咱们应该在这件事上达成共鸣，然后各自去说明注解我方的架构更好。」

这句话的潜台词是：挑战赛老成运转。

而Jones的临了一句话更径直：

今天我莫得取得任何原理让我怀疑我方的信念：有更好的东西存在。当阿谁冲破到来，咱们扫数东谈主齐会进入后Transformer时间，Łukasz也不例外——因为他届时别无接管。

这场「拳击赛」看似戏谑，但它的赢输径直决定了Claude、ChatGPT等硅谷双雄的底层地基是否需要被全部推倒重建。

如若后Transformer（Post-Transformer）阵营领有更优胜的ScalingLaw（缩放定律）弧线178直播2026世界杯比赛直播，扫数这个词东谈主类通往AGI的物理阶梯图齐将被改写。

上一篇：178直播逆着短视频的风, 小红书不才一盘什么大棋? 下一篇：178直播数智赋能: 当军事有策划遇上大数据

178直播2026世界杯比赛直播 总揽AI十年的Transformer, 要被亲爹亲手砸碎?

178直播2026世界杯比赛直播总揽AI十年的Transformer, 要被亲爹亲手砸碎?