糖心logovlog免费网页版:国产网红福利姬草莓味的软糖-马斯克向左梁文锋向右
2 月 18 日,创立 xAI 的埃隆 · 马斯克发布了号称 " 地球上最聪明 AI" 的 Grok3 大模型,展示了其在多项测评中超越 o3-mini,摘得桂冠的技术实力。而同一天,DeepSeek 的梁文锋和 Kimi 的杨植麟分别在专业网站上发布了自己参与的论文,这两篇论文均与如何减少长文本计算量,加快训练效率有关。
这反映了中美 AI 大模型路线上最本质的差异:Grok3 采用 20 万张英伟达 H100 芯片训练而成,达成优异性能的同时也折射出了 " 力大砖飞 "" 火力覆盖 " 的美式发展路径,并且再次证明 "Scaling Law"(尺度定律,可简单理解为模型参数越大效果越好)可行;而 DeepSeek 爆火之后,梁文锋仍聚焦 " 如何降低训练成本 ",依旧在追求极致效率,要把 AI 价格 " 打下来 ",做大模型界的 " 鲶鱼 "。
另外,虽然马斯克宣称未来 Grok3 将开源,但目前该大模型依然是闭源的,而 DeepSeek 则持续开源,将自己的技术研究免费赋能给世界各地。2 月 21 日,DeepSeek 官方发文称," 将在接下来的一周开源 5 个代码库,以完全透明的方式分享我们微小但真诚的进展。"
当昂贵先进的闭源模型,遇上性价比较高的开源模型,究竟哪一条路最终会 " 更胜一筹 "?
马斯克靠" 力大砖飞 "登顶大模型测评榜 英伟达股价 " 收复失地 "
贝壳财经记者注意到,在 Grok3 的直播发布会上,马斯克旗下 xAI 的工作人员所展示的第一张实景图片,就是该公司新建的数据中心。
" 强大的智能来自大型算力集群 "。马斯克及其员工在直播中表示,xAI 此前使用大概 6500 块英伟达 H100 芯片训练模型,但遭遇了冷却和电源问题,为了尽快发布 Grok3,公司在去年四月耗时 122 天新建了一个数据中心,最终让第一批 10 万个英伟达 H100 芯片启动并运行,之后又花了 92 天加倍了数据中心 GPU 的容量。换句话说,为了训练 Grok3,xAI 至少动用了 20 万块最先进的英伟达 H100 芯片。

" 马斯克在直播中没有提到这 20 万块 GPU 是否为‘单集群’,如果答案肯定的话那是非常大的突破,因为当前国内大部分(数据中心)还是 1 万块卡的集群。" 快思慢想研究院院长,原商汤智能产业研究院创始院长田丰告诉新京报贝壳财经记者。
在性能上,Grok3 在大模型界权威盲测榜单 "Chatbot Arena(大模型竞技场)" 中得分超 1400,刷新了该榜单的新纪录。
结合训练耗费的巨额算力,在这一成绩背后,Grok3 可能还拥有庞大的参数规模,以及训练数据量,因为 "Scaling Law" 就是指模型性能与其规模(如参数数量)、训练数据集大小以及用于训练的计算资源之间存在的一种可预测的关系,简单解释就是 " 越大性能越好 "。
田丰认为,马斯克使用了 " 大力出奇迹 " 的方式," 我很好奇它背后的数据规模有多大,因为算力、数据和模型参数量是成比例增加的,这么大的算力一定是跟模型的大参数量和庞大的训练数据集有关系,但这两个细节马斯克并没有提及,这肯定既包括互联网上的数据,也包括特斯拉工厂里的一些物理数据。"
贝壳财经记者注意到,对于训练数据集,xAI 的工作人员举了一个形象的比喻 " 压缩整个互联网 ",马斯克则透露 Grok3 的计算量是 Grok2 的 10 到 15 倍。
事实上,科学界有一种观点认为,随着互联网上可用于训练的数据接近枯竭,"Scaling Law" 将面临瓶颈,而 Grok3、o3-mini 等在 DeepSeek-R1 之后发布的大模型则证明 "Scaling Law" 依然有效。这也提振了市场对算力供应商的信心。截至北京时间 2 月 21 日,英伟达的股价为每股 140.11 美元,自 1 月 24 日至今呈现出了一个 " 深 V" 走势,DeepSeek-R1 发布后所损失的市值现已基本 " 收复 "。

中国科学院软件所博士、新浪微博技术研发负责人张俊林表示,所谓 "Scaling Law 撞墙 " 的普遍问题是数据不够,导致预训练阶段的 Scaling Law 走势趋缓,但这是趋缓不是停顿。即便没有新数据,推大模型尺寸规模,效果仍然会上升。
张俊林预测,"Grok 3 的尺寸规模很可能不是一般的大(感觉在 200B 到 500B 之间),很明显,Grok 3 仍然在采取推大基座模型尺寸的‘传统’做法,这种做法性价比很低。"
另一个细节是,虽然马斯克强调 " 当发布下一代模型后,上一代模型就将开源 ",但和 OpenAI 发布的 GPT 系列以及 o 系列模型一样,Grok3 也是一个闭源大模型。对此,田丰告诉记者,由于 xAI 起步较晚,马斯克必须不计代价去投入资源以达到最顶尖的模型水平,这也导致他后续将会采用收费的模式。
梁文锋、杨植麟聚焦AI降本增效 让大模型人人可用
当马斯克的 Grok3 背靠新建数据中心以及 20 万块 H100 的支持,在各路评分榜单攻城略地之时,梁文锋依旧一如既往坚持着 DeepSeek" 降本增效 " 的技术创新之路。
北京时间 2 月 18 日下午 3 时 4 分,就在马斯克刚刚完成 Grok3 发布的一小时后,DeepSeek 官方在社交平台介绍了一种名为 NSA(Native Sparse Attention 原生稀疏注意力)的新机制,并贴出了详细介绍和论文链接。DeepSeek 官方称,该机制加快了推理速度,降低了预训练的成本,且不影响模型性能。
新京报贝壳财经记者阅读了这篇直译为《原生稀疏注意力:硬件对齐与可训练的稀疏注意力》的论文,发现 NSA 机制的核心思想是通过将输入的序列以 " 压缩 "" 选择 "" 滑动 " 的方式分成三个并行的 " 分支 " 块,减少计算量,这种块状处理方式与 GPU 的并行计算能力相匹配,充分利用了硬件的计算资源。
以通俗易懂的语言解释就是,假设大模型正在做阅读理解,需要回答一个关于文章主题的问题,传统的 " 全注意力 " 机制就类似于阅读完全部文章再回答问题。而采用 NSA 机制,大模型会首先快速浏览文章,抓住文章的大致主题和结构(即 " 压缩 " 注意力),再仔细阅读与问题最相关的段落或句子(即 " 选择 " 注意力),同时为了防止跑题,关注局部上下文,确保理解问题的背景(即 " 滑动 " 注意力)。在这一机制下,大模型可以成为得到指点的 " 优秀考生 "。

根据 DeepSeek 在论文中展示的图表,NSA 在基准测试中的得分(左图中红色)优于传统的全注意力模型(左图中橙色),而 NSA 的计算速度(右图中红色)则明显快过全注意力模型(右图中黄色),在解码、向前传播、向后传播三项维度上的速度分别达到了全注意力模型的 11.6 倍、9 倍和 6 倍,这意味着模型的训练速度和推理速度都将得到成倍提高。
对此,原谷歌顶级工程师,现已加入 OpenAI 的 Lucas Beyer 在社交平台评论道,论文中出现的图表非常漂亮,仅发现绘图方面可能存在一些小瑕疵," 可以看出这篇论文在发表之前经过精细的打磨,恭喜 DeepSeek 现在有一个新粉丝了。"
无独有偶,2 月 18 日下午 8 点 20 分,"AI 六小虎 " 之一的 Kimi 也发表了类似的论文,该论文主要介绍了一个名为 MoBA(MIXTURE OF BLOCK ATTENTION 直译为块状混合注意力)的机制,该机制的核心思想同样是将长文本分割为多个固定大小的 " 块 ",此后再通过动态选择每个块的相关性,最终达到提高计算效率的作用,处理 1M 长文本的速度可以提升 6.5 倍。
值得注意的是,DeepSeek 和 Kimi 的这两篇论文中,分别出现了双方创始人梁文锋和杨植麟的名字,其中 DeepSeek 的论文还是梁文锋本人投递的。
而且贝壳财经记者注意到,不论是 NAS 机制还是 MoBA 机制,都强调了可以无缝集成到现有的语言模型中,无需重新训练已有大模型。这意味着这两项科技成果都可以直接拿来给现有的大模型 " 加速 "。
对于 DeepSeek 此次论文的发布,有外国网友表示," 这就是我喜欢 DeepSeek 胜过行业大多数前沿模型的原因,他们正在创新解决方案,他们的目标不仅仅是创造一个通用人工智能,而是让它高效化、本地化,让每个人都能运行和维护,无论计算资源如何。Grok3 看起来很棒,但它并不开源,并且是在 20 万块 H100 上训练出来的。"
田丰告诉记者,追求极致的模型算力和性价比是中国必须完成的任务,这是由复杂的 " 卡脖子 " 问题造成的,但这对美国的 AI 公司不是问题,所以马斯克才会不计代价扩张算力,模型只要足够好,领先 OpenAI、DeepSeek 和谷歌就可以了,不在乎成本是否全球最优," 从马斯克的发布会上可以感觉出来,可能在未来很长一段时间美国的大模型企业并不会去追求极致的性价比,更多还是会追求领先的性能。"
2 月 21 日,DeepSeek 在最新的公告中延续了自己开源免费的风格。在公告中,DeepSeek 表示 " 我们是一个探索 AGI(通用人工智能)的小团队,下周起我们将开源 5 个代码库,以完全透明的方式分享我们微小但真诚的进展。"
DeepSeek 表示," 作为开源社区的一部分,我们相信,每分享一行代码,都会成为加速 AI 行业发展的集体动力。每日解锁的开源项目即将到来,没有高不可攀的象牙塔,只有纯粹的车库文化(记者注:不少美国著名企业从车库里诞生)和社区驱动的创新。"
贝壳财经记者注意到,DeepSeek" 开源免费 " 的模式也对美国的大模型发展造成了影响。2 月 20 日,xAI 发文称,将免费提供 Grok3 的服务," 直到服务器崩溃为止 "。
对此,记者登录 Grok3 网页版,并提出了一个问题 " 说说你和 DeepSeek 的对比 ",Grok3 回答," 我的训练成本相对较高,这反映了我在性能和技术上的巨大投入。据估计,我的训练使用了约 20 万块 GPU,总训练时间超过 200 天,电力成本约为 2500 万美元。如果加上 GPU 采购、维护等费用,实际成本会更高。相比之下,DeepSeek 的训练成本低得多。例如,DeepSeek-V3 的训练成本为 600 万美元,使用了 278.8 万 GPU 小时。这一成本优势得益于其高效的混合专家(MoE)架构和优化的训练策略,显著降低了计算需求。"Grok3 还在功能与性能、开放性等方面做出了与 DeepSeek 的比较。

Grok3 在回答的结语中告诉贝壳财经记者," 感谢你对中国 AI 发展的关注!作为 Grok,我为自己的性能和技术感到自豪,同时也尊重 DeepSeek 在成本效率和开放性上的优势。AI 的进步是全球共同努力的结果,中美都在其中发挥了重要作用。"
新京报贝壳财经记者 罗亦丹
编辑 岳彩周
校对 穆祥桐