太平洋科技笔记本

一夜蒸发5600亿，英伟达真的危险了？

钛媒体整合编辑：杨玥锴发布于：2024-02-21 17:40

由于ChatGPT爆火引发AI算力需求热潮，英伟达AI芯片供不应求、大规模短缺。如今，英伟达似乎遭遇到了更多挑战。

北京时间2月21日，据报道，科技巨头微软正在开发一种新的网卡芯片，替代英伟达ConnectX SmartNIC智能网卡产品，以确保 AI 模型数据可以在微软云服务器之间快速传输。

微软方面确认了此消息。该公司在一份声明中表示，作为微软Azure基础设施系统方法的一部分，公司经常开发新技术来满足客户的需求，包括网络芯片。

实际上，作为英伟达GPU（图形处理器）的最大客户之一，微软事件是一个重要“信号”。除了省成本之外，微软还希望新网卡能够提高其英伟达芯片服务器的性能，将有助于使用微软云的OpenAI 研发更多AI大模型。

不只是微软。

近两天，一家名为Groq的美国AI公司一夜“爆火”，主要因其自研的LPU芯片在 AI 推理技术上，通过优化架构和减少内存瓶颈，实现了高效率和低延迟，在处理大模型时的速度远超英伟达GPU，每秒生成速度接近500 tokens，而GPT-4仅40 tokens。

因此，Groq LPU被誉为“史上最快的大模型技术”。

受上述消息以及外部环境影响，截至2月20日美股收盘，英伟达单日股价下跌4.35%，创下去年10月以来的最大单日跌幅，一夜之间总市值缩水780亿美元（约逾5600亿元人民币）。

2月20日，IDC分析师对钛媒体App等表示，随着Sora的推出，多模态大模型对 AI 算力的消耗更高，算力的可获取性以及成本将是行业挑战之一。

那么，面对这种新的竞争局势，英伟达真的危险了吗？

Groq到底是谁？为什么这么强？

据悉，Groq公司成立于2016年，总部位于美国加利福尼亚，创始团队中有很多人都参与过谷歌TPU项目。
其中，Groq创始人兼 CEO乔纳森·罗斯（Jonathan Ross）曾设计并制作出了第一代谷歌TPU芯片的核心元件，TPU 20%的研发项目都由他完成。

公司领导层的10人中，有8人都有在谷歌、英特尔等科技巨头的工作经历。

融资方面，截至目前，Groq共完成了3轮融资，总共融资到了3.67亿美元。最后一轮融资在2021年4月完成，融资金额为3亿美元，由老虎环球基金（Tiger Global Management）和投资公司D1 Capital领投。

Groq之所以能够在此次 AI 热潮中“爆火”，主要得益于其使用了自研芯片LPU（Language Processing Units），而不是英伟达的GPU芯片，它能实现高速度和低延迟。

据Groq在2024年1月的第一个公开基准测试，由Groq LPU驱动的Meta Llama 2-70B模型，推理性能比其他顶级云计算供应商快18倍。

Groq LPU的工作原理与英伟达的GPU不同，它采用了名为时序指令集计算机（Temporal Instruction Set Computer）架构，使用存储器为静态随机存取存储器（SRAM），其速度比GPU所用的高带宽存储器（HBM）快约20倍。

从芯片的规格中，SRAM容量是230MB，带宽80TB/s，FP16的算力是188TFLOPs。

这一区别造成了 LPU和GPU在生成速度的差别。据Groq表示，英伟达GPU生成每个tokens需要约10焦耳到30焦耳，而 Groq仅需1焦耳到3焦耳。

值得注意的是，虽然Groq做到了足够快，但背后成本却非常高昂。

2月20日，前阿里巴巴集团副总裁、Lepton AI创始人兼CEO 贾扬清在社交平台上表示，由于每一张Groq卡的内存容量仅为230MB，因此在运行Llama-2 70B模型时，需要305-572张Groq卡才足够，而用H100则只需要8张卡。

贾扬清认为，如果按未来运行三年的成本算，Groq的硬件采购成本是1144万美元，运营成本至少要76.2万美元。从目前的价格来看，这意味着在同等吞吐量下，这几乎是H100硬件成本的40倍、能耗成本的10倍

据腾讯科技，芯片专家姚金鑫（J叔）表示，Groq对Llama2-7B的Token生成速度是750 Tokens/s。如果从成本的角度，9台的Groq服务器，也是远远贵过2台总共16颗的H100芯片的服务器，即使目前价格已经非常高了。

“英伟达在本次AI浪潮中的绝对领先地位，使得全球都翘首以盼挑战者。每次吸引眼球的文章，总会在最初被人相信，除了这个原因之外，还是因为在做对比时的‘套路’，故意忽略其他因素，用单一维度来做比较。”姚金鑫表示。

不止是成本高昂。SRAM技术面积大、功耗比较高，早就以IP内核形式集成到SoC（系统级芯片）里面，并非单独用，远不如HBM的未来发展潜力。不管是比单位容量价格、还是性能和功耗，英伟达GPU所使用的HBM技术都优于SRAM。
虽然Groq的芯片成本较高，但其创始人Jonathan Ross已表示，随着GPU短缺和成本上升，Groq的LPU将有巨大的市场潜力。

不仅是Groq，据The information 2月21日报道，英伟达的重要客户、全球最高市值的科技巨头微软计划设计一款新的网卡芯片，以替代英伟达相关产品。

知情人士称，微软首席执行官萨蒂亚·纳德拉 (Satya Nadella) 已任命网络设备开发商瞻博网络 (Juniper Networks) 联合创始人普拉迪普·辛杜 (Pradeep Sindhu) 来领导网卡工作。据悉，微软一年前收购了辛杜创立的服务器芯片初创公司Fungible。

据悉，网卡是数据中心与服务器内部的一项重要技术，旨在加速服务器之间的流量，解决大流量网络数据包处理占用CPU的问题。

在此之前，英伟达曾发布NVIDIA ConnectX SmartNIC 智能网卡，最新的ConnectX-7 通过加速交换和数据包处理（ASAP2）、高级RoCE、GPUDirect Storage，以及用于TLS、IPsec 和MACsec 加密和解密的内联硬件加速等功能，为敏捷、高性能网络解决数据传输问题。

69亿美元收购Mellanox 之后，近两年，英伟达已研发出一种新的DPU（数据处理器）芯片，最新产品为BlueField-3 SuperNIC，将SmartNIC智能网卡集成内部。

据悉，DPU是面向基础设施层（IaaS）的专用处理器，具备灵活可编程性。BlueField利用英伟达DOCA（集数据中心于芯片的架构）软件开发包的优势，为开发者提供一个完整、开放的软硬件平台。除了BlueField，英伟达还有NVLink、NVSwitch等多种技术整合，从而增强数据传输能力。

报道引述微软内部人士称，当微软在其数据中心使用英伟达制造的 AI 芯片时，由于OpenAI等客户拥有的大量数据传输需求，服务器可能会过载。目前，微软已发布了首款Maia AI 服务器芯片。

The information称，微软的网卡芯片与ConnectX-7卡类似，将其与GPU和AI芯片“捆绑”销售。

AI 芯片竞争加剧，英伟达真的危险了吗？

除了微软，亚马逊旗下云计算部门AWS、Meta等科技巨头也在自研对标英伟达A100的多款AI芯片产品。

去年11月，AWS 推出全新基于ARM架构、自研的高性能计算服务器CPU芯片Graviton 3E，同时发布第五代Nitro网络芯片硬件，借此提升云端虚拟机的计算效率，并支持天气预报、基因测序等场景任务；2月5日Meta正式计划今年部署一款新的自研 AI 芯片，即第二代自研AI芯片Artemis，预计将于2024年正式投产，以减少对英伟达芯片的依赖。

如今，奥尔特曼和孙正义也加入到了AI算力芯片战场。

其中，奥尔特曼已公布通过筹集8万亿美元制造AI芯片半导体网络，目前正与日本软银集团、阿联酋政府、美国商务部以及其他中东主权财富基金等投资者洽谈，有望扩大OpenAI技术能力；软银创始人孙正义被曝正在筹集1000亿美元研发AI半导体产品。

AWS高级副总裁彼得·德桑蒂斯 (Peter DeSantis) 曾表示，AWS希望客户用新的Graviton 3E处理器执行更多任务，从而获得高性能计算能力。他认为，与购买英特尔、英伟达或AMD芯片相比，亚马逊自研芯片将为客户提供更具性价比的算力支持。

研究公司Dell'Oro Group 的数据中心基础设施负责人Baron Fung表示，微软和其他云提供商“不想受制于英伟达生态系统”。

OpenAI CEO奥尔特曼（Sam Altman）曾私下表示，与谷歌相比，OpenAI在算力上处于劣势。

那么，面对 AI 芯片竞争加剧局面，英伟达真的危险了吗？

英伟达曾表示，微软的网络组件可能会蚕食其网络设备每年超过100亿美元的销售规模。

不过，贾扬清认为，如果运行未来三年的话，Grog的硬件采购成本是1144万美元，运营成本远高于76.2万美元，而英伟达H100的硬件采购成本仅30万美元，运营成本大约为7.2万美元以内，性价比更高。

整体来看，英伟达H100产品在AI芯片市场上仍具有很强的竞争能力。

黄仁勋2月中旬表示，每个国家都需要拥有自己的AI基础设施，以便在保护自己文化的同时利用经济潜力。接下来的4到5年里，我们将拥有价值2万亿美元的数据中心，它将为世界各地的AI软件提供动力，所有AI技术都会加速，而英伟达正取代通用计算核心，体系结构的性能将同时得到提高。

对于奥尔特曼的7万亿美元计划，黄仁勋称，（7万亿美元）显然能买下所有GPU。

“如果你假设计算机不会变得更快，可能就会得出这样的结论：我们需要14颗行星、3个星系和4个太阳来为这一切提供燃料。但计算机架构仍在不断进步。”黄仁勋表示。