太平洋科技笔记本

孙正义要“怼”英伟达？AI算力芯片成香饽饽，国内情况如何？

小烂毛编辑：杨玥锴发布于：2024-02-20 18:24 PConline原创

面对AI这个大风口，孙正义也坐不住了！

彭博消息称，软银创始人孙正义正寻求筹集资金1000亿美元(约7194亿元人民币)，用于创建一家AI芯片企业，这将会是ChatGPT问世以来AI领域最大一笔投资。

在行业人士看来，孙正义此举旨在挑战英伟达。

芯片，是制约AI算力的关键。此前美国政府曾发文禁止英伟达将顶级AI芯片向中国出口，虽然随后英伟达推出了“减配版”AI芯片，但性价比明显不够，一众中国企业也并不买账。

与此同时，国产AI芯片正快速发展，逐步具备替代能力。华为、寒武纪、平头哥等企业展示过各自的AI芯片实力。特别是华为昇腾910B性能已基本可与英伟达A100芯片对标。总体来说，中国在AI芯片领域拥有足够的技术储备支撑国内需求。那么接下来咱们一起盘点一下中国AI芯片的发展情况。

华为昇腾910（Ascend 910）

在2018年的全联接大会上，华为不仅提出了全面的AI战略和全栈全场景的AI解决方案，而且同时发布了两款引人注目的AI芯片：昇腾910和昇腾310。这两款产品的问世标志着华为在AI硬件领域的深度布局。

昇腾910在规格上采用了先进的7nm工艺制程，拥有高达256TFLOPS的半精度计算能力和350W的功耗。这种高算力与相对较高的功耗表明，昇腾910主要面向数据中心和AI训练场景，提供强大的处理性能。其核心架构为华为自研的达芬奇架构，这一架构不仅提升了芯片的运算效率，还赋予其在不同AI场景下的灵活适应性。

基于升腾910、升腾310 AI芯片，华为还推出了Atlas AI计算解决方案。华为升腾社区显示，目前Atlas 300T产品有三个型号，分别对应升腾910A、910B、910 ProB，最大300W功耗，前两者AI算力均为256TFLOPS，而910 ProB可达280 TFLOPS（FP16）。该款芯片在 2023 年已经获得了大客户至少 5,000 套的订单，预计会在 2024 年交付。业界认为，华为升腾910B能力已经基本做到可对标NVIDIA A100。

寒武纪思元370

寒武纪推出的思元370芯片，是其首款运用chiplet技术的AI芯片，采用了先进的7nm制程工艺，并集成了高达390亿个晶体管。这款芯片在性能上相较前代产品有了显著的提升，其最大算力达到了256TOPS（INT8），是其前代产品思元270的两倍。这样的算力使得思元370在处理AI任务时速度更快、效率更高。

此外，思元370支持LPDDR5内存技术，这一高性能的内存技术支持更高的数据传输速率和更低的功耗，对于AI芯片在处理大量数据时尤为关键。同时，寒武纪最新的智能芯片架构MLUarch03为思元370提供了强大的架构支持，使其在执行AI训练和推理任务时更为高效。这些特点使得思元370成为了AI硬件市场中的一款重要产品，展现了寒武纪在AI芯片领域的实力与创新能力。

壁仞科技BR100

壁仞科技BR100系列GPU芯片于2022年8月正式发布，这是一款专为云端AI训练和推理设计的高性能通用GPU产品。其搭载了壁仞科技自研的先进原创架构“壁立仞”，并采用TSMC的7纳米制造工艺，集成了770亿个晶体管。

在性能方面，该芯片的16位浮点算力超过了1000T，而8位定点算力更是达到2000T以上，单芯片的峰值算力已经触及PFLOPS等级。

壁仞科技BR100系列芯片的推出，显著提升了数据中心在处理复杂AI工作负载时的能力，尤其在面对AI模型训练任务时展现出强大的性能优势。公司的这一突破性成果不仅体现了国产硬件自主研发的进步，同时也为国内外客户在构建高效能计算平台时提供了更多选择，有助于促进全球AI产业的发展和技术创新。

燧原科技邃思2.0/2.5

燧原科技邃思2.0和邃思2.5人工智能云端推理加速卡，专为数据中心设计，能够在多种AI推理场景中提供高效的计算性能。

邃思2.0具有大尺寸设计和高算力特点，其面积达到3306mm²，采用了格罗方德12nm FinFET工艺，内部集成了9颗芯片。这使得邃思2.0在单精度FP32算力上达到了32TFLOPS，整数精度INT8算力为256TOPS。

邃思2.5作为第二代人工智能云端推理芯片，针对性地满足了计算机视觉、语音识别与合成、自然语言处理、搜索与推荐等AI推理场景的需求，它的设计兼顾了当下数据中心对于AI推理任务的高要求和复杂算法处理能力。

燧原科技的邃思系列加速卡采用尖端封装技术，代表了中国在AI芯片领域的重要进展。邃思2.0特别引人注目的是接近日月光2.5D封装技术极限的大尺寸设计和卓越的计算能力，使其在处理大规模AI工作负载时展现出非凡的性能。同时，邃思2.5以其高度适配多种AI应用场景的能力，强化了燧原科技在云端推理市场的地位，为AI工作负载优化提供了专业解决方案。

百度昆仑芯

百度作为中国领先的互联网科技公司，早在2011年便开始了对AI芯片的前瞻性布局。通过多年的研发积累，百度终于在2018年推出了自研的AI芯片——昆仑1，这是国内首款基于自研XPU架构并采用14nm制程的AI芯片。在2020年，昆仑1正式进入量产阶段，并被广泛应用于百度搜索引擎、小度等核心业务中，展现了其强大的性能与稳定性。

为了进一步巩固在AI芯片领域的领先地位，百度在2021年3月成功完成了昆仑芯片的独立融资。同年8月，百度宣布第二代自研AI芯片——昆仑2正式量产。昆仑2采用了先进的7nm制程，并搭载了自研的第二代XPU架构，相较于第一代产品，其性能提升了2-3倍，同时在通用性和易用性方面也实现了显著的增强。

凭借卓越的性能和广泛的应用场景，百度昆仑芯的前两代产品已经成功部署了数万片，为各行各业的AI应用提供了强大的算力支持。而据最新消息，百度昆仑芯的第三代产品也有望在2024年4月举办的百度Create AI开发者大会上亮相。我们期待这款新品能够继续延续百度在AI芯片领域的辉煌成就，为未来的AI技术发展注入新的活力。

腾讯紫霄AI芯片

紫霄AI芯片是腾讯在人工智能领域的一项重要创新，于2021年11月正式亮相。这款芯片采用了自研的存算架构和加速模块，具有高效能、低成本的特点。紫霄AI芯片的计算加速性能达到了同类产品的3倍，同时能够降低45%的整体成本。这使得紫霄AI芯片在人工智能计算领域具有显著的优势。

目前，紫霄AI芯片主要为腾讯内部使用，不对外销售。腾讯通过其云服务平台向用户提供基于紫霄AI芯片的算力租赁服务，从而获取收益。这种模式不仅有助于腾讯降低成本，还能为用户提供更加便捷、高效的AI计算服务。

值得一提的是，近期有媒体报道称，腾讯正考虑将紫霄V1芯片作为NVIDIA A10芯片的替代品，应用于AI图像和语音识别领域。这表明紫霄AI芯片在性能和应用范围上已经具备了与业界领先产品竞争的实力。此外，腾讯还计划推出针对AI训练优化的紫霄V2 Pro芯片，旨在未来取代NVIDIA L40S芯片，进一步巩固其在AI计算领域的地位。

阿里平头哥

AI芯片布局上，阿里平头哥2019年9月推出了其首款高性能人工智能推理芯片──含光800，基于12nm制程与自研架构，整合170亿晶体管，性能峰值算力达820TOPS。在业界标准的 ResNet-50测试中，推理性能达到78563IPS，能效比达 500IPS/W。

2023年8月，阿里平头哥发布了首个自研RISC-V AI平台，支持运行170余个主流AI模型，推动RISC-V进入高性能AI应用时代。同时，平头可宣布玄铁处理器C920全新升级，C920执行GEMM（矩阵的矩阵乘法）计算较Vector方案可提速15倍。

2023年11月，阿里平头哥玄铁RISC-V上新了三款基于软硬协同新范式的处理器（C920、C907、R910），大幅提升了加速计算能力、安全性及即时性，有望加速推动RISC-V在自动驾驶、人工智能、企业级SSD、网络通信等场景和领域的大规模商用落地。

结语：

在AI技术快速迭代的今天，算力已成为推动创新不可或缺的战略资源。无论是训练还是推理，大规模的神经网络都需要消耗巨大的计算能力。这使得高性能GPU像英伟达A100和H100等成为公认的AI计算“霸主”供不应求。

正因为算力的重要性，美国通过芯片法案等手段，严格限制顶级GPU向中国出口。这是因为算力优势直接决定着一个国家在AI领域的技术发展路径和速度。要限制中国在高科技产业的进一步崛起，控制关键算力资源就是美国的策略选择之一。

面对外部挑战与压制，中国企业也在芯片领域持续发力。华为、寒武纪、平头哥等厂商开发的自主AI芯片，已经初步展现出可与英伟达旗舰GPU竞争的实力，让中国企业敢对对英伟达“减配版”芯片说不。

AI NVIDIA

小烂毛

原创栏目