强到出对脚的NVIDIA:把天花板又抬下了

今年的 GTC,老黄又放了一堆「核弹」。

9 月 20 日晚上 11 点,英伟达 CEO 黄仁勋的主题演讲为 2022 GTC 揭开序幕。一个半小时的时间里,他介绍了英伟达下一代 RTX GPU 和支持 AI 工作流的新型云服务,以及各种新系统、芯片和软件。

对于游戏玩家和创作者而言,他们将获得首批基于全新 NVIDIA Ada Lovelace 架构的 GPU。较上一代旗舰 GPU RTX 3090Ti,此次发布的 RTX 4090 的性能将提升至前者的四倍。

但在这场演讲里,4090 也只是「开胃菜」。在剩下的一个多小时,黄仁勋介绍了英伟达在企业级市场和汽车市场的进展。

首先是今年 3 月发布的新一代计算卡「H100」,黄仁勋宣布 Nvidia H100 Tensor Core 现在已经全面投产,预计将在 10 月份上市。为元宇宙开发搭建的 Omniverse 平台也迎来全面更新,并将推出 Omniverse Cloud 一款 IaaS 云服务产品。

而在汽车领域,英伟达公布了新一代自动驾驶芯片 Thor,并放弃了此前发布的 Atlan。据英伟达透露,极氪将首发搭载该芯片,时间为 2025 年,此外如小鹏汽车、轻舟智能等也将使用该芯片。

GeForce RTX 40 系列

首先是最受关注的 GeForce RTX 40 系列显卡,会前曾有传言此次 GTC 40 系列显卡有可能缺席,结果并没有成真。

今年 GTC 英伟达发布了 40 系列两款高端显卡,其中 GeForce RTX 4090 将于 10 月 12 日上市,建议零售价 12999 元起;GeForce RTX 4080 将于 11 月推出,采用 12GB 和 16GB 显存两种配置版本,建议零售价分别为 7199 元和 9499 元起。

上一代 RTX 3090 和 RTX 3080 的首发价分别为 11999 元和 5499 元,40 系列显卡的价格提升了不少,但相比上一代产品,40 系列的性能也有了显著提升。根据黄仁勋介绍,GeForce RTX 4090 的性能将提升至上一代 RTX 3090 Ti 的 4 倍,GeForce RTX 4080 也比上一代产品在性能和功耗上有很大进步。

「和加速计算一样,计算机图形也是一项全栈挑战。」黄仁勋解释道,「若要实现突破,需要在架构、设计和算法方面进行创新。」

而在上述几个维度,尤其是架构和算法上,40 系列新显卡都有跨越式的提升。

在架构方面,40 系列显卡建立在全新的第三代 RTX 架构 即 Ada Lovelace(Ada 架构)。在优化的 4N 工艺下,Ada GPU 可以集成 760 亿个晶体管和超过 18000 个 CUDA 核心,比上一代 Ampere GPU 多了 70%。

新架构下,所有三类处理器均有改进,包括:SM 多单元流处理器、RT Core 和 Tensor Core。值得注意的是,单个 Ada GPU 即可支持 RacerX(基于物理定律的仿真)的运行。

在算法上,40 系列显卡在基于深度学习的神经网络渲染上取得了突破 引入了第三代 DLSS 技术。

光线追踪所需的计算量近乎疯狂,CGI 电影的每一帧画面渲染都需要数小时。英伟达 RTX 打开了实时光线追踪世界的大门,并且,通过引入基于深度学习的超分辨率技术,进一步提高了游戏帧率。

DLSS 3 通过将新帧和上一帧进行比较来了解场的变化,从而利用 AI 生成全新帧。与传统渲染相比,它能将游戏性能提高多达 4 倍。在这项技术的加持下,无论是对 GPU 性能要求较高的游戏还是受到 CPU 限制的游戏,都将从中受益。

老黄总结道:相较于 4 年前首次引入实时光线追踪技术,今天借助 AI,英伟达在 4 年内将光追的性能升了 16 倍;与此同时,GPU 中负责此类计算的晶体管数量并没有以同比增加,一些像素通过计算得出,而大多数像素则通过 AI 预测得出。

另外值得注意的是,此次英伟达只发布了两款 40 系列的高端显卡,这与游戏显卡市场需求疲软、英伟达急于去库存有一定关系。

黄仁勋在会后接受分析师采访时表示:终端市场目前需求疲软,英伟达减少了供应,来帮助下游消化 3080、3080 积压的库存,并预计用两个季度完成。对于 Ada 架构的新显卡,英伟达会在这个季度开始进行小规模生产,并在明年进行更多的公布。

此外,对于市场环境是否会影响 4080 和 4090 显卡的销售,黄仁勋认为,4080、4090 主要针对高端游戏玩家,受到的市场影响较小。

简单来说,4080 和 4090 两款高端旗舰显卡相较上一代性能有明显提升,有换代需求的高端玩家依然会正常购买。但对于 4070、4060 这些在性能上与 3080、3080 这些上一代旗舰性能相近的产品,为了避免影响下游去库存,英伟达会在更晚的时间点发布。

Omniverse 推出云服务

互联网的下一次演化方向被视作元宇宙,而英伟达对于元宇宙的理解是「数字孪生」。英伟达于 2019 年正式推出 Omniverse,一个用来构建和运行元宇宙应用的平台。

简单来说,Omniverse 是一个实时的大型 3D 数据库,一个可以共享的 3D 世界,一个基于 USD 构建的网络;同时,它也是一个计算平台,使用者可以编写在 Omniverse 上运行的应用,这些应用如同进入 Omniverse 虚拟世界的门户。

此外,英伟达也编写了一些 Omniverse 蓝狮在线应用,例如用于协作的 Create 和 View,用于合成数据生成的 Replicator,以及用于数字孪生模拟的 Isaac Sim 和 Drive Sim。

作为一个新的计算平台,Omniverse 由三部分构成:RTX 计算机(供创作者、设计师和工程师使用)、OVX 服务器(用来托管与 Nucleus 数据库的连接并运行虚拟世界模拟)以及第三部分:NVIDIA GDN(进入 Omniverse 的门户)。

会上,黄仁勋介绍了第二代 OVX 系统,后者将由 Ada Lovelace L40 数据中心 GPU 提供支持,该 GPU 现已全面投产。

此外,英伟达还宣布推出 Omniverse Cloud。这是一款 Iaas 产品,可连接在云上、本地或单个设备上运行的 Omniverse 应用。

黄仁勋介绍:新的 Omniverse 容器现已可以部署到云端,该容器包括用于合成数据生成的 Replicator、用于扩展渲染农场的 Farm 以及用于构建和训练 AI 机器人的 Isaac Sim。

Omniverse 上云一方面意味着将进一步方便协作,提升效率;另一方面,也意味着英伟达数字孪生业务将覆盖更大的应用场景和客户。

黄仁勋表达了自己对元宇宙的看法:未来,所有的产品都将具有数字孪生。制造商利用数字孪生模拟产品在物理世界中的作用和性能。如果不对软件的数字孪生版本进行测试,则无法大规模部署该软件所运营的的物理产品。

黄仁勋列举了很多客户案例来解释不同领域的公司如何利用 Omniverse,比如为工厂、物流仓库、自动化生产线和工业厂房创建数字孪生;如何利用 Omniverse 实现团队互联,以全保真度可视化他们的数据并生成合成数据,从而训练 AI 模型,模拟数字孪生。

自动驾驶:放弃 Atlan,拥抱 Thor

最后,多少有点出乎意料,英伟达公布了新一代自动驾驶平台 Thor。

目前,想要实现汽车中的主动安全、停车、驾驶员监测、摄像头后视镜、集群和车载信息、娱乐系统等功能通常需要不同的计算机提供支持。而未来,它们将由在中央计算机上运行的软件统一提供支持,并随着时间的推移不断改进。

去年,英伟达推出了 Atlan,一款 1000 TOPS 的 SoC。虽然这款产品还没有投产,但是黄仁勋宣布 Atlan 不再是第一了,它将被 Thor 取代。

新推出的 DRIVE Thor 平台,集成了基于 Hopper 的 Transformer Engine、基于 Ada 的 GPU 和基于 Grace 的 CPU。

黄仁勋表示,Hopper 的 Transformer 引擎以及 Vision Transformer 的快速变革,它们都至关重要,必须纳入到下一代的机器人处理器,而 Ada 中多实例 GPU 的发明将有助于车载计算资源的集中化可将成本降低数百美元,Grace 的 CPU 则正好拥有非常出色的单线程性能。

基于这些基础,Thor 的吞吐量是上一代 Atlan 的两倍,交付的性能也是 Atlan 的两倍以上。并且,Thor 能够与目前被用于量产汽车、可提供每秒 254 万亿次浮点运算性能的 DRIVE Orin 无缝衔接。

使用场景上,Thor 处理器可以应用在机器人、医疗仪器、工业自动化和边缘 AI 系统等。

对于英伟达取消 Atlan 的原因,黄仁勋在会后接受分析师采访时表示,Atlan 的产品包括 GPU、CPU 和 Tensor Core 三个关键的架构。这三个架构,在过去两年都发生了巨大的进步。每过两年。机器人系统的研发都会迎来重大更新,这是他们做出取消 Atlan 直接做 Thor 的原因。

此外,黄仁勋还进一步透露,除了会上公布的极氪等中国车厂,到 2025 年,奔驰、捷豹路虎等车企的车队,都会由英伟达提供全栈式的解决方案。公司预计未来在汽车业务领域中的商业化速度以及竞争将会加剧。目前英伟达大概有 110 亿美金的在手订单和汽车业务相关。