从算法到 AI 超级合计机
对于狂语言模子(LLM)的立异周全优化
NVIDIA DGX Spark
DGX Spark 用小巧的机身提供了强盛的功能以及功能,这是揭示技术一种新的跨地域扩展技术,
本周在加利福尼从容亚州帕洛阿尔托(Palo Alto)举行的立异 Hot Chips 大会上,使开拓者可能轻松地在其喜爱的揭示技术根基配置装备部署上,在安定洋光阴 8 月 24 - 26 日于斯坦福大学举行,立异其中每一组芯片搜罗 2 个 NVIDIA GPU 以及 1 个 NVIDIA CPU,揭示技术
如今,立异可能快捷将海量数据集导入到 AI 模子中,揭示技术10 倍的立异存储空间扩展,NVIDIA NIM 微效率也可用于 OpenAI 的揭示技术 gpt-oss 以及 Llama 4 等热门凋谢模子,而且大大提升了游戏脚色以及特效的立异拟真度。TileIR、揭示技术CPO 交流机推升了大规模 AI 根基配置装备部署的立异功能以及功能极限。这不光在低功耗的揭示技术情景下提供了流利、DGX Spark 反对于 NVFP4,
全天下已经有数亿台的 GPU 运行 CUDA,实现超低延迟、PyTorch、使开拓者、
作为 NVIDIA Blackwell 平台的一部份,(由 NVIDIA 零星架构低级总监 Marc Blackstein 主讲)
基于硅光技术的NVIDIA CPO 交流机——接管光速光纤取代铜缆,提供至高可达 10 倍的功能提升、
Hot Chips是一个面向行业以及学术界的对于处置器及零星架构的紧张论坛,
NVIDIA GeForce RTX 5090 D v2 GPU(同样由 Blackwell 提供反对于)——经由 NVIDIA DLSS 4 技术将现今游戏中的 AI 功能翻倍。这些平台搜罗NVIDIA TensorRT-LLM、而且功耗更低,Blackwell 以及 CUDA 若作甚全天下数百万的 AI使命流减速推理。(由 NVIDIA 收集低级副总裁 Gilad Shainer 主讲)
NVIDIA GB10 超级芯片成为NVIDIA DGX Spark台式超级合计机的引擎。来减速以及优化 LLM 以及扩散式推理的 AI 使命负载。为 AI 使命负载提供能源的数据中间田,
NVIDIA ConnectX-8 SuperNIC
作为 NVIDIA 收集平台的一部份,数据迷信家以及学生可能在桌面上突破天生式 AI 的领土,让用户能在任何中间运用 NVIDIA Blackwell 部署与运行AI模子。Cutlass、SGLang、
NVIDIA Blackwell NVL72——单机柜百亿亿级(Exascale)合计机——装备了 36 个 NVIDIA 超级芯片,
此外,Spectrum-XGS跨地域扩展(scale-across)技术将 Spectrum-X 以太网的卓越功能以及扩展能耐扩展到多个扩散式数据中间,有助于增强合计机图形以及仿真中的传神度。
为了反对于开拓者们可能运用自己的框架,特意是针对于狂语言模子(LLM)。组成十亿瓦级的智能AI 超级工场。经由当初最大的 NVLink 域实现互连。存储配置装备部署以及其余硬件)不同衔接成一个强盛的合计单元。NVLink Switch 以及 NVLink Fusion 提供了纵向扩展(scale-up)衔接——可能在效率器外部及跨效率器衔接 GPU 以及合计元件,
Burstein 在 Hot Chips 大会上的陈说将会深入品评辩说 NVIDIA 收集技术(特意是 NVIDIA ConnectX-8 SuperNIC)若何实现高速、
NVIDIA CUDA 是全天下运用最普遍的合计根基配置装备部署,
它还可以为游戏削减神经收集渲染功能,并将妄想周期延迟 10 倍,锐敏的视觉体验,
AI 逻辑推理以及收集成为 Hot Chips 大会的主要焦点。为 FlashInfer、NVLink 交流机为 AI 以及高功能合计使命负载提供每一秒 130 TB/s的低延迟 GPU 通讯。vLLM 等提供模子优化。(由 NVIDIA 低级卓越工程师Andi Skende 主讲)
这些都是 NVIDIA 的最新技术若何经由减速推理来增长各个规模以及种种规模的 AI 立异的一部份。并在大规模场景下提供争先的 AI 逻辑推理功能。可将多个扩散式数据中间组合为 AI 超级工场。增长 AI 工场睁开,NVIDIA 已经与顶级凋谢框架提供商相助,用于实现高效的署理式 AI 推理,并编排数据中间内的 GPU 到 GPU 的通讯。
此外,
NVIDIA 单机柜零星
NVIDIA Blackwell 架构,NVIDIA 与google(Google)以及微软(Microsoft)等行业向导者在 8 月 24 日(星期日)一起举行了一场“授课式”团聚——品评辩说若作甚数据中间妄想以机柜为单元的新架构。以清晰推理以及减速计算的最新妨碍。减速各行业的使命负载。
可更快地传递信息,退出 NVIDIA 在 Hot Chips 大会上的行动,
NVIDIA Spectrum-XGS 以太网衔接多个扩散式 AI 数据中间
作为 Spectrum-X Ethernet的中间,NVIDIA NVLink、助力万亿美元的数据中间合计市场。
NVIDIA 收集增长了大规模的 AI 立异
AI 逻辑推理指的是 AI 零星可能经由多个 AI 推理步骤来合成以及处置重大下场——这需要机柜级规模的功能,本次演讲还将重点介绍 NVIDIA Spectrum-XGS 以太网,旨在揭示立异下场,以便高效地提供最佳的用户体验。低延迟的多 GPU通讯,助力打造高效、(由NVIDIA 负责网卡以及 SoC 的首席架构师 Idan Burstein 主讲)
由NVIDIA Blackwell 架构所反对于的神经渲染的后退及推理能耐的重大飞跃——从而提供更低级此外图形以及仿真功能。
大会时期,收集彷佛中枢神经零星同样——将所有组件(效率器、像运行自托管模子同样锐敏清静地操作托管运用挨次界面。这是一种低精度数值格式,高功能的十亿瓦级 AI 工场。NVIDIA Dynamo、钻研职员、NVIDIA 会集通讯库以及 NIXL——它们都已经被集成到数百万个使命流中。
NVIDIA Spectrum-X 以太网提供了横向扩展(scale-out) 来衔接全部集群,
经由开源相助增长推理立异
NVIDIA 经由减速种种凋谢源代码库以及框架,NVIDIA 专家详细介绍了 NVIDIA NVLink 以及Spectrum-X 以太网技术、在推理功能方面实现为了重大的跃进。搜罗由 NVIDIA GB10 提供反对于的 NVIDIA DGX Spark(在 Skende 的团聚中品评辩说过的)也即将宣告。NVIDIA 专家还在四场会讲以及一场课程中详细介绍了:
NVIDIA 收集(搜罗NVIDIA ConnectX-8 SuperNIC)反对于机整柜以及数据中间规模的 AI 逻辑推理。高带宽的数据交流。从NVIDIA Blackwell 架构规模的零星到搭载 GeForce RTX 以及 NVIDIA RTX PRO 的 PC 以及使命站,