微软打造“行星AI超级工厂”:构建分布式网络,集成数十万GPU

微软正式推出首个“AI Gigafactory”,将不同州的数据中心连接成一个集成系统,打造具有星际规模计算能力的分布式AI Gigafactory。这种架构将分布式计算资源整合到虚拟超级计算机中,以前所未有的规模加速人工智能模型的训练,缩短了原本需要数月或数周的复杂任务。这标志着人工智能基础设施正式从建设独立站点转向“星球级”网络协作的新阶段。根据微软的一份声明,位于亚特兰大的下一代人工智能数据中心于 10 月开始运营。这是“Fairwater”系列中的第二个设施,通过专用网络与威斯康星州的第一个 Fairwater 设施相连。该系统集成了数十万个最新的 NVIDIA Blackwell GPU,打造出世界上第一个真正的跨州 AI 计算集群。发展历程科技巨头之间对人工智能计算能力的竞争日益激烈。据《华尔街日报》报道,微软计划在未来两年内将其数据中心总空间增加一倍。 “AI超级工厂”将支持OpenAI、微软Copilot、法国Mistral AI和埃隆·马斯克的xAI等关键客户,进一步巩固其在AI基础设施领域的领导地位。这背后是巨大的资金投​​入。微软上一财季的资本支出超过 340 亿美元,预计将继续增长。业界预测,今年全球科技公司人工智能相关投资总额将达到4000亿美元。微软的分布式网络战略不仅是技术创新,也是满足日益增长的计算能力需求、保持市场竞争力的核心举措。 “AI超级工厂”:从独立站点到去中心化网络微软Futo“AI超级工厂”理念的核心pt是将多个地理上分散的数据中心整合为单个虚拟超级计算机,这与传统数据中心的设计理念有很大不同。微软 Azure 基础设施总经理阿利斯泰尔·斯皮尔斯 (Alistair Speirs) 解释道:“传统数据中心旨在为多个客户端运行数百万个独立应用程序,我们将其称为‘人工智能超级工厂’,因为它们在数百万台硬件上运行复杂的作业。”在这个模型中,AI模型不再在单个站点上进行训练,而是在共同支持相同训练任务的站点网络上进行训练。亚特兰大 Fairwater 园区的所有 GPU 之间通过高速、高性能网络共享信息。图片由微软提供。这个分布式网络连接多个站点,集成了数十万个下一代 GPU、EB 级存储空间和数百万个 CPU 核心。其设计目标是支持未来人工智能模型的参数规模训练es 达到数万亿。随着人工智能训练过程变得越来越复杂并涵盖预训练、调优、强化学习和测试等多个阶段,这种跨站点协作的能力非常重要。专为人工智能打造:新一代数据中心的设计和技术 为了实现“超级工厂”的愿景,微软从头开始设计了“Fairwate®”系列数据中心。该设施位于亚特兰大,占地 85 英亩,空间超过 100 万平方英尺,并针对 AI 工作负载进行了全面优化。 Fairwater AI 数据中心设计为两层。图片提供:微软。主要技术特点包括: 高密度架构:采用创新的两层建筑设计,在更小的物理空间内容纳更多的 GPU,减少内部通信延迟。芯片系统:实施了 NVIDIA 的 GB200 NVL72 机架规模系统,可扩展至数十万个 GPU NVIDIA Blackwell 架构:对抗针对 GPU 集群产生的高热量,微软设计了一套复杂的闭环液体冷却系统,该系统消耗的水很少。初始注水量相当于家庭一年的用水量。在数据中。在中心,所有 GPU 通过高速网络紧密连接,确保芯片之间的信息快速流动。 ”微软云和人工智能副总裁 Scott Guthrie 表示:“Fairwater 的设计融合了微软多年的端到端工程经验,旨在满足现实世界中不断增长的性能需求。 Fairwater 数据中心 GPU 的物理密度使 Microsoft 能够将更强大的计算能力整合到更小的空间中,从而减少延迟。图片由 Microsoft 提供:AI WAN 和计算能力分配策略建立在 Microsoft 连接多个远程数据中心的能力之上 Microsoft 部署了 120,000 英里的专用光缆来创建微软Azure首席技术官马克表示,这是一条专用于人工智能流量的“高速公路”,使其能够以接近光速的速度传输数据而不会出现拥堵。我注意到力量已经超出了极限。斯皮尔斯告诉《华尔街日报》,Fairwater Network 的目标是在多个州建立它,而不是将其所有计算能力集中在一个地方,这主要是出于土地和电力方面的考虑。需求上升引发“军备竞赛” 微软的“AI Gigafactory”将应对人工智能计算能力日益增长的需求,并与竞争对手展开竞争。这是竞争的重要资产。微软此前曾调整过部分数据中心的租赁计划,但Alistair Spei表示:RS澄清,这只是“容量规划的改变”,该公司目前面临着远远超过其供应能力的需求。微软并不是唯一参与这场计算能力竞赛的公司。竞争对手亚马逊最近在美国推出了占地 1,200 英亩的 Project Rainier 数据中心集群印第安纳州。该集群预计将消耗 2.2 吉瓦的能源。 Meta Platforms 和 Oracle 等其他公司也宣布了宏伟的建设计划,人工智能初创公司 Anthropic 也宣布计划投资 500 亿美元用于美国计算基础设施。通过将我们的数据中心连接到集成的分布式系统中,微软不仅在技术上取得了新突破,而且在商业上也做好了满足领先人工智能公司巨大需求的准备。 Scott Guthrie 表示:“我们让人工智能网站作为一个整体发挥作用,帮助我们的客户将他们的创新模型变成现实。”
特别提示:以上内容(包括图片、视频,如有)由自有媒体平台“网易账号”用户上传发布。本平台仅提供信息存储服务。
注:以上内容(包括图片和视频,如有)由提供信息存储的社交媒体平台网易号用户上传并发布仅限服务。

admin

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注