探秘算力新基建：Infiniband 组网、GPU 池化管理与算力调度的协同变革，英伟达与迈络思的技术领航

创建时间：2025-05-19 10:04

在当今数字化浪潮中，数据如同汹涌澎湃的洪流，对算力的需求也呈爆发式增长。从人工智能的复杂模型训练，到大数据的深度分析，高效的算力支撑成为关键。在这一背景下，Infiniband 组网（IB 组网）、GPU 池化管理以及算力调度技术，在英伟达与迈络思等行业巨头的推动下，正深度重塑着算力基础设施格局，为各行业创新发展注入强大动力。

Infiniband 组网：高性能计算网络的中流砥柱

Infiniband，从诞生之初便肩负着突破传统 I/O 性能瓶颈的使命。在过去，PCI 总线作为连接外部设备的关键通道，随着线上业务和用户规模的急剧膨胀，其升级缓慢的弊端逐渐凸显，严重限制了 I/O 性能，成为整个系统效率提升的绊脚石。为打破这一僵局，英特尔、微软、SUN 等公司主导开发 “Next Generation I/O（NGIO）” 技术标准，IBM、康柏以及惠普公司则力推 “Future I/O（FIO）”，随后两大阵营合并，创立了 InfiniBand 贸易协会（IBTA），并于 2000 年发布了 InfiniBand 架构规范 1.0 版本。

InfiniBand 最大的亮点之一便是引入了 RDMA（Remote Direct Memory Access，远程直接内存访问）协议，这一创举极大地革新了数据传输模式。在传统 TCP/IP 数据传输中，数据需在核心内存与应用存储空间之间来回拷贝，路径冗长且繁琐，不仅增加了 CPU 的负担，还导致传输延迟居高不下。而 RDMA 就如同为数据传输开辟了一条 “高速公路”，其内核旁路机制允许应用与网卡直接进行数据读写，将服务器内的数据传输时延降低到接近 1 微秒，内存零拷贝机制更是绕开核心内存，大幅减轻 CPU 压力，让 CPU 得以从繁重的数据搬运工作中解脱出来，专注于核心计算任务，大大提升了数据传输效率。

从组网设备来看，Infiniband 网络主要由主机通道适配器（HCA）、交换机（Switch）、路由器（Router）和电缆（Cable）构成。HCA 安装在服务器或工作站中，是连接设备与 Infiniband 网络的桥梁；交换机用于连接多个 HCA 设备，凭借高吞吐量和低延迟特性，保障数据在网络内高效转发；路由器则负责连接不同的 Infiniband 子网，助力构建大规模复杂网络拓扑；电缆可选用光纤或铜缆，如常见的 QSFP 和 CXP 电缆，承担起设备间稳定的数据传输任务。

在网络拓扑方面，Infiniband 支持多种结构，以适应不同规模与应用场景的需求。单层拓扑结构简单直接，适用于小规模集群，所有节点通过一个或多个交换机直接互连，搭建便捷、成本较低；Fat-Tree 拓扑则是多级树形结构，核心层、汇聚层和接入层分工明确，通过多条并行路径实现高带宽与低延迟，同时具备出色的容错性和负载均衡能力，在大规模集群中应用广泛；3D Torus 拓扑呈三维环形，节点间紧密相连，数据可通过多条路径传输，为超大规模 HPC 集群提供了高带宽、低延迟的点对点通信保障；Dragonfly 拓扑作为超大规模网络结构的佼佼者，借助分层结构和全互连超级节点，极大地减少了网络跳数，实现了极高的带宽与低延迟，为大规模数据中心和超级计算机系统奠定坚实基础。

迈络思（Mellanox）在 Infiniband 领域堪称传奇。自成立加入 NGIO，到跟随合并进入 InfiniBand 阵营，2001 年推出首款产品，一路见证并推动着 Infiniband 的发展。在英特尔、微软先后退出的艰难时期，迈络思坚守阵地，通过一系列收购不断完善产业布局，从芯片到网卡、交换机、远程通信系统及线缆模块，构建起完整的产业链。2015 年，其在全球 InfiniBand 市场占有率高达 80%，成为行业领军者。2019 年，英伟达以 69 亿美元收购迈络思，二者强强联合，英伟达的 GPU 算力优势与迈络思的网络优势深度融合，为高性能计算集群打造出强劲的 “算力引擎” 。

GPU 池化管理：释放 GPU 算力潜能的智慧钥匙

随着人工智能的迅猛发展，各类 AI 应用如雨后春笋般涌现，对 GPU 算力的需求呈现指数级增长。然而，对于大多数企业而言，如何高效利用现有 GPU 资源，让其在新兴大模型与传统业务模型间灵活轮转复用，成为亟待解决的难题。

GPU 池化技术应运而生，它以 GPU 虚拟化为基石，突破了传统 GPU 虚拟化仅支持共享的局限，融合共享、聚合和远程使用等多元能力，致力于打造全能型软件定义 GPU，切实解决用户痛点。以英伟达 GPU 为例，应用涉及用户态、内核态和 GPU 硬件三个层次。用户态运行着各类使用英伟达 GPU 的应用程序，如人工智能计算、图形渲染等，英伟达提供 CUDA 运行库作为编程接口，应用通过 CUDA API 与 GPU 用户态驱动通信，进而与内核态驱动交互。

实现 GPU 池化管理主要有用户态虚拟化和内核态虚拟化两种技术路径。用户态虚拟化利用 CUDA、OpenGL、Vulkan 等公开标准化接口，通过拦截和转发 API 调用，解析被拦截函数后调用硬件厂商用户态库中的对应函数，还可借助 RPC 实现远程 API Remoting，让多个 GPU 服务器组成资源池供业务调用，实现 GPU 池化。其优势在于接口开放性和稳定性佳，运行于用户态可规避内核态复杂代码带来的安全隐患，对用户环境侵入性小、安全性高，即便出现故障也易隔离与恢复，但研发工作量较大。

内核态虚拟化则通过拦截内核态与用户态间的 ioctl、mmap、read、write 等接口实现 GPU 虚拟化。需在操作系统内核增加拦截模块，并创建模拟 GPU 设备文件，让应用程序访问虚拟化设备文件时，调用被内核拦截模块截获解析。该方案优点在于研发工作量相对较小，但因涉及内核层操作，存在一定安全风险，对系统稳定性有较高要求。

在实际应用中，GPU 池化管理可显著提升企业算力使用效率。比如在互联网企业，业务存在明显波峰波谷，白天用户访问量大，需大量 GPU 算力支撑推荐系统、图像识别等业务；夜间业务量下降，通过 GPU 池化技术，可将闲置 GPU 资源重新分配给后台数据处理、模型训练等任务，避免资源浪费，降低企业运营成本。

算力调度：智能调配算力资源的指挥中枢

算力调度，作为分布式、多计算节点环境下的关键技术，依据任务优先级、资源需求、实时负载等要素，动态调配计算资源，旨在实现系统性能与资源利用效率的最大化，广泛应用于云计算、大数据处理、边缘计算、人工智能模型训练等众多领域。

在云计算平台，如亚马逊 AWS、微软 Azure 和阿里云等，均运用高度智能化的调度算法实现资源动态调度与弹性扩展。当用户发起计算任务时，调度系统实时监测各计算节点的 CPU、GPU 利用率、内存状态、网络带宽等资源使用情况，结合任务对算力、存储、网络的需求，智能选择最合适的计算节点执行任务。若遇突发流量高峰，系统自动调配额外计算资源，保障服务稳定运行；流量低谷时，则回收闲置资源，降低能耗与成本。

算力调度涵盖算力感知、算力度量、算力路由、算网编排、算力交易等关键技术。算力感知是基础，通过在各计算节点部署传感器和监测软件，实时收集并向中央调度系统反馈全网算力资源信息，包括算力提供方的计算、存储、通信等资源，以及算力需求方的业务需求信息，为后续调度决策提供准确数据支撑。

算力度量对各计算节点算力资源进行量化评价，鉴于不同任务对算力资源需求各异，如深度学习模型训练侧重高 GPU 算力，数据分析任务对内存与 I/O 性能要求高，算力度量帮助调度系统精准识别适配的计算节点，优化资源利用。

算力路由作为核心技术之一，整合算力节点资源信息构建新型路由表，根据业务实际需求为任务规划最优路径。以自动驾驶汽车实时数据处理为例，算力路由依据车辆位置及附近数据中心算力状况，动态调整数据传输路径，确保行车安全系统低延迟、高可靠运行。

算网编排堪称算力调度的 “算网大脑”，基于算、网、数多元组合能力，对资源进行路径编排与路由选择，实现算力资源跨域协同。具备云原生编排、多量纲编排和运行态编排能力，能灵活应对复杂业务场景与资源动态变化。

算力交易则是一种新型商业模式，算力供需双方通过交易平台进行资源交易，平台基于可信交易体系，提供按需租赁、竞价交易、资源拍卖等多样交易方式，满足不同用户需求。

在英伟达与迈络思构建的强大算力基础设施之上，算力调度系统得以充分发挥效能。英伟达的 GPU 凭借卓越计算性能，为各类任务提供强大算力保障；迈络思的 Infiniband 网络确保数据在计算节点间高速、低延迟传输，二者协同，让算力调度系统能更高效地调配资源，加速任务执行，推动人工智能、大数据等前沿技术蓬勃发展。

Infiniband 组网、GPU 池化管理与算力调度技术相辅相成，在英伟达与迈络思等行业领导者的引领下，正不断推动算力基础设施向更高性能、更高效能、更智能化方向演进。随着技术的持续创新与融合，必将为各行业带来更多机遇与变革，助力人类社会迈向数字经济新时代。

AI服务器采购需求请点击这里：https://www.kuanheng168.com/product

算力中心建设与运营，请点击查看详细方案：https://www.kuanheng168.com/solutions

算力租赁需求请点击这里：https://www.kuanheng168.com/slzl

넶浏览量：0

新闻中心

探秘算力新基建：Infiniband 组网、GPU 池化管理与算力调度的协同变革，英伟达与迈络思的技术领航

Infiniband 组网：高性能计算网络的中流砥柱

GPU 池化管理：释放 GPU 算力潜能的智慧钥匙

算力调度：智能调配算力资源的指挥中枢

RTX PRO 5000 Blackwell：专业桌面算力巅峰，英伟达显卡总代宽恒科技赋能产业 AI 升级

桌面 AI 超级计算机，重构本地大模型开发新范式，宽恒科技赋能个人与中小企业 AI 创新

HTC VIVE Focus Vision 与 VIVE Cosmos 技术解析：XR 技术革新，宽恒科技赋能行业沉浸式应用

英伟达授权生态全解析：NPN、NVAIE 与 Elite 精英代理，宽恒科技引领产业算力服务升级

算力租赁、GPU 集群与 AI 服务器：英伟达生态驱动产业算力升级，宽恒科技赋能企业 AI 转型

RTX PRO 5000、英伟达 pro 5000、pro 5000 blackwell、英伟达显卡总代 —— 宽恒科技赋能专业桌面算力新巅峰