迈络思与英伟达携手，借 IB 组网、GPU 池化及算力调度打造高效计算架构

创建时间：2025-05-13 09:29

在当今数字化时代，数据量呈爆炸式增长，人工智能、大数据分析、高性能计算等领域对算力的需求也达到了前所未有的高度。为了满足这些严苛的需求，企业和科研机构不断探索更加高效、灵活的计算架构。其中，Infiniband 组网（IB 组网）、GPU 池化管理以及算力调度成为了构建强大计算能力的关键要素，而迈络思（Mellanox）与英伟达（NVIDIA）在这一领域的深度合作，正引领着行业的发展潮流。

Infiniband 组网：高带宽低延迟的网络基石

Infiniband 作为一种高性能的计算机网络技术，以其超高的带宽和极低的延迟，在高性能计算（HPC）和数据中心环境中占据了重要地位。与传统以太网相比，Infiniband 能够提供数量级上更高的传输速率，常见速率从 40 Gbps 起步，甚至可达 100 Gbps 及以上。这使得数据能够在服务器、存储设备以及其他网络节点之间高速流转，极大地提升了系统整体的数据处理效率。

迈络思在 Infiniband 领域堪称领军企业。其生产的 Infiniband 主机通道适配器（HCA）和网络交换机，被众多大型计算机系统和数据库厂商广泛应用于产品线中。通过精心设计的 HCA，服务器能够以极低的延迟连接到 Infiniband 网络，确保数据的快速输入与输出。而迈络思的交换机则具备卓越的吞吐量和极低的延迟特性，能够在大规模网络中高效地转发数据，维持网络的流畅运行。在一个典型的基于 Infiniband 的大规模数据中心网络中，迈络思的设备可以构建出复杂且高效的拓扑结构，如 Fat - Tree 拓扑。这种多级树形结构通过在不同交换机层次之间设置多条路径，不仅实现了高带宽的数据传输，还极大地增强了网络的容错能力和负载均衡性能。当部分链路或设备出现故障时，数据能够自动切换到其他可用路径，保障业务的连续性。同时，在高性能计算集群场景中，科研人员使用迈络思的 Infiniband 设备构建集群网络，能够让计算节点之间实现高速通信，大幅缩短大规模并行计算任务的执行时间，助力诸如基因测序、天气预报模拟等对计算速度要求极高的科研项目取得进展。

英伟达也积极拥抱 Infiniband 技术。其在自家的计算产品中对 Infiniband 网络提供了深度优化和支持。例如，英伟达的 GPU 服务器通过与迈络思的 Infiniband 设备配合，能够实现 GPU 之间以及 GPU 与服务器其他组件之间的高速数据交互。在深度学习模型训练过程中，大量的数据需要在 GPU 之间频繁传输进行并行计算，Infiniband 网络的高速特性能够显著减少数据传输带来的时间损耗，使得模型训练能够更快收敛，大大提高了训练效率。

GPU 池化管理：资源优化利用的利器

随着人工智能的蓬勃发展，企业对 GPU 的需求急剧增长。然而，传统的 GPU 使用方式往往存在资源利用率不高的问题。许多企业在不同时间段、不同业务场景下对 GPU 的需求差异较大，这就导致部分 GPU 在某些时段处于闲置状态，造成了资源浪费和成本增加。GPU 池化管理技术应运而生，它以 GPU 虚拟化为基础，突破了传统 GPU 虚拟化只能支持共享的限制，融合了共享、聚合和远程使用等多种能力，将分散的 GPU 资源整合为一个统一的资源池，实现了 GPU 资源的高效管理和灵活调配。

在用户态 GPU 池化技术方面，以英伟达的 GPU 为例，其应用架构从上至下分为用户态、内核态、GPU 硬件三个层次。用户态虚拟化利用 CUDA、OpenGL、Vulkan 等标准接口，通过对 API 进行拦截和转发，并结合 RPC 技术实现远程 API Remoting，从而让 CPU 主机能够通过网络调用 GPU 主机的 GPU，多个 GPU 服务器得以组成资源池供 AI 业务调用。这种方式具有接口开放性好、部署对用户环境侵入性小、安全性高等优点。例如，趋动科技的 OrionX GPU 池化产品以及 VMware 的 Bitfusion 产品，就是基于用户态虚拟化技术实现的，它们能够帮助企业在不同业务之间灵活分配 GPU 资源，提升资源利用率。

内核态虚拟化则通过拦截内核态与用户态之间的 ioctl、mmap、read、write 等接口来实现 GPU 虚拟化。国内的 qGPU 和 cGPU 方案就工作在这一层。这种方案具有一定灵活性，在 GPU 共享的同时具备不错的隔离能力，且研发工作量相对较小。不过，由于需要在内核态层插入文件，存在侵入性大、易引入安全隐患等缺点，并且因英伟达 GPU 内核态驱动相关接口闭源，第三方厂商实现存在法律风险和不确定性。

通过 GPU 池化管理，企业可以根据业务的实时需求，动态地从资源池中分配和回收 GPU 资源。在白天业务高峰期，面向客户的 AI 推理服务可能需要大量的 GPU 资源来快速响应用户请求，此时可以从池中调配更多的 GPU 给推理业务；而在夜间，当推理业务需求降低，资源池可以将闲置的 GPU 重新分配给后台的模型训练任务，实现了 GPU 资源在不同业务场景之间的高效轮转和复用，降低了企业的硬件采购成本和运维复杂度。

算力调度：智能调配资源的核心引擎

算力调度是在分布式、多计算节点的计算环境中，基于任务的优先级、资源需求、实时负载等因素，动态调配计算资源以达到最佳系统性能和资源利用效率的过程。在一个融合了 Infiniband 组网和 GPU 池化管理的复杂计算环境中，算力调度扮演着至关重要的角色，如同指挥交通的交警，确保计算资源的高效流通和合理使用。

算力调度的核心技术包括算力感知、算力度量、算力路由、算网编排和算力交易等。算力感知通过在各个计算节点部署传感器和监测软件，实时收集 CPU、GPU 利用率、内存状态等关键资源信息，并反馈到中央调度系统，为后续的调度决策提供准确的数据基础。算力度量则是在感知的基础上，对各计算节点的算力资源进行量化评价，以便调度系统能够快速、准确地识别最合适的计算节点来处理不同类型的任务。例如，深度学习模型训练需要高 GPU 算力，而数据分析任务更侧重于内存与 I/O 性能，通过算力度量，调度系统能够精准匹配任务与资源。

算力路由根据实际业务需求和网络状态，为任务分配最优路径，确保数据能够高效传输。在算网编排方面，它作为算力调度的 “算网大脑”，基于算、网、数的多元组合能力，实现资源的路径编排和路由选择，保障算力资源跨域协同。而算力交易则为算力提供方和需求方搭建了交易平台，通过按需租赁、竞价交易等多种方式，促进算力资源的合理流通和价值实现。

在实际应用场景中，例如在大型互联网企业的 AI 计算平台中，每天会有海量的用户请求需要进行 AI 推理，同时还有持续的模型训练任务在后台运行。通过算力调度技术，平台可以根据实时的任务负载情况，将推理任务优先分配到距离用户网络延迟低且当前 GPU 资源较为空闲的计算节点上，以确保用户能够得到快速响应；而对于模型训练任务，则根据其对计算资源的长期需求，合理调配具有高计算性能和稳定性的 GPU 资源，并安排在网络带宽充足的节点上，保证训练过程的高效和稳定。这样，通过智能的算力调度，企业能够充分发挥 Infiniband 组网和 GPU 池化管理带来的优势，提升整个计算平台的性能和资源利用率。

迈络思和英伟达在算力调度领域也发挥着重要作用。迈络思的网络设备与英伟达的计算产品紧密结合，为算力调度提供了坚实的硬件基础。英伟达凭借其在 GPU 计算领域的深厚技术积累，开发了一系列与算力调度相关的软件工具和算法，能够更好地协同 GPU 资源参与到整体的算力调度体系中。例如，英伟达的某些软件套件可以与企业的算力调度平台深度集成，根据 GPU 的实时性能状态和任务的资源需求，为调度系统提供更精准的资源分配建议，优化任务在 GPU 上的执行效率。

迈络思与英伟达通过 Infiniband 组网、GPU 池化管理以及算力调度等技术的协同应用，为企业和科研机构打造了一个高效、灵活的计算架构。这不仅有助于提升计算资源的利用率，降低成本，还为人工智能、大数据分析等前沿领域的发展提供了强大的技术支撑，推动着整个行业不断向前迈进，在未来的数字化竞争中占据优势地位。

AI服务器采购需求请点击这里：https://www.kuanheng168.com/product

算力中心建设与运营，请点击查看详细方案：https://www.kuanheng168.com/solutions

算力租赁需求请点击这里：https://www.kuanheng168.com/slzl

넶浏览量：0

新闻中心

迈络思与英伟达携手，借 IB 组网、GPU 池化及算力调度打造高效计算架构

Infiniband 组网：高带宽低延迟的网络基石

GPU 池化管理：资源优化利用的利器

算力调度：智能调配资源的核心引擎

RTX PRO 5000 Blackwell：专业桌面算力巅峰，英伟达显卡总代宽恒科技赋能产业 AI 升级

桌面 AI 超级计算机，重构本地大模型开发新范式，宽恒科技赋能个人与中小企业 AI 创新

HTC VIVE Focus Vision 与 VIVE Cosmos 技术解析：XR 技术革新，宽恒科技赋能行业沉浸式应用

英伟达授权生态全解析：NPN、NVAIE 与 Elite 精英代理，宽恒科技引领产业算力服务升级

算力租赁、GPU 集群与 AI 服务器：英伟达生态驱动产业算力升级，宽恒科技赋能企业 AI 转型

RTX PRO 5000、英伟达 pro 5000、pro 5000 blackwell、英伟达显卡总代 —— 宽恒科技赋能专业桌面算力新巅峰