迈络思与英伟达携手，以 IB 组网和 GPU 池化管理赋能算力调度新变革

创建时间：2025-04-02 09:54

在数字化转型的浪潮中，算力已成为驱动各行业创新发展的核心要素。随着人工智能、大数据、高性能计算等领域应用的不断深化，对算力的需求呈现出爆发式增长，且对算力的高效管理与灵活调配提出了更高要求。在此背景下，Infiniband 组网（IB 组网）、GPU 池化管理以及算力调度等技术成为构建先进计算基础设施的关键，而迈络思（Mellanox）与英伟达（NVIDIA）作为行业内的领军企业，正通过紧密合作，推动这些技术的创新发展与广泛应用。

Infiniband 组网：高性能计算网络的基石

Infiniband 是一种专为大规模并行计算系统设计的高性能、低延迟网络通信技术。其组网结构与常见的 Fat - Tree 拓扑类似，关键组件包括子网管理器（SM）、Infiniband 网卡、Infiniband 交换机和连接线缆。在数据传输过程中，Infiniband 采用链路级流控机制，有效防止发送过量数据导致的缓冲区溢出或数据丢包问题，确保数据传输的连续性和稳定性。同时，自适应路由技术能够依据每个数据包的具体情况进行动态路由选择，实现网络资源的实时优化和最佳负载均衡。

迈络思在 Infiniband 技术领域深耕多年，其产品广泛应用于数据中心、高性能计算集群等场景。早在 2010 年底，迈络思完成了对著名 Infiniband 交换机厂商 Voltaire 公司的收购，进一步巩固了其在 HPC、云计算、数据中心等市场的地位。通过不断的技术研发与创新，迈络思的 Infiniband 产品能够提供超高的端口密度和卓越的网络性能，为大规模集群系统提供了可靠的网络连接。

英伟达同样高度重视 Infiniband 技术在其产品生态中的应用。英伟达的 GPU 服务器与迈络思的 Infiniband 网络设备深度适配，例如英伟达的 ConnectX InfiniBand 主机网卡（HCA），可与迈络思的交换机等设备协同工作，提供超低延迟和超高吞吐量的数据传输能力。在人工智能模型训练场景中，大量的 GPU 需要进行频繁的数据交互，Infiniband 组网能够满足这种高带宽、低延迟的通信需求，确保模型训练过程的高效稳定进行。以大规模深度学习模型训练为例，基于 Infiniband 组网的计算集群能够显著缩短训练时间，提升训练效率，为 AI 技术的快速发展提供有力支撑。

GPU 池化管理：提升资源利用率的关键

随着人工智能应用的多样化发展，企业和科研机构对 GPU 资源的需求日益复杂。GPU 池化管理技术应运而生，它以 GPU 虚拟化为基础，突破了传统 GPU 虚拟化仅支持共享的限制，融合了共享、聚合和远程使用等多种能力，致力于打造全能型软件定义 GPU，以解决当前用户在 GPU 资源使用过程中的痛点。

对于大多数企业而言，充分利用现有 GPU 资源，实现其在新兴大模型与传统业务模型之间的充分轮转与复用，最大化发挥 GPU 效能，是当下的重要任务。与 CPU 不同，GPU 具有独特的生态特点与复杂性，实现 GPU 虚拟化并共享经济面临更多限制和更高难度。狭义的 GPU 虚拟化无法满足大模型所需的 GPU 按需灵活调度、多业务分时复用、任务排队与优先级设定以及业务热迁移等需求。

在 GPU 池化管理方面，市场上出现了多种技术方案，其中用户态 GPU 池化技术逐渐崭露头角。以英伟达的 GPU 应用架构为例，其分为用户态、内核态、GPU 硬件三个层次。用户态层运行着各种使用英伟达 GPU 的应用程序，如人工智能计算和图形渲染应用等，英伟达提供 CUDA 等用户态运行库作为编程接口。用户态虚拟化方案正是利用 CUDA 等标准接口，通过拦截和转发 API，对被拦截函数进行解析，再调用硬件厂商提供的用户态库中的相应函数，同时借助 RPC 方式实现远程 API Remoting，从而使 CPU 主机能够通过网络调用 GPU 主机的 GPU，将多个 GPU 服务器组成资源池，供多个 AI 业务调用，实现 GPU 池化。

一些企业推出的 GPU 池化产品，如趋动科技的 OrionX，通过在多台不同类型的 GPU 服务器上部署软件，构建统一的 GPU 资源池，实现了 GPU 资源的统一调度、灵活分配、弹性伸缩等云化能力。这种方式不仅提高了整个云和数据中心的 GPU 利用率，还提升了算法工程师的工作效率。例如，在一个拥有多台 GPU 服务器的企业数据中心中，通过 GPU 池化管理，可根据不同业务的实时需求，动态分配 GPU 资源，避免了部分 GPU 资源闲置，而部分业务因资源不足等待的情况，有效提升了资源利用率，降低了企业的硬件采购和运营成本。

算力调度：优化资源分配的核心机制

算力调度是在分布式、多计算节点的计算环境中，基于任务的优先级、资源需求、实时负载等因素，动态调配计算资源，以达到最佳系统性能和资源利用效率的过程。在当今复杂的计算环境中，算力调度广泛应用于云计算、大数据处理、边缘计算、人工智能模型训练等众多领域，是现代信息技术体系的重要组成部分。

迈络思和英伟达为算力调度提供了强大的技术支持。迈络思的软件协议栈 OFED（OpenFabrics Enterprise Distribution），为服务器和存储集群提供了低延迟和高带宽的通信能力，支持多种协议，如 MPI（Message Passing Interface）、Lustre/NFS over RDMA 等，这些协议在并行计算和数据存储访问中发挥着关键作用，为算力调度提供了良好的软件基础。英伟达则通过其强大的 GPU 计算能力以及相关的软件工具，如 NVIDIA Unified Fabric Manager（UFM）平台，帮助数据中心管理员高效地对 InfiniBand 网络基础设施进行调配、监控、管理和主动故障排查，从而更好地实现算力调度。

在实际应用中，以智能制造为例，企业可能需要在不同的生产环节中进行复杂的模拟计算和数据分析，通过算力调度技术，能够根据各环节的任务优先级和实时资源需求，将分布在不同地理位置的计算资源进行优化调度，提升生产效率，降低成本。在自动驾驶汽车的研发过程中，大量的传感器数据需要实时处理，算力调度能够确保这些数据处理任务被合理分配到具有合适算力的计算节点上，保证数据处理的实时性和准确性，为自动驾驶技术的安全性提供保障。

携手共进，开拓未来

迈络思与英伟达在 Infiniband 组网、GPU 池化管理和算力调度等领域的合作，为各行业的数字化转型和创新发展注入了强大动力。通过 Infiniband 组网提供的高速、稳定网络连接，GPU 池化管理实现的高效资源利用，以及算力调度达成的优化资源分配，企业和科研机构能够构建更加先进、灵活、高效的计算基础设施。

展望未来，随着技术的不断进步，迈络思和英伟达有望继续深化合作，在提升网络性能、优化 GPU 资源管理算法、增强算力调度的智能化水平等方面取得更多突破。例如，进一步优化 Infiniband 网络的拓扑结构和传输协议，提高网络的可扩展性和容错能力；研发更加智能的 GPU 池化管理策略，实现资源的精准分配和动态调整；利用人工智能和机器学习技术，让算力调度系统能够根据历史数据和实时业务变化，自动预测资源需求，实现更加智能、高效的资源调配。这些技术的持续创新与发展，将为人工智能、大数据、物联网等新兴技术的发展提供更坚实的支撑，助力各行业在数字化时代实现跨越式发展，开创更加美好的未来。

AI服务器采购需求请点击这里：https://www.kuanheng168.com/product

算力中心建设与运营，请点击查看详细方案：https://www.kuanheng168.com/solutions

算力租赁需求请点击这里：https://www.kuanheng168.com/slzl

넶浏览量：0

新闻中心

迈络思与英伟达携手，以 IB 组网和 GPU 池化管理赋能算力调度新变革

Infiniband 组网：高性能计算网络的基石

GPU 池化管理：提升资源利用率的关键

算力调度：优化资源分配的核心机制

携手共进，开拓未来

RTX PRO 5000 释放 AIGC 生产力，宽恒科技硬件方案赋能 AI 短剧工业化生产

DGX Spark 推动算力下沉，宽恒科技本地部署大模型方案破解企业数据安全难题

企业级 MR 生产力优选，宽恒科技 PICO 4 Ultra 企业版采购方案推荐

官方授权赋能企业 AI 转型，宽恒科技 NVIDIA 代理服务与 NVIDIA AI Enterprise 全栈价值解读

弹性算力赋能 AI 产业升级，宽恒科技算力租赁、AI 服务器租赁与大模型部署全栈方案落地

RTX PRO 5000 专业工作站算力加持，宽恒科技打造 AI 短剧全链路 AIGC 制作方案