迈络思与英伟达携手,以 IB 组网和 GPU 池化管理赋能算力调度新变革

创建时间:2025-04-02 09:54
在数字化转型的浪潮中,算力已成为驱动各行业创新发展的核心要素。随着人工智能、大数据、高性能计算等领域应用的不断深化,对算力的需求呈现出爆发式增长,且对算力的高效管理与灵活调配提出了更高要求。在此背景下,Infiniband 组网(IB 组网)、GPU 池化管理以及算力调度等技术成为构建先进计算基础设施的关键,而迈络思(Mellanox)与英伟达(NVIDIA)作为行业内的领军企业,正通过紧密合作,推动这些技术的创新发展与广泛应用。

在数字化转型的浪潮中,算力已成为驱动各行业创新发展的核心要素。随着人工智能、大数据、高性能计算等领域应用的不断深化,对算力的需求呈现出爆发式增长,且对算力的高效管理与灵活调配提出了更高要求。在此背景下,Infiniband 组网(IB 组网)、GPU 池化管理以及算力调度等技术成为构建先进计算基础设施的关键,而迈络思(Mellanox)与英伟达(NVIDIA)作为行业内的领军企业,正通过紧密合作,推动这些技术的创新发展与广泛应用。

Infiniband 组网:高性能计算网络的基石

Infiniband 是一种专为大规模并行计算系统设计的高性能、低延迟网络通信技术。其组网结构与常见的 Fat - Tree 拓扑类似,关键组件包括子网管理器(SM)、Infiniband 网卡、Infiniband 交换机和连接线缆。在数据传输过程中,Infiniband 采用链路级流控机制,有效防止发送过量数据导致的缓冲区溢出或数据丢包问题,确保数据传输的连续性和稳定性。同时,自适应路由技术能够依据每个数据包的具体情况进行动态路由选择,实现网络资源的实时优化和最佳负载均衡。

 

迈络思在 Infiniband 技术领域深耕多年,其产品广泛应用于数据中心、高性能计算集群等场景。早在 2010 年底,迈络思完成了对著名 Infiniband 交换机厂商 Voltaire 公司的收购,进一步巩固了其在 HPC、云计算、数据中心等市场的地位。通过不断的技术研发与创新,迈络思的 Infiniband 产品能够提供超高的端口密度和卓越的网络性能,为大规模集群系统提供了可靠的网络连接。

 

英伟达同样高度重视 Infiniband 技术在其产品生态中的应用。英伟达的 GPU 服务器与迈络思的 Infiniband 网络设备深度适配,例如英伟达的 ConnectX InfiniBand 主机网卡(HCA),可与迈络思的交换机等设备协同工作,提供超低延迟和超高吞吐量的数据传输能力。在人工智能模型训练场景中,大量的 GPU 需要进行频繁的数据交互,Infiniband 组网能够满足这种高带宽、低延迟的通信需求,确保模型训练过程的高效稳定进行。以大规模深度学习模型训练为例,基于 Infiniband 组网的计算集群能够显著缩短训练时间,提升训练效率,为 AI 技术的快速发展提供有力支撑。

GPU 池化管理:提升资源利用率的关键

随着人工智能应用的多样化发展,企业和科研机构对 GPU 资源的需求日益复杂。GPU 池化管理技术应运而生,它以 GPU 虚拟化为基础,突破了传统 GPU 虚拟化仅支持共享的限制,融合了共享、聚合和远程使用等多种能力,致力于打造全能型软件定义 GPU,以解决当前用户在 GPU 资源使用过程中的痛点。

 

对于大多数企业而言,充分利用现有 GPU 资源,实现其在新兴大模型与传统业务模型之间的充分轮转与复用,最大化发挥 GPU 效能,是当下的重要任务。与 CPU 不同,GPU 具有独特的生态特点与复杂性,实现 GPU 虚拟化并共享经济面临更多限制和更高难度。狭义的 GPU 虚拟化无法满足大模型所需的 GPU 按需灵活调度、多业务分时复用、任务排队与优先级设定以及业务热迁移等需求。

 

在 GPU 池化管理方面,市场上出现了多种技术方案,其中用户态 GPU 池化技术逐渐崭露头角。以英伟达的 GPU 应用架构为例,其分为用户态、内核态、GPU 硬件三个层次。用户态层运行着各种使用英伟达 GPU 的应用程序,如人工智能计算和图形渲染应用等,英伟达提供 CUDA 等用户态运行库作为编程接口。用户态虚拟化方案正是利用 CUDA 等标准接口,通过拦截和转发 API,对被拦截函数进行解析,再调用硬件厂商提供的用户态库中的相应函数,同时借助 RPC 方式实现远程 API Remoting,从而使 CPU 主机能够通过网络调用 GPU 主机的 GPU,将多个 GPU 服务器组成资源池,供多个 AI 业务调用,实现 GPU 池化。

 

一些企业推出的 GPU 池化产品,如趋动科技的 OrionX,通过在多台不同类型的 GPU 服务器上部署软件,构建统一的 GPU 资源池,实现了 GPU 资源的统一调度、灵活分配、弹性伸缩等云化能力。这种方式不仅提高了整个云和数据中心的 GPU 利用率,还提升了算法工程师的工作效率。例如,在一个拥有多台 GPU 服务器的企业数据中心中,通过 GPU 池化管理,可根据不同业务的实时需求,动态分配 GPU 资源,避免了部分 GPU 资源闲置,而部分业务因资源不足等待的情况,有效提升了资源利用率,降低了企业的硬件采购和运营成本。

算力调度:优化资源分配的核心机制

算力调度是在分布式、多计算节点的计算环境中,基于任务的优先级、资源需求、实时负载等因素,动态调配计算资源,以达到最佳系统性能和资源利用效率的过程。在当今复杂的计算环境中,算力调度广泛应用于云计算、大数据处理、边缘计算、人工智能模型训练等众多领域,是现代信息技术体系的重要组成部分。

 

迈络思和英伟达为算力调度提供了强大的技术支持。迈络思的软件协议栈 OFED(OpenFabrics Enterprise Distribution),为服务器和存储集群提供了低延迟和高带宽的通信能力,支持多种协议,如 MPI(Message Passing Interface)、Lustre/NFS over RDMA 等,这些协议在并行计算和数据存储访问中发挥着关键作用,为算力调度提供了良好的软件基础。英伟达则通过其强大的 GPU 计算能力以及相关的软件工具,如 NVIDIA Unified Fabric Manager(UFM)平台,帮助数据中心管理员高效地对 InfiniBand 网络基础设施进行调配、监控、管理和主动故障排查,从而更好地实现算力调度。

 

在实际应用中,以智能制造为例,企业可能需要在不同的生产环节中进行复杂的模拟计算和数据分析,通过算力调度技术,能够根据各环节的任务优先级和实时资源需求,将分布在不同地理位置的计算资源进行优化调度,提升生产效率,降低成本。在自动驾驶汽车的研发过程中,大量的传感器数据需要实时处理,算力调度能够确保这些数据处理任务被合理分配到具有合适算力的计算节点上,保证数据处理的实时性和准确性,为自动驾驶技术的安全性提供保障。

携手共进,开拓未来

迈络思与英伟达在 Infiniband 组网、GPU 池化管理和算力调度等领域的合作,为各行业的数字化转型和创新发展注入了强大动力。通过 Infiniband 组网提供的高速、稳定网络连接,GPU 池化管理实现的高效资源利用,以及算力调度达成的优化资源分配,企业和科研机构能够构建更加先进、灵活、高效的计算基础设施。

 

展望未来,随着技术的不断进步,迈络思和英伟达有望继续深化合作,在提升网络性能、优化 GPU 资源管理算法、增强算力调度的智能化水平等方面取得更多突破。例如,进一步优化 Infiniband 网络的拓扑结构和传输协议,提高网络的可扩展性和容错能力;研发更加智能的 GPU 池化管理策略,实现资源的精准分配和动态调整;利用人工智能和机器学习技术,让算力调度系统能够根据历史数据和实时业务变化,自动预测资源需求,实现更加智能、高效的资源调配。这些技术的持续创新与发展,将为人工智能、大数据、物联网等新兴技术的发展提供更坚实的支撑,助力各行业在数字化时代实现跨越式发展,开创更加美好的未来。

 

AI服务器采购需求请点击这里:https://www.kuanheng168.com/product

 

算力中心建设与运营,请点击查看详细方案:https://www.kuanheng168.com/solutions

 

算力租赁需求请点击这里:https://www.kuanheng168.com/slzl

浏览量:0

推荐文章

  • 专业图形与 AI 算力新标杆:NVIDIA RTX PRO 5000 Blackwell 深度解析

    作为英伟达基于全新 Blackwell 架构打造的旗舰专业显卡,RTX PRO 5000(Pro 5000 Blackwell) 以 48GB/72GB 超大 ECC GDDR7 显存、72 TFLOPS + 单精度算力与 MIG 多实例技术,重新定义专业工作站性能标准。从 3D 设计、影视渲染到本地大模型推理、工业仿真,它为专业创作者、AI 工程师与企业用户提供数据中心级算力;搭配英伟达完善的总代渠道体系,更让高性能专业显卡实现稳定供货、原厂技术与全链路服务保障,成为专业领域的首选生产力引擎。

    2 2026-04-08
  • 桌面 AI 超算新纪元:NVIDIA DGX Spark,把万亿次算力装进办公桌

    当 AI 大模型训练与推理不再局限于数据中心,NVIDIA DGX Spark以 “桌面 AI 超算” 的颠覆性定位,重新定义个人与团队的 AI 开发边界。作为英伟达首款面向桌面的 Grace Blackwell 架构超级计算机,它将1 PFLOPS(FP4)的万亿级 AI 算力、128GB 统一内存与全栈企业级软件浓缩于一台迷你主机中,让科研人员、开发者与企业团队无需依赖机房集群,在办公桌上即可运行、微调和推理千亿乃至万亿参数大模型,开启 “人人可用的超算” 时代。

    2 2026-04-08
  • XR 设备选型指南:PICO 与 HTC 四大旗舰深度对比

    当 XR(扩展现实)从概念走向产业落地,PICO NEO3、PICO 4 Ultra、HTC VIVE Focus Vision、HTC VIVE Cosmos 四款主流设备,分别代表了入门体验、消费级 MR、专业 PC VR 与灵活适配四大场景。本文从核心定位、硬件规格、体验场景及适用人群四个维度,帮你快速选对设备,实现沉浸式体验的精准落地。

    0 2026-04-08
  • 英伟达授权生态全景:从 NPN 到 Elite,构建 AI 算力的信任基石

    在 AI 算力竞争进入深水区的当下,企业对算力的需求已从 "可用" 转向 "可靠、合规、可规模化"。英伟达(NVIDIA)通过一套层层递进的授权体系,将自身技术优势与合作伙伴能力深度绑定,形成了覆盖硬件分销、软件赋能、解决方案交付的全栈生态。英伟达代理、NPN、NVAIE、NVIDIA AI Enterprise、数据中心解决方案授权及 Elite 精英级别代理,共同构成了企业获取顶级算力资源与技术服务的核心路径,每一个环节都承载着不同的价值与门槛,共同守护 AI 产业的算力底座安全。

    2 2026-04-08
  • 算力新基建:从 GPU 集群到英伟达 SuperPod,AI 时代的算力之巅

    当 AI 大模型从千亿迈向万亿参数、智能体应用全面渗透产业,算力已成为数字经济的核心生产资料。算力租赁、GPU 集群、AI 服务器构成现代 AI 算力的供给底座,而英伟达(NVIDIA)以全栈技术与 DGX SuperPod 为旗舰,重新定义了 AI 超算的标准,成为驱动全球算力革命的核心力量。

    2 2026-04-08
  • NVIDIA RTX PRO 5000 Blackwell:桌面 AI 超算级专业卡,总代渠道全解析

    当生成式 AI、多模态大模型从实验室走向企业办公场景,NVIDIA RTX PRO 5000(简称英伟达 Pro 5000)以 Blackwell 架构内核,成为专业工作站的核心算力引擎。它兼顾本地大模型微调、高精度 3D 渲染与实时仿真需求,搭配Pro 5000 Blackwell升级规格,配合英伟达官方授权总代体系,为企业、科研机构与专业创作者提供从硬件到渠道的全链路保障。

    2 2026-04-07