资讯头条

为什么说DPU是必然的选择

类别：行业资讯来源：本站发布于：2022-11-08 16:09 350 次阅读

数据处理单元或 I/O 处理单元的出现，或者任何你想称呼它的东西，都是由经济驱动和架构必要性驱动的。
与卸载方法相比，芯片正面临标线限制（ reticle limits ），网络和存储功能的 CPU 处理非常昂贵等挑战，这些事实结合起来使 DPU 成为可能。因为其出现能够更好地保护服务器工作负载，尤其是在多租户（multitenant）环境中，这使得 DPU 不可避免。而现在，这种卸载的经济性使 DPU变得非常可取。
Amazon Web Services 发明了 Nitro DPU，Google 与 Intel 合作创建“Mount Evans”IPU，AMD 收购了Xilinx 和 Pensando（两者都有 DPU）以及 Nvidia 收购 Mellanox Technology。他们这些动作背后的原因都是——DPU 正在成为网络中的控制点，并且越来越多地成为计算和存储的看门人，它是这些超大规模厂商和希望将 DPU 传播给大众的 IT 供应商的所有系统架构的中心。
我们有很多 DPU 理论和一些超大规模 DPU 实践，但正如我们过去抱怨的那样，我们没有很多数据可以显示 DPU 的成本/收益分析。Nvidia 听到了我们的抱怨，并使用其 BlueField-2 E 系列 DPU进行了一些分析，该 DPU 具有一对 100 Gb/sec 端口，与使用具有一对 100 Gb/sec 端口的常规 SmartNIC 相比。
鉴于世界电价的状况——欧洲的电价上涨速度快于北美，使用 DPU 所节省的电力或多或少。但根据 Nvidia 存储营销总监 John Kim 的说法，他将使用和不使用 DPU 的集群的价格/性能比较放在一起，即使在加利福尼亚普遍存在的每千瓦时 15 美分的情况下，在系统中添加 DPU随着核心从运行网络和存储功能的服务器节点中释放出来，通过服务器占用空间的缩减节省了电力，集群不仅为自己付出了代价。
Kim 整理的演示文稿展示了将 Open vSwitch (OVS) 从服务器上运行的管理程序卸载到 BlueField-2 DPU 的效果，然后另一个展示了爱立信从服务器 CPU 卸载的用户平面功能 (UPF) 工作负载一个 5G 基站到一个在机箱中运行的 DPU。在每种情况下，Nvidia 都计算了在 10,000 台机器的集群中为这些卸载添加 DPU 的效果，并且只计算了在加州电价下的电力节省。在这两种情况下，Nvidia 都会计算服务器上运行任一工作负载的内核数量、消耗的功率以及在 DPU 上运行所需的功率，然后计算节省的功率和较低的功率成本。三年任期。
以下是 OVS 卸载的性能提升和节能数据：
该基准测试在配备一对英特尔“Cascade Lake”至强 SP-6248 Gold 处理器的戴尔 PowerEdge R740 服务器上运行，这些处理器有 20 个内核，每个内核运行频率为 2.5 GHz，BlueField-2 DPU 和一对更适中的 25 Gb /sec 以太网端口。在服务器上运行 OVS 需要总共 80 个线程和 40 个内核中的 18 个线程和 9 个内核，这代表了机器固有计算能力的 22.5%，并且在理论上与总 150 瓦 CPU 瓦的份额相同，并且整个服务器的实际功率为 432 瓦。通过将 OVS 工作负载转移到 DPU，OVS 在运行时仅消耗 305 瓦，如果您将节省的电力分散到 10,000 个节点，那么三年节省的费用为 500 万美元。
重要的是，OVS 交换机的吞吐量从 20 Gb/秒变为接近 DPU 上两个端口的峰值理论性能，即 49 Gb/秒。有明显的性能优势，但这更像是获得网络固有的性能，不清楚这对实际应用程序性能有什么影响。这些 Xeon SP-6248 Gold 处理器的标价为 3,622 美元，因此这九个内核的价值为 814.50 美元，显然在服务器中所有其他组件中的份额为 22.5%。（我们不知道这台服务器的成本，所以我们不能确定多少钱。）
DPU 真正发挥作用的地方——目前可能是 IT 组织最迫切需要的——是在数据在服务器之间运行应用程序时以及从服务器到访问应用程序和数据的客户端设备时对数据进行加密。因此，Nvidia 创建了一个 IPSec 加密方案，用于加密应用程序的服务器端和客户端，以及将节省多少电量。看一看：
这组测试在配备一对英特尔“Ice Lake”至强 SP-830 处理器的服务器上运行，该处理器有 40 个内核，每个内核运行频率为 2.3 GHzm，BlueField-2 卡具有一对 100 GB/秒的以太网端口和 16 GB属于自己的存储。在此设置中，服务器端 IPSec 加密和解密消耗 6 个物理内核（占内核的 7.5%），而客户端需要更多的 20 个内核（或 25%）。我们不知道 CPU 和运行 IPSec 的 DPU 之间是否存在性能差异，但 Nvidia 确实计算了我们将负载卸载到 DPU 所节省的电量，这在三年内通过 10,000 个节点增加了 1420 万美元.
过去，当 DPU 制造商提出此类声明时，我们抱怨他们没有提供前后情景的直接成本，因此我们可以自己查看这些数字。因此，Kim 提供了一个表格，显示了假设的 10,000 个节点集群运行纯 CPU 和 DPU 卸载配置的详细成本。在这种情况下，Nvidia 正在保持非 IPSec 工作负载——这意味着集群应该做的真正工作——稳定，这意味着随着 DPU 从每台服务器的 80 个内核中释放 26 个内核，这意味着一个 DPU - 只有 8,200 台服务器的加速集群可以完成与在软件中运行 IPSec 的 10,000 台机器相同的工作。
至少在这种情况下，我们可以看到具有两个 100 GB/秒端口的 BlueField-2 E 系列 DPU 的增量成本为 1,500 美元，这可能意味着如果一个典型的双端口 SmartNIC 具有 2,500 美元的市场价格一对 100 Gb/秒的端口成本约为 1,000 美元。（Nvidia 不为其网络产品提供定价、OEM 或street 或制造商建议的零售价格。）
从这个比较中可以立即明显看出，为 10,000 个节点中的每一个节点添加 BlueField-2 DPU 在减少支持 IPSec 加密和解密工作负载所需的节点方面是有回报的。根据英伟达的计算，服务器硬件的资本支出实际上降低了 2.4%。
最重要的是，服务器电源节省了 1310 万美元，假设电源使用效率仅为 1.5，那么 DPU 带来的集群整合在数据中心的冷却方面又节省了 660 万美元。将资本支出和节电加起来，整个 shebang 在三年内节省了 2220 万美元。这节省了 15% 的总拥有成本——这还没有考虑到性能差异或数据中心不动产的节省或需要管理的服务器更少。
现在这是我们正在考虑的有趣部分。目前，钟摆正朝着分解和卸载的方向摆动，各种工作都从 CPU 转储到挂在 PCI-Express 总线上的各种加速器上。但正如Google和Amazon Web Services都指出的那样，片上系统 (SoC)，实际上是系统级封装 (SiP)，是新的插槽，随着我们在 2.5D 和 3D 方面做得越来越好当 UCI-Express 成为插槽内互连并且 DPU 被拉入 CPU、GPU 和 FPGA 的插槽以及作为独立单元时，请不要感到惊讶。为了低延迟而将电路紧密地封装在一起的需要可能需要这种重新集成。
但可以肯定地说，在未来的系统架构中，这些网络和存储访问以及虚拟化工作负载和安全功能将不会在 CPU 上完成——无论中央处理器这个术语意味着什么——。我们已经说过一段时间了，DPU 将成为系统架构的中心，分配对计算和存储的访问权限，而我们所知道的 CPU 应该被恰当地称为串行处理单元，具有fat、缓慢的内存。

上一篇：全球芯片销量出现自2020年初来首次出现萎缩！

下一篇：全球芯片销量出现自2020年初来首次出现萎缩！

处理器及微控制器

IC(集成电路)

传感器

五金、工具

电力半导体器件

单片机、电路板

资讯头条

为什么说DPU是必然的选择

相关新闻