2024-07-31
AI 训练的加速器数量与算力互联网络的关系

Marvell 认为,如果以 2023 年为分水岭,AI 算力集群的互联网带宽在之前年份大约每隔 4 年会翻倍;而之后年份会提升到每隔 2 年翻倍。

带宽速度是一方面,互联的连接数量也会急剧增加。ChatGPT 在 GPT-3 模型训练时,大约使用了 1,000 个加速器的集群,这需要大约 2,000 个光纤互联连接;而 GPT-4 模型的训练则需要使用 2.5 个加速器的 GPU 集群,这需要大约 7.5 万个光纤互联连接。

光纤互联的连接增长速度将比 XPU/GPU 要块,比例达到 5:1,甚至 10:1。

2024-07-31
完整的云端 AI 涉及到的四类互联网络

AI 算力更多集中在云端是目前的主流情况。而一套完整的云端 AI 涉及到哪些用于互联的网络呢?

Marvell 在下图做了一个归纳,其认为一共包括四类网络:

(1) Compute fabric(计算架构):连接服务器内的 AI 加速器、GPU、CPU 和其他组件。该架构设计用于在短距离内高速运行,通常依赖于使用 PCIe 或 NVLink 等专有接口的铜线

(2) Backend network(后端网络):使用多层互连的网络交换机和光模块将上述服务器连接成 AI 集群。网络协议包括 InfiniBand 或以太网。

(3) Frontend

2024-02-20
从字节上线首款自研交换机思考 Hyperscaler 的内部产品商业化

大型互联网公司(Hyperscaler)搞自研的交换机和路由器的历史有十多年了。比如,Google B4 网络的系列软件和硬件。

大型互联网公司自研数据通信设备的核心驱动力:(1) 可以开发一些高级特性,更适合公司自己的流量模型;(2) 降低对品牌设备商的采购成本。(一般而言,采用白牌厂的设备 + 自研的软件,部分关键部件自研或定制,可有效降低成本)。

一个观察就是,即便这些自研设备如何 “先进”,十几年过去了,还没有看到互联网公司能对外商业化成功过。

也许有声音认为,这不是互联网公司的主业。但这个说法站不住脚,大型互联网公司在各种行业试探深入是常态,各种新