迎接人工智能变革:人工智能如何彻底颠覆网络领域
2023 年 8 月 15 日
作者:瞻博网络首席执行官 Rami Rahim
我清楚记得自己意识到人工智能终将改变一切的那个时刻。
五年前的一天,Mist Systems 的创始人(当时还是我们的技术合作伙伴)来到我们的办公室一起探索商机。当时他提出了一个开创性的想法,那就是打造一款由人工智能驱动的网络平台,在用户发现问题之前自动排除故障并解决问题。
这一切听上去都非常不错。但由于若干年来人工智能一直都是热门词汇,我还是对它的潜力持怀疑态度,直到我亲眼见证了 Mist 运行的人工智能,我的想法才发生了改变。事实上,我们自己的 IT 团队已经从正在运行的试验部署项目中感受到了 Mist 带来的影响。得益于无可比拟的准确度和速度,这款平台可以实时进行自我诊断并修复问题。
在那一刻我深刻意识到了人工智能对瞻博网络乃至整个世界的重要意义。
众所周知,我们的 AIOps 平台已成为瞻博网络的战略打下了坚实基础。当行业中的其他对手还在不断讨论人工智能时,我们已拥有业界领先的第 7 代人工智能技术,这项技术彻底改变了网络领域,并为提供卓越用户体验铺平了道路。某跨国软件公司的全球故障工单量减少了 90%,另一家跨国零售商的到店维修率下降了 85%。更有某国家级移动运营商以有史以来最快的速度完成了分支机构网络部署。
我们的人工智能驱动型 Mist 平台已然成为改变行业格局的开创性产品,势必为数以千计的组织带来积极影响。
而这仅仅是开始而已。
在见证了 Mist 的成功之后,我们意识到人工智能应用的大规模爆发只是时间问题,AI 模型和数据中心规模的扩展亦是如此。
这就是瞻博网络更加关注的方面。
AI 数据中心:致力于人工智能变革
很久之前,硅谷的公司发现他们为游戏用例打造的图形处理器 (GPU) 非常适合由人工智能执行的学习和推理工作负载。
然而,单一 GPU 在进行人工智能处理时能力有限。现代化 AI/ML 群集由数百乃至数千个 GPU 构成,这些 GPU 可提供训练当今 AI 模型所需的大规模并行计算能力。
当然,正是网络将这些 GPU 联系在一起,使其能够以极致强大的单一人工智能处理系统进行运作。
此前,包括云、移动互联网或流媒体服务在内的技术革命已将网络推向全新高度,但分布式机器学习工作负载在数据中心产生的流量水平使大多数其他应用相形见绌。各种人工智能需求需要传输大型数据集,以及解决数十亿(甚至数万亿)模型参数,这给网络带来了前所未有的压力。
从客观角度来看:我们会看到,在客户寻求的那些以最高性能部署的典型 GPU 群集中,其每秒通过的网络流量大致相当于美国的所有互联网流量。想要理解 AI 数据中心的经济性,首先需要知道每台 GPU 服务器的成本可能高达 40 万美元。因此,实现 GPU 利用率最大化,并使 GPU 空闲时间最小化,才是 AI 数据中心设计最需要考虑的一项驱动因素。
想要在 GPU 之间分配工作负载,然后进行同步来训练 AI 模型,就需要部署新型网络,这种网络可以加快“任务完成时间”(JCT),并缩短系统等待最后一个 GPU 完成计算的时间(即“尾延迟”)。
因此,针对 AI/ML 优化的数据中心网络必须在拥塞管理、负载平衡、延迟,以及最重要的 JCT 最小化方面具备特殊功能。这些都是瞻博网络多年来所擅长的系统特性。随着模型规模和数据集不断增长,ML 从业者必须在其群集中纳入更多 GPU。网络交换矩阵应当支持无缝扩展,而不会影响性能或造成通信瓶颈。
作为一名职业工程师,我的职业生涯始于瞻博网络构建高度专业化的 ASIC 之时,这些 ASIC 推动了 90 年代互联网的快速发展。多来年,我一直身处创新周期的最前沿,而这些创新周期使我们的行业能够将规模、性能和速度推升至全新高度。
人工智能网络代表了载难逢的转折点,在未来几年将为我们带来复杂的技术挑战。我也相信,瞻博网络具备赋能未来的实力。对我们来说,坚持我所提倡的 AI 数据中心网络三要素至关重要:
1. 出色的性能
实现 GPU 利用率最大化是 AI 模型训练中的首要经济因素,其需要一种针对 JCT 进行优化,并可将尾延迟降至最低的网络。更快速的模型训练意味着更快的结果,但也需要更低成本的数据中心和优化程度更高的计算资源。
从创立之日开始,瞻博网络便致力于摆脱芯片限制,这一承诺为客户提供了不同的选择,从而针对能效和规模等各种因素优化主干、分叶和数据中心互连。我们提供基于第三方和内部设计芯片的广泛系统组合,这些系统在为全球最大的网络提供动力,同时还为处于不同人工智能转型阶段的客户提供灵活性,帮助他们满足不同的需求并消除限制。
2. 开放式基础架构
性能至关重要,这也是所有人都在加大性能投入的原因所在。但后来经济效益逐渐占据上风。经济效益是由竞争所驱动,而竞争则由开放性所驱动。我们此前在行业中已见证过这种规律。我敢打赌,以太网会最终会再次胜出。开放平台能够充分带动创新。并不是说专有技术没有发挥作用,事实是很少有哪一家单纯的技术供应商能在创新方面全面超越市场上的其他参与者。在面临诸多风险的环境中,这种情况根本不会发生。瞻博网络是以太网标准及其强大供应商生态系统的坚定支持者,其中包括全新的 Ultra Ethernet Consortium(超以太网联盟),这样可以推动降本、促进创新,并最终取代 InfiniBand 等专有技术。
在这个庞大的以太网生态系统中,瞻博网络与其他各方携手,不断实现网络技术创新,以期加速数据传输、提供无损传输并改善拥塞控制,而这是推动人工智能变革的关键方面。
3. 体验至上的运维
数据中心网络正变得越来越复杂,企业必须将新协议添加到交换矩阵,才能满足 AI 工作负载的性能需求。虽然复杂性将持续上升,但基于意图的自动化功能可以保护网络运维人员免受复杂性影响。瞻博网络会秉持多供应商与运维优先的原则来提供数据中心运维方案。我们正在为 Junos 系统和 Apstra 数据中心交换矩阵管理与自动化解决方案添加 AI 群集扩展项。顺便提一下,Apstra 是业界唯一支持多供应商环境的平台。因为如果在第一次购买后就被供应商锁定,那还有什么意义呢?
开弓没有回头箭,人工智能的时代业已到来。
瞻博网络已经证明了人工智能在简化有线、无线和广域网管理方面的关键作用,这项技术可以显著改善最终用户体验以及网络运维人员的日常工作。但机器学习和大语言模型正在给网络带来巨大压力,要求我们必须持续创新并攻克新的挑战。
诚然,这些挑战将会非常棘手。但解决全球最棘手问题一直是瞻博网络前进的动力。我们的目标是以任何可行的方式为互联提供动力,并为变革赋能。我们将发扬性能方面的优良传统,继续秉持体验至上的运维理念。
我坚信,瞻博网络采用的数据中心网络方案会将人工智能推向繁荣发展的新时代。