云HPC時(shí)代已至 NVIDIA如何驅(qū)動(dòng)數(shù)據(jù)中心網(wǎng)絡(luò)運(yùn)作
云計(jì)算、AI、5G等技術(shù)的發(fā)展正在改變整個(gè)世界的面貌,作為承載這些新興技術(shù)的基礎(chǔ)設(shè)施,數(shù)據(jù)中心也在面臨來(lái)自各個(gè)維度的壓力,微觀角度來(lái)看,近幾年摩爾定律的失速正使得CPU性能增長(zhǎng)的邊際成本急劇上升。有數(shù)據(jù)表明,CPU性能的年化增長(zhǎng)率已不足每年5%,但人們對(duì)于計(jì)算性能的需求依然居高不下,這使得云和通信服務(wù)商必須不斷耗費(fèi)高昂的成本來(lái)對(duì)基礎(chǔ)設(shè)施進(jìn)行升級(jí)和維護(hù),以滿足算力需求。而從宏觀角度來(lái)看,隨著AI的惠普,超級(jí)計(jì)算中心也正在為越來(lái)越多的用戶開放,如何為數(shù)以百萬(wàn)計(jì)的客戶提供高效的超級(jí)計(jì)算服務(wù)也成為了云服務(wù)提供商需要考慮的問題。
在此背景下,為CPU減負(fù)成為了降本增效,提高效率的有效手段。要知道,現(xiàn)在除了主內(nèi)存和輔助內(nèi)存之外的所有計(jì)算都是在CPU上完成的,面對(duì)超大規(guī)模數(shù)據(jù)處理的需求,CPU的算力已經(jīng)達(dá)到瓶頸,盡可能地從CPU內(nèi)核中卸載虛擬化、容器化、安全化工作負(fù)載的繁瑣開銷,一方面是對(duì)CPU性能價(jià)值的充分釋放,另一方面也是對(duì)數(shù)據(jù)處理與存儲(chǔ)等工作負(fù)載的更好平衡。
芯片巨頭們都看到了這樣的需求和趨勢(shì),近幾年來(lái)在數(shù)據(jù)中心領(lǐng)域占據(jù)較大優(yōu)勢(shì)的NVIDIA先是在前年發(fā)布了首代DPU BlueField-2,然后又在去年的GTC21宣布了NVIDIA的芯片戰(zhàn)略正式升級(jí)為CPU+GPU+DPU,足見NVIDIA對(duì)DPU市場(chǎng)的重視。
但DPU的作用,絕不僅僅是替CPU減負(fù)這么簡(jiǎn)單。當(dāng)下的數(shù)據(jù)中心雖然足夠靈活,但其基礎(chǔ)架構(gòu)就會(huì)對(duì)CPU造成極大的開銷,過去以CPU為中心的數(shù)據(jù)中心已經(jīng)無(wú)法滿足靈活性與高性能的雙重需求,換言之,過去在計(jì)算規(guī)模和數(shù)據(jù)量較小的情況下,僅憑馮諾依曼架構(gòu)就能解決提高性能的問題,而在當(dāng)下數(shù)據(jù)量越來(lái)越大,云計(jì)算、AI火熱發(fā)展的情況下,傳統(tǒng)的計(jì)算模型十分容易造成網(wǎng)絡(luò)擁塞,反而加重?cái)?shù)據(jù)中心的負(fù)擔(dān)。
因此,DPU一方面能針對(duì)安全、存儲(chǔ)、網(wǎng)絡(luò)、AI、HPC等業(yè)務(wù)進(jìn)行加速,為以后迫在眉睫的E級(jí)計(jì)算鋪平了道路,另一方面則為數(shù)據(jù)中心的計(jì)算架構(gòu)提供了全新的思路,以實(shí)現(xiàn)過去無(wú)法實(shí)現(xiàn)的功能。
今年的GTC大會(huì)上,NVIDIA則帶來(lái)了新一代InfiniBand網(wǎng)絡(luò)平臺(tái)Quantum-2和全新升級(jí)的DOCA 1.2。前者是迄今為止最先進(jìn)的端到端高性能網(wǎng)絡(luò)平臺(tái),憑借其云原生技術(shù),可提供每秒400Gb/s的高吞吐量和先進(jìn)的多租戶支持功能,可滿足眾多企業(yè)的要求;后者則支持了云原生架構(gòu),開發(fā)者可借助DOCA將加速安全作為一項(xiàng)服務(wù)進(jìn)行部署。
NVIDIA Quantum-2平臺(tái)即新一代400Gbps InfiniBand網(wǎng)絡(luò)平臺(tái),包括NVIDIA Quantum-2交換機(jī)、ConnectX-7網(wǎng)卡、BlueField-3數(shù)據(jù)處理器(DPU)和支持新架構(gòu)的軟件,可為云計(jì)算提供商和超級(jí)計(jì)算中心提供極致的性能、廣泛的接入能力和強(qiáng)大的安全性,助力AI、數(shù)據(jù)分析和高性能計(jì)算應(yīng)用,并提供安全性和QoS 保證。
整體來(lái)看,憑借每端口高達(dá)400Gbps的吞吐量,NVIDIA Quantum-2 InfiniBand可在增加三倍網(wǎng)絡(luò)端口數(shù)量的基礎(chǔ)上將網(wǎng)速提高一倍,并把數(shù)據(jù)中心網(wǎng)絡(luò)所需的交換機(jī)減少了6倍,降低了數(shù)據(jù)中心7%的能耗與空間;此外,NVIDIA Quantum-2平臺(tái)可實(shí)現(xiàn)多租戶之間的性能隔離,因此一個(gè)租戶的行為并不會(huì)影響到其他租戶,同時(shí)通過利用主動(dòng)遙測(cè)和支持云原生的擁塞控制機(jī)制,可確保可靠的數(shù)據(jù)吞吐量,且不受用戶或應(yīng)用需求高峰的影響。
不僅如此,NVIDIA Quantum-2內(nèi)置的SHARPv3網(wǎng)絡(luò)計(jì)算技術(shù)可為AI應(yīng)用提供超出上一代產(chǎn)品32倍的加速引擎能力,借助NVIDIA UFM Cyber-AI平臺(tái),NVIDIA Quantum-2可為數(shù)據(jù)中心提供包括預(yù)測(cè)性維護(hù)在內(nèi)的InfiniBand網(wǎng)絡(luò)管理功能;同時(shí)NVIDIA Quantum-2也集成了納秒級(jí)精度的時(shí)鐘系統(tǒng)以同步分布式應(yīng)用,有助于減少數(shù)據(jù)庫(kù)處理等操作的等待時(shí)間,在納秒時(shí)鐘同步的加持下,云數(shù)據(jù)中心可成為電信網(wǎng)絡(luò)的一部分,用來(lái)托管軟件定義的5G服務(wù)。
目前,包括Atos、DataDirectNetworks(DDN)、戴爾、Excelero、惠普、IBM、浪潮、聯(lián)想、Penguin Computing、QCT、超微、VAST Data和WekaIO在內(nèi)的基礎(chǔ)架構(gòu)和系統(tǒng)廠商已支持NVIDIA Quantum-2平臺(tái)。
未來(lái)的超級(jí)計(jì)算機(jī)既要提供出色性能,又需要具備多租戶安全性,云原生超級(jí)計(jì)算平臺(tái)正是一個(gè)理想的解決方案。為了提供卓越的裸機(jī)性能和原生支持多節(jié)點(diǎn)租戶隔離,NVIDIA Quantum-2交換機(jī)的重要性不言而喻,它也是NVIDIA Quantum-2平臺(tái)的核心,其主芯片采用7nm制程,包含570億個(gè)晶體管,數(shù)量甚至要比NVIDIAA100 GPU還要再多一些,此外,NVIDIA Quantum-2交換機(jī)擁有64個(gè)400Gbps端口或128個(gè)200Gbps接口,并可提供最高可達(dá)2048個(gè)端口數(shù)的模塊式交換機(jī)系統(tǒng),交換能力超出上一代Quantum-1約5倍。憑借著在網(wǎng)絡(luò)速度、交換能力和擴(kuò)展性方面的優(yōu)勢(shì),NVIDIA Quantum-2交換機(jī)成為了構(gòu)建下一代高性能計(jì)算機(jī)系統(tǒng)的理想選擇。
實(shí)現(xiàn)云原生超級(jí)計(jì)算平臺(tái)架構(gòu)升級(jí)的關(guān)鍵要素是DPU,而此次NVIDIA Quantum-2平臺(tái)在主機(jī)端則提供了兩個(gè)網(wǎng)絡(luò)選項(xiàng),分別是NVIDIA BlueField-3 DPU InfiniBand和NVIDIA ConectX-7智能網(wǎng)卡。
BlueField-3作為首款為AI和加速計(jì)算而設(shè)計(jì)的DPU,可助力各企業(yè)在任何規(guī)模的應(yīng)用上實(shí)現(xiàn)領(lǐng)先的性能和數(shù)據(jù)中心的安全性。這款DPU針對(duì)多租戶、云原生環(huán)境進(jìn)行了優(yōu)化,提供數(shù)據(jù)中心級(jí)的軟件定義和硬件加速的網(wǎng)絡(luò)、存儲(chǔ)、安全和管理等服務(wù)。
BlueField-3 DPU可以從業(yè)務(wù)應(yīng)用中將數(shù)據(jù)中心的基礎(chǔ)設(shè)施服務(wù)卸載和隔離出來(lái),實(shí)現(xiàn)了由傳統(tǒng)基礎(chǔ)設(shè)施到現(xiàn)代基于“零信任”環(huán)境的轉(zhuǎn)型,可對(duì)數(shù)據(jù)中心的每個(gè)用戶進(jìn)行身份認(rèn)證,保障了企業(yè)從云到核心數(shù)據(jù)中心,再到邊緣的安全性,同時(shí)在效率和性能上有了更大的提升。
技術(shù)細(xì)節(jié)方面,BlueField-3 InfiniBand采用7nm工藝,包含220億個(gè)晶體管,提供16個(gè)64位Arm CPU,以卸載和隔離各種數(shù)據(jù)中心基礎(chǔ)設(shè)施服務(wù),樣片將于明年5月問世。
而NVIDIA ConectX-7網(wǎng)卡提供多達(dá)4 個(gè)連接端口和高達(dá)400Gb/s 的吞吐量,可為云、電信、AI和企業(yè)工作負(fù)載提供數(shù)據(jù)中心規(guī)模的硬件加速網(wǎng)絡(luò)、存儲(chǔ)、安全和管理服務(wù)。ConnectX-7具有加速交換和數(shù)據(jù)包處理(ASAP2)、高級(jí)RoCE、GPUDirect Storage,以及用于TLS、IPsec和 MACsec加密與解密的in-line 硬件加速等功能,能夠?yàn)槊艚荨⒏咝阅艿木W(wǎng)絡(luò)解決方案提供助力。ConnectX-7讓客戶能夠在高帶寬和高密度環(huán)境中滿足目前和未來(lái)的網(wǎng)絡(luò)需求。
與BlueField-3 InfiniBand相同,NVIDIA ConectX-7同樣基于7nm工藝設(shè)計(jì),包含80億個(gè)晶體管,其數(shù)據(jù)傳輸速率是目前世界領(lǐng)先的高性能計(jì)算網(wǎng)絡(luò)芯片NVIDIAConectX-6的兩倍,還使RDMA、GPUDirect Storage、GPUDirectRDMA和網(wǎng)絡(luò)計(jì)算的性能翻倍,其樣片也將于明年1月問世。
除了硬件之外,NVIDIA片上數(shù)據(jù)中心基礎(chǔ)架構(gòu)(DOCA)使基礎(chǔ)設(shè)施開發(fā)者能夠利用行業(yè)標(biāo)準(zhǔn)API,在NVIDIA BlueField DPU上快速創(chuàng)建網(wǎng)絡(luò)、存儲(chǔ)、安全、管理、AI和 HPC等各種應(yīng)用和服務(wù)。借助DOCA,開發(fā)者可以通過創(chuàng)建高性能、軟件定義和云原生DPU加速的服務(wù),對(duì)未來(lái)的超級(jí)計(jì)算基礎(chǔ)設(shè)施進(jìn)行編程,現(xiàn)在它也迎來(lái)了1.2版本。
現(xiàn)如今,數(shù)據(jù)中心需要處理日益增長(zhǎng)的用戶、應(yīng)用和流量,在缺乏零信任保護(hù)模式的情況下,企業(yè)極易受到攻擊,這也是NVIDIA DOCA 1.2產(chǎn)生的背景,開發(fā)者可借助DOCA1.2零信任安全框架,實(shí)現(xiàn)網(wǎng)絡(luò)安全即服務(wù),包括建立量化的云服務(wù)控制資源訪問、驗(yàn)證每個(gè)應(yīng)用和用戶、隔離可能受到影響的機(jī)器并保護(hù)數(shù)據(jù)免遭竊取等,涵蓋應(yīng)用、數(shù)據(jù)、設(shè)備、存儲(chǔ)、基礎(chǔ)架構(gòu)等每個(gè)關(guān)鍵點(diǎn)。
此外,DOCA1.2提供了軟件和硬件認(rèn)證、硬件加速的線速數(shù)據(jù)加密、對(duì)分布式防火墻和智能遙測(cè)的支持,以及租戶之間的安全隔離等策略,所有功能都可作為容器部署。
除了DOCA1.2之外,NVIDIA也帶來(lái)了基于NVIDIA RAPIDS的零信任AI應(yīng)用框架Morpheus,可以分析來(lái)自網(wǎng)絡(luò)流量日志、應(yīng)用日志和云日志的數(shù)據(jù),并提醒安全運(yùn)營(yíng)團(tuán)隊(duì)注意潛在的安全漏洞。
目前NVDIA Morpheus已上市,而NVIDIA DOCA 1.2將于11月30日開放搶先體驗(yàn),BlueField DPU則即將隨華碩、Atos、思科、戴爾、新華三、浪潮、聯(lián)想、寧暢、Quanta/QCT和超微等廠商推出的系統(tǒng)而推出。
從傳統(tǒng)的高性能計(jì)算到新型的加速計(jì)算,再到現(xiàn)如今超級(jí)計(jì)算中心與公有云的融合,下一代超級(jí)計(jì)算中心將為HPC、AI與數(shù)分析提供盡可能高的性能,并提供安全隔離應(yīng)用,同時(shí)響應(yīng)用戶對(duì)流量的不同需求。現(xiàn)如今,NVIDIA正在用3U(CPU、GPU、DPU)一體的架構(gòu)使得未來(lái)數(shù)據(jù)中心的管理程序與調(diào)度程序變得更加簡(jiǎn)單,以實(shí)現(xiàn)從邊緣到數(shù)據(jù)中心的統(tǒng)一架構(gòu)、統(tǒng)一管理和統(tǒng)一調(diào)度。而全新的NVIDIA Quantum InfiniBand平臺(tái),正是NVIDIA邁向云HPC的重要一步。
華碩ROG-STRIX-RTX3060-O12G-V2-GAMING NVIDIA Ampere流式多處理器,軸流風(fēng)扇設(shè)計(jì),GPU Tweak II
進(jìn)入購(gòu)買
2022-01-13 08:29:23
2022-01-13 08:27:53
2022-01-13 08:25:49
2022-01-13 08:24:48
2022-01-13 08:23:24
2022-01-13 08:21:58
2022-01-13 08:19:20
2022-01-13 08:17:53
2022-01-13 08:12:40
2022-01-13 08:11:31
2022-01-13 08:08:09
2022-01-12 16:50:28
2022-01-12 14:16:53
營(yíng)業(yè)執(zhí)照公示信息
相關(guān)新聞