< Back to 68k.news TW front page

AI晶片的一塊重要拼圖 | 科技 | 鉅亨號 | Anue鉅亨

Original source (on modern site)

因為大模型的火爆,對算力的渴求持續攀升。過去兩年,讓我們知道了輝達H100晶片的影響力。與之相伴隨的,高頻寬記憶體(HBM)、CoWos封裝等相關的技術也讓大家有所耳聞。殊不知,互聯的作用不亞於這些技術。互聯技術也是AI晶片中很重要的一塊拼圖。

AI晶片之間互聯一直是個難題,隨著近年來越來越多的加速器被整合在一起,如何高效傳輸資料成為了瓶頸。當需要連接成千上萬個加速器時,效能損耗和頻寬瓶頸就會顯現出來。這正在持續倒逼互聯的迭代加速。

可以說,目前,我們正處於重大互聯技術轉型的風口浪尖。

由於PCIe技術的發展速度跟不上時代需求,目前主流的AI晶片廠商都已經自研了互聯技術,其中較為代表的就是輝達的NVLink和AMD的Infinity Fabric。

輝達的NVLink

自2014年開始,輝達在其GPU中引進了NVLink互聯技術。 NVLink 是由Nvidia 開發的一種高頻寬、低延遲的點對點資料傳輸通道。它的主要用途是連接Nvidia GPU,或GPU 與CPU 之間的通信,允許它們以高速率共享資料。這對於那些要求高數據吞吐量和低通訊延遲的應用至關重要,例如深度學習、科學計算和大規模模擬。過去十年間,NVLink已成為輝達GPU晶片的核心技術及其生態系統的重要組成部分。

讓我們再來細細回顧下NVLink這項技術的發展歷程。 2014年,NVLink 1.0發布並在P100 GPU晶片之間實現,兩個GPU之間有四個NVLink,每個鏈路由八個通道組成,每個通道的速度為20Gb/s,系2統整體雙向頻寬為160GB/s(20*8*4*2)/8=160GB/s),是PCle3x16的五倍;

2017年輝達推出了第二代NVLink,兩個V100 GPU晶片之間透過六個NVLink 2.0連接,每個鏈路也是由八個通道組成,不過每個通道的速度提升至為25Gb/s,從而實現300GB/s的雙向系統頻寬(25*8*6*2)/8=300GB/s),幾乎是NVLink1.0的兩倍。此外,為了實現八個GPU之間的完全互連,Nvidia引入了NVSwitch技術。 NVSwitch1.0有18個端口,每個端口的頻寬為50GB/s,總頻寬為900GB/s。每個NVSwitch保留兩個用於連接CPU的連接埠。透過使用6個NVSwitch,可以在8個GPUV100晶片之間建立一個全連接的網路。

2020年,推出NVLink 3.0技術。它透過12個NVLink連接連接兩個GPU A100晶片,每個鏈由四個通道組成。每個通道以50Gb/s的速度運行,從而產生600GB/s的雙向系統頻寬,是NVLink2.0的兩倍。隨著NVLink數量的增加,NVSwitch上的連接埠數量也增加到36個,每個連接埠的運行速度為50GB/s。

DGX A100系統由8個GPU A100晶片和4個NVSwitch組成

2022年,NVLink技術升級到第四代,讓兩個GPU H100晶片透過18條NVLink連結互連。每個鏈結路由2個通道組成,每個通道支援100Gb/s(PAM4)的速度,從而使雙向總頻寬增加到900GB/s。 NVSwitch也升級到了第三代,每個NVSwitch支援64個端口,每個端口的運行速度為50GB/s。

2024年,隨著輝達全新Blackwell架構的發布,NVLink 5.0也隨之而來。 NVLink 5.0以每秒100 GB的速度在處理器之間移動資料。每個GPU 有18 個NVLink 連接,Blackwell GPU 將為其他GPU 或Hopper CPU 提供每秒1.8 TB 的總頻寬,這是NVLink 4.0 頻寬的兩倍,是業界標準PCIe Gen5 總線頻寬的14 倍。 NVSwitch升級到了第四代,每個NVSwitch支援144個NVLink 端口,無阻塞交換容量為14.4TB/s。

NVLink設計之初,就是為了解決傳統的PCI Express (PCIe) 匯流排在處理高效能運算任務時頻寬不足的問題。從下面兩幅圖的比較中,可以發現,從單通道速度的角度來看,NVLink的速度通常是同代PCle的兩倍左右。總頻寬的優勢更加明顯,NVLink提供的總頻寬約為PCle的五倍。

各代NVLink的性能參數

各代PCIe的參數(圖源:naddod)

除了NVLink,另一個值得一提的連網技術是InfiniBand。輝達收購的Mellanox在InfiniBand領域也處於佼佼者。自從收購Mellanox以來,NVIDIA也開始將NVLink技術與InfiniBand(IB)技術結合,推出新一代NVSwitch晶片和具有SHARP功能的交換機,並針對外部GPU伺服器網路進行了最佳化。

InfiniBand是一種開放標準的網路互連技術,具有高頻寬、低延遲、高可靠性的特性。此技術由IBTA(InfiniBand 貿易聯盟)定義。此技術廣泛應用於超級電腦集群領域。同時,隨著人工智慧的興起,它也是GPU伺服器的首選網路互連技術。由於RDMA(遠端直接記憶體存取)等功能,InfiniBand 在人工智慧等資料密集型任務中通常優於乙太網路。根據Dell'Oro 估計,約90%的AI部署都是使用Nvidia/Mellanox的InfiniBand,而非乙太網路。這些部署將Nvidia 的網路收入推至每年100億美元。

近日傳奇CPU設計師兼Tenstorrent執行長Jim Keller是開放標準的堅定支持者,他建議Nvidia應該在基於Blackwell 的GB200 GPU 中使用乙太網路協定晶片到晶片連接,而不是專有的NVLink,背後的主要原因是,這可能會使軟體移植到其他硬體平台變得更加複雜。而凱勒認為,使用乙太網路協定可以為輝達及其硬體用戶節省大量資金。

與輝達的NVLink相似,AMD則推出了其Infinity Fabric技術,支援晶片間、晶片對晶片,以及即將推出的節點對節點的資料傳輸。 Infinity Fabric是AMD在其「Zen」微架構中引入的關鍵特性,旨在提高整體系統效能,特別是在多核心處理器和資料中心環境中。

Infinity Fabric由兩部分組成:資料佈線(Data Fabric)和控制佈線(Control Fabric)。資料佈線用於處理器內部和處理器之間的資料傳輸,而控制佈線則負責處理器的功耗、時脈和安全性等方面的管理。 Infinity Fabric的主要特點包括:1)高效率:Infinity Fabric設計用於提供高效率的資料傳輸,支援多個裝置之間的高速通訊;2)模組化:Infinity Fabric支援AMD的小晶片(chiplet)架構,允許不同功能的晶片模組透過高速互連進行組合;3)記憶體共享:Infinity Fabric支援CPU和GPU之間的記憶體共享,有助於提高異質運算的效率;4)擴展性:Infinity Fabric的設計允許它隨著技術進步和需求成長而擴展。

AMD最新的AI加速器Instinct MI300X 平台,就透過第四代AMD Infinity Fabric連結將8 個完全連接的MI300X GPU OAM 模組整合到業界標準OCP 設計中,為低延遲AI 處理提供高達1.5TB HBM3 容量。第四代Infinity Fabric支援每聲道高達32Gbps,每連結產生128GB/s 的雙向頻寬。

不同於輝達NVLink僅限於內部使用,AMD已經開始向新合作夥伴開放其Infinity Fabric 生態系統。在去年年底AMD MI3000的發表會上,Broadcom宣布其下一代PCIe交換器將支援XGMI/Infinity Fabric。不僅如此,AMD還希望Arista、博通、Cisco等合作夥伴能推出適用於Infinity Fabric 等產品的交換機,能夠方便MI3000在單一系統外實現晶片間通訊。這類似於輝達的NVSwitch。

英特爾的用於生成式AI的Gaudi AI晶片則一直沿用傳統的乙太網路互聯技術。 Gaudi 2 每個晶片使用了24 個100Gb乙太網路連結;Gaudi 3也使用了24 個200 Gbps 乙太網路RDMA NIC,但是他們將這些連結的頻寬增加了一倍,達到200Gb/秒,使晶片的外部乙太網路I/O 總頻寬達到8.4TB/秒。

在近日的intel vision峰會上,英特爾也宣布正在開發一款用於超乙太網路聯盟(UEC)相容網路的AI NIC ASIC 以及一款AI NIC 小晶片,這些創新的AI高速互聯技術(AI Fabrics)將用於其未來的XPU 和Gaudi 3 處理器。這些創新旨在革新可大規模縱向(scale-up)和橫向(scale-out)擴展的AI高速互聯技術。

一直以來,英特爾都希望透過採用純乙太網路交換器來贏得那些不想投資InfiniBand 等專有/替代互連技術的客戶。 InfiniBand非常適合那些運行少量非常大的工作負載(例如GPT3 或數位孿生)的使用者。但在更動態的超大規模和雲端環境中,乙太網路通常是首選。 Nvidia 最新的Quantum InfiniBand 交換器的最高速度為51.2 Tb/s,連接埠為400 Gb/s。相比之下,乙太網路交換在近兩年前就達到了51.2 Tb/s,並可支援800 Gb/s 的連接埠速度。

雖然InfiniBand在許多情況下表現都不錯,但它也有缺點,例如只能在特定範圍內使用,而且成本也不低,將整個網路升級到InfiniBand 需要大量投資。相較之下,乙太網路因為相容性強,成本適中,以及能夠勝任大多數工作負載,所以在網路技術領域裡一直很受歡迎,建立了一個龐大的「乙太網路生態」。

Dell'Oro 預計InfiniBand將在可預見的未來保持其在AI 交換領域的領先地位,但該集團預測在雲端和超大規模資料中心營運商的推動下,乙太網路將取得大幅成長,到2027 年大約將佔20%的市佔率。

不只英特爾,在2023年的AI Day上,AMD也表示將專注於支援以太網,特別是超級乙太網路聯盟。雖然Infinity Fabric提供了GPU之間的一致互連,但AMD正在推廣乙太網路作為其首選的GPU 到GPU網路。

此外,英特爾也提出了開放性互聯協定Compute Express Link(CXL)。關於CXL互聯技術,業界看法不一。輝達的GPU一向單打獨鬥,並不支援CXL;AMD透露其MI300A會支援CXL。目前來看,像三星、SK海力士、美光等儲存廠商更青睞CXL。

誠然,這些互聯技術都已是目前最好的互聯技術,但是一個不爭的事實是,隨著計算數據的爆炸式增長、神經網路的複雜性不斷增加,以及新的人工智慧和圖形工作負載和工作流程以及傳統科學模擬的出現,對更高頻寬的需求仍在持續成長。這些互聯技術將不可避免的存在效能瓶頸。例如Nvidia 的NVLink 雖然速度很快,但是功耗也相當高;而AMD的Infinity Fabric則適合於晶片內部的連接,對於晶片之間的互聯效率並不理想。

是時候進行範式轉移了。光互聯憑藉著高頻寬、低功耗等優勢,幾乎成為公認的未來AI 互聯技術的發展方向。 Nvidia 資料中心產品首席平台架構師Rob Ober 在媒體諮詢中表示:「在過去的十年中,Nvidia 加速運算在人工智慧方面實現了數百萬倍的加速。」「下一個百萬將需要光學 I /O等新的先進技術來支援未來AI 和ML 工作負載和系統架構的頻寬、功率和規模要求。

在光互聯之路上,Google的TPU晶片已經率先起了個好頭兒。身為AI晶片的重要玩家,Google的TPU一直可圈可點。過去幾年時間,Google一直在悄悄地檢修其資料中心,它被稱為"阿波羅任務",主要是用光代替電子,並用光路交換器(OCS)取代傳統的網路交換器。

自TPU v4開始,Google引進了其內部研發的創新的互聯技術:光路交換器(OCS)。 TPU v4是第一台部署可重新配置OCS 的超級計算機,它內部的4096個晶片透過OCS互連,能夠提供百億億次的機器學習效能。 OCS可以動態地重新配置其互連拓撲,以提高規模、可用性、利用率、模組化、部署、安全性、功耗和效能。

根據Google聲稱,OCS比Infiniband更便宜、功耗更低且速度更快,OCS和底層光學組件的成本和功耗只佔TPU v4系統的一小部分,不到5%。下圖顯示了OCS 如何使用兩個MEM 陣列工作。無需光到電到光轉換或耗電的網路資料包交換機,從而節省電力。 Google表示,TPU 超級電腦的效能、可擴展性和可用性使其成為LaMDA、MUM 和PaLM 等大型語言模型的主力。 Midjourney一直在使用Cloud TPU v4 來訓練他們最先進的模型。

到了TPU v5代,其每個Pod網路中包含8,960個晶片,這些晶片也是透過專有的OCS互連,並提供4,800 Gbps 的吞吐量。與TPU v4相比,TPU v5p 的FLOPS 提高了2 倍以上,高頻寬記憶體(HBM) 提高了3 倍,達到95GB,TPU v4 Pod 具有32GB HBM。

Broadcom、Marvell、思科等廠商則在光電共封交換器領域發力。其中博通和Marvell都已經推出了51.2Tbps的交換器。關於光電共封的更多知識,可以翻閱《晶片巨頭的「新」戰場》一文。

博通表示,光學互連對於大規模生成式AI集群中的前端和後端網路都至關重要。如今,可插拔光收發器消耗約50%的系統功耗,佔傳統交換器系統成本的50%以上。新一代GPU不斷成長的頻寬需求,加上AI群集規模的不斷增大,需要顛覆性的節能且經濟高效的光學互連,超越分立解決方案。

2024年3月14日,博通已向客戶交付業界首款51.2 Tbps共封裝光學(CPO) 乙太網路交換器Bailly。該產品整合了八個基於矽光子的6.4-Tbps光學引擎和Broadcom 的StrataXGS Tomahawk5交換晶片。與可插拔收發器解決方案相比,Bailly 使光學互連的運作功耗降低了70%,並將矽片面積效率提高了8 倍。

在矽光互聯這個新技術領域,得益於技術創新和商業模式的靈活性,新創公司在矽光子互聯領域取得了突破性進展,為這個市場帶來了更多的活力。

Celestial AI是這一領域的重要參與者,其Photonic Fabric(光子交換器)技術可以將AI運算和記憶體解耦,旨在透過光傳輸的方式來連接不同的AI 處理單元。這種技術已吸引了包括AMD Ventures在內的多個投資者。

Celestial的技術主要包括三大類:chiplets、interposers和一種基於英特爾EMIB 或台積電CoWoS的稱為OMIB的光學解決方案。其中chiplet是最核心的元件,可以作為額外的記憶體擴充卡,也可以作為一個晶片與晶片之間的高速互聯通道,有點類似光學版的NVLink 或Infinity Fabric。據該公司稱,單一chiplet 的尺寸略小於一個HBM 記憶體堆疊,可提供高達14.4 Tb/s 的光電互聯速率,當然這不是上限,只是現有晶片架構能夠處理的結果。具體而言,Celestial 的第一代技術每平方毫米可支援約1.8 Tb/秒。第二代Photonic 結構將從56 Gb/秒提高到112 Gb/秒PAM4 SerDes,並將通道數量從4 個增加到8 個,從而有效地將頻寬增加到四倍。

Celestial AI宣稱,這種方案的記憶體事務能量開銷約為每位元6.2 皮焦,相較於NVLink、NVSwitch大約62.5 皮焦的方案降低了90% 以上,同時延遲也控制在了可接受的範圍內。 Celestial AI公司預計將在2025 年下半年開始向客戶提供光子交換器晶片樣品,並預計在2027年左右實現量產。

除了Celestial AI 之外,還有其他幾家新創公司也在研發光子互聯技術。

Ayar Labs是一家由英特爾投資支持的光子學新創公司,它已經將其光子互連整合到原型加速器中,實現了小規模量產和出貨。 Ayar Labs CEO在2024 OFC(光纖通訊大會)上表示:「如果想最終改變運算產業,就需要實現電IO 到光學IO的巨大的提升。」早在2022年,輝達還與之合作開發光互聯技術,與Nvidia 的合作將專注於整合Ayar Labs 的IP,為未來的Nvidia 產品開發透過高頻寬、低延遲和超低功耗基於光學的互連實現的橫向擴展架構。

然後是Lightmatter,該公司在12月獲得了1.55億美元的C輪融資,估值高達12億美元。 Lightmatter 的技術稱為Passage,他們提供一個功能類似於OCS(光路交換機)的通訊層,該層位於基本和ASIC之間,幾乎可以實現全方位通信,這個通訊層可以進行動態的配置。透過採用矽內建光學(或光子)互連的形式,使其硬體能夠直接與GPU 等矽晶片上的電晶體連接,這使得在晶片之間傳輸資料的頻寬是普通頻寬的100 倍。該公司聲稱,Passage 將於2026年上市。

Lightmatter的Passage技術(圖片來源:Lightmatter)

Coherent在2024 OFC的上推出了一款支援高密度人工智慧叢集的光路交換器(OCS)。該設備預計明年批量發貨,具有300 個輸入端口和300 個輸出端口。在OCS 中,資料訊號在傳輸交換器時保留在光域中;消除OEO 轉換可以顯著節省成本和功耗。此外,與傳統交換器不同的是,當下一代AI叢集配備更高速的連線時,OCS不需要升級。對於數據中心來說,這顯著提高了資本支出回報率。

成立於2020年Nubis Communications也是一個不容小覷的新創公司,該公司在2023年2月份發布其基於矽光晶片的1.6T光引擎XT1600,單通道速率為112Gbps, 功耗達到4.9pJ/bit,頻寬密度達250Gbps/mm。 XT1600透過新穎的2D光纖陣列和高度整合的高速矽光子學實現。 Nubis的突破是基於重新思考光學設計,大幅降低光學DSP所需的性能和功耗,甚至完全消除它。據其稱,與傳統光學解決方案相比,人工智慧加速器或類似的大型ASIC可以在資料中心內實現全頻寬連接,而功耗僅為傳統光學解決方案的一小部分。 XT1600光學引擎的樣品現已提供給客戶。而且這種光互連非常適合新興的盒式架構以及本地chiplet實施,以便在未來實現更緊密的整合。

國內在這一領域,曦智科技發力於光子運算和光子網路兩大產品線。 2023年,曦智科技發表了首個運算光互連產品Photowave、以及首款片上光網路(oNOC)AI處理器OptiHummingbird。 Photowave透過光學元件實現CXL 2.0/PCIe Gen 5的連接,可配置x16、x8、x4、x2等不同通道數,涵蓋多種部署場景。

整體來看,在眾多廠商的參與下,互聯技術將會迎來重大的發展。尤其是圍繞光電共封裝和矽光子中繼層技術的光互連,正成為AI領域熱門賽道。

產業分析公司LightCounting 執行長Vlad Kozlov 證實:「800G 及以上的資料中心光學元件將持續強勁成長,到2027 年,可插拔收發器、主動光纜和共封裝光學元件的總價值將達到84 億美元。 (半導體產業觀察)

< Back to 68k.news TW front page