人人書

雜誌

保存到桌面 | 簡體人人書 | 手機版
傳記回憶文學理論偵探推理驚悚懸疑詩歌戲曲雜文隨筆小故事書評雜誌
人人書 > 雜誌 > 2017英特爾至強可擴展處理器解析

2017英特爾至強可擴展處理器解析

時間:2024-11-01 01:52:14

2017年7月,英特爾正式發布了全新至強可擴展系列處理器家族,英文名稱為XeonScalableProcessor。全新處理器帶來了大量新技術和更強擴展能力、更多核心,同時将Xeon處理器的命名規則更改為至強鉑金處理器、至強金牌處理器、至強銀牌處理器和至強銅牌處理器。英特爾至強處理器面向的用戶是企業級用戶以及雲計算、關鍵業務和大規模科學計算等領域的用戶。新的至強可擴展處理器仍舊是基于英特爾的14nm制程,内部核心布局更新到了最新的Mesh架構。那麼,這一代至強為何要命名為“可擴展處理器”?它又有哪些不容錯過的技術亮點呢?

至強可擴展處理器用于替代之前的XeonE5、E7家族的衆多産品

至強可擴展處理器産品分為四個系列,如圖,從右至左依次是鉑金、金、銀、銅系列。規格飛躍:可擴展的四大“段位”

按慣例,在拿到一款新産品時,應該先來看看産品的命名和産品型号劃分。對于全新至強來說,可擴展就成為最關鍵的一點。要明白可擴展的含義,還得從上幾代至強産品來看。對至強家族來說,以往的分級基本上是基于任務和性能導向,單路針對工作站級的産品是XeonE3,雙路針對主流企業級市場的是XeonE5,而針對關鍵業務、高性能需求的是XeonE7。E3、E5、E7處理器之間的接口、尺寸、散熱設計等完全不同,甚至内存支持也存在差異,所以基本上是不能互相替換的。

但是,在CPU性能發展到一定階段之後,由于至強E5的性能不斷提升以及雲計算式的解決方案不斷成熟,用戶發現在一些企業級應用中,E5與至強E7之間開始出現了一定的可替換性。這就使得在先前至強體系中的分級開始變得模糊。于是,英特爾今年幹脆從命名上取消了XeonE5和E7兩條産品線,将其統一叫做“至強可擴展處理器家族”(XeonScalableProcessor),然後再在具體産品應用分級時使用鉑金、金牌、銀牌、銅牌這樣淺顯易懂的命名方式來區别其性能和定位。更重要的是,這一代至強可擴展處理器的接口完全統一了,從命名上便突出了“Scalable”,即可擴展性。這就完全解決了用戶可能遇到的彈性擴展問題,把原本區隔開來的兩個市場合二為一,用戶未來無論是希望“ScaleUP”縱向擴展還是“ScaleOut”橫向擴展,都不再成為問題。從硬件規格和配套芯片組的角度來看,至強可擴展處理器家族中所有處理器都使用相同的Puelry平台芯片組和SocketP接口,使得所有的處理器在硬件尺寸和安裝規格上完全實現擴展可能性。從内核設計的角度來看,新一代至強可擴展處理器家族升級到了代号為Skylake-SP的核心微架構,其最大的特點是放棄了之前的環狀總線架構,采用了全新的Mesh網格化架構,使得在核心擴展越來越多時,各個核心的延遲可以降到最低,具體我們後面再詳細分析。

在掃除了提高可擴展性第一道障礙後,接來下就是理清具體型号、對應的産品需求了。英特爾在至強可擴展處理器家族上徹底放棄了之前“E+數字”的命名方式,轉而采用了一種更商業化的、更容易理解的命名,并且将産品分為四個“段位”。新一代至強可擴展處理器中最高端的是至強Platinum(鉑金)家族:提供最強性能、最多核心和最強大硬件擴展能力,支持最先進技術、最強安全性能和業務敏捷性。産品命名為至強Platinum8000系列,核心數量從22核到28核心不等。比如旗艦型号至強Platinum8180,28核心56線程、基礎頻率2.5GHz、最高睿頻頻率3.8GHz、三級緩存38.5MB、TDP為205W;另外,Platinum8180還有帶“M”後綴的加強版本,最大支持内存從六通道768GB提升至六通道1.5TB。次高端的是至強Gold(金牌)家族:提供卓越性能、快速的内存、豐富的擴展能力和加速引擎接口、堅實的可靠性。産品型号方面則是至強Gold5000和6000系列,核心數量從14到22核不等。典型的産品有至強Gold6154,具備18核心36線程,默認頻率高達3GHz、最大睿頻3.7GHz、三級緩存24.75MB、TDP功耗為200W。接下來是至強銀牌家族:提供優秀的性能功耗比。具體型号方面則是至強Silver4000系列,核心數量從10到12個。典型的産品型号如至強Silver4116,具備12核心24線程,默認頻率2.1GHz、最大睿頻3.0GHz、三級緩存16.5MB、TDP功耗為85W。最後是至強銅牌家族:提供入門級性能。本文截稿之時,英特爾官網已有兩款至強銅牌處理器現身,均屬于至強Bronze3000系列,核心數量在10個以内。典型的産品型号如至強Bronze3106,具備8核心8線程,默認頻率1.7GHz、三級緩存11MB、TDP功耗為85W。

由于Mesh結構和之前的環形總線結構差異巨大,因此Skylake-SP的緩存部分也作出了巨大改變,緩存改用了非包含式設計;根據英特爾數據,緩存性能表現還是非常值得稱道的,值得注意的是L2和L3緩存延遲略有上升。

産品适用于雙路、四路和八路配置,可靈活擴展。

Skylake-SP采用的全新Mesh互聯架構,與先前産品采用的環形總線截然不同。

至強可擴展處理器家族特性總覽全新特性解讀

和産品名稱類似,至強可擴展處理器的架構名稱也帶“SP”字樣,被稱為Skylake-SP。和英特爾前幾代服務器處理器微架構是在桌面版本微架構的基礎上進行優化和擴充一樣,Skylake-SP同樣也來源于桌面版本的Skylake,但針對服務器和工業、雲計算、大數據等場景做出了更進一步的系列優化。根據英特爾的數據,Skylake-SP在核心、内存、緩存、I/O等組件上都有深入優化,每時鐘浮點性能提升了2倍,8K數據塊壓縮速度可達100Gb/s,平均性能提升高達1.65倍,數據保護性能提升高達2倍,相比四年前的産品,總體擁有成本降低了65%。那麼,英特爾是怎麼達成如此顯著提升的呢?簡而言之,最重要的幾點分别是—全新Mesh互聯架構、全面改進核心架構、全新接口和芯片組等。

全新的Mesh互聯架構

由于處理器的核心越來越多,片上互聯架構就成為廠商關注的重點,因為這直接影響到處理器内部核心通訊效率,也直接影響處理器性能。在前幾代的産品中我們看到,随着核心越來越多,要保證每個核心的緩存在被共享讀取時保持高效,已經變得越來越困難。

而所謂Mesh架構,是指網狀結構。顧名思義,Mesh本身就像我們常見的漁網一樣,是由經線和緯線組成的孔洞結構,在Mesh架構中,内核被放置在經線和緯線交叉的點上,并和周圍的核心通過總線交叉相連,形成一個二維結構。為什麼上一代不用Mesh呢?其實這跟核心的數目有很大的關系。事實上,核心采用怎樣的連接方式,并不是一成不變的選擇。我們知道,Skylake微架構的第七代酷睿處理器Corei77900X在遊戲性能表現上是落後于六代酷睿Corei76950X的;有分析認為,導緻性能出現落後的原因就是其核心采用Mesh布局。在核心數量較少時(同為10個核心),Mesh的效率并不比環狀總線強,這或許是英特爾沒有更早地采用Mesh架構的原因。

到上一代英特爾至強E52699V4為止,環形總線已經發展到總共左右兩組,通過兩個SwitchBar來控制一緻性。每組總線環上最多可以挂接12個處理器核心和它們的緩存,環之間通過高速接口實現數據互通。那麼,本代至強為何取消了經典的環狀總線架構,改用了全新的Mesh架構呢?據筆者了解,最重要的還是為了降低極限情況下的延遲。環狀總線每個環能承載的核心數量是有限的,擴展越多延遲越高,看樣子12個就已經是極限。我們以前介紹的上上代至強的環狀總線上隻有一個SwitchBar,上一代是兩個,那麼再擴展更多的環出來,就要通過更多的SwitchBar來保證一緻性和平衡延遲,這時候效率可能就已經不如Mesh架構了。所以在這一代,英特爾不惜在消費級上背上新不如舊的“惡名”也要整體改結構。畢竟從成本的角度講企業級和消費級隻會在一個微架構上共存,而面向企業級的産品需要更多的核心,所以提升其效率是更重要的。

采用Mesh網絡後,每一個内核都會成為Mesh網絡的一個節點,可以發送和接收數據,數據通路從之前的環形總線一條通路變成了很多條通路。這樣一來,處理器内部的通訊就會變得非常順暢。舉例來說,環形總線情況下,兩個環中距離最遠的2個内核之間的數據通訊,在不考慮SwitchBar等其它延遲的情況下(其實這種延遲更高),光數節點,其延遲就要超過11個周期,但是在Mesh網絡中,由于平鋪設計,内核布局從環形的1D向2D邁進,因此28核心之間最遠的兩個核心,其延遲也僅需要大約9個周期。

内存部分設計也改用了全新架構,六通道,最高支持DDR42666,支持RDIMM、LRDIMM、以及3DS-LRDIMM,每個插槽最大支持1.5TB内存。

Skylake-SP的核心架構進化,帶來了每核心同頻率大概10%的性能增幅。

新架構帶來了計算、虛拟化和安全三大改進

AVX-512使得Skylake-SP在浮點計算方面的性能得以大幅度提升英特爾在采用Mesh布局處理器内核後,輕易将處理器内核數量從24個提高到了28個。事實上,如果不需要殚精竭慮如何優化延遲,顯然核心數量的擴張會更容易,而如果未來工藝方面進一步提升,Mesh網絡還能容納下更多核心。理論上這不會受Mesh架構本身的影響,而是受工藝和功耗限制,畢竟28核心處理器的TDP功耗已經高達205W了。

緩存和内存結構變化巨大

緩存結構是影響處理器性能的核心結構。在Mesh架構上,由于處理器内部結構變化,諸如緩存這樣的關鍵性參數也發生了變化。之前的環形總線處理器的L3緩存可以做得很大,用于各個處理器共享。在采用Mesh的Skylake-SP中,内存數據将直接寫入L2,而不是像上代産品一樣還需要同時寫入L2和L3;L3在Skylake-SP上隻是作為L2的“輔助”,并且是非包含結構,數據和L2互相獨立。前代架構的L3是包含式結構,含有L2數據,被當做主力緩存使用。因此,Skylake-SP的L2緩存需要做得更大(大約1MB每核心,遠超前代256KB每核心),L3緩存由于調用方式改變,不需要更大容量,因此被顯著縮小(從前代2.5MB每核心降低至1.375MB每核心)。舉例來說,至強可擴展處理器Platinum8168的L3緩存為33MB,但是同為24核心的至強E7-8894的L3緩存卻達60MB,這并非倒退,而是技術改進造成的。

在緩存體系改變後,英特爾還給出了一些數據用于證明改變的有效性,包括:緩存命中率提升、緩存延遲輕微上升—在更多的核心下這是一個非常好的結果。除了緩存外,英特爾在内存上也做出了改善。現在Skylake-SP處理器上擁有2個内存控制器,每個控制器擁有三個DDR4内存通道,最高可達DDR42666,可以實現6通道内存模式。在内存控制器的布局上,英特爾将内存控制器加入Mesh網絡,這就大大降低了多個核心在調用内存數據時的延遲,大大提升了内存工作時的效率并提升了實際有效帶寬。根據英特爾的數據,Skylake-SP的内存帶寬在延遲沒有顯著提升的情況下得到了極大的增長,更符合多核心處理器的設計和使用需求。

六通道内存加持下,Skylake-SP平台的内存性能提升幅度很可觀。

CHA是本次新增的管理緩存和互聯通訊的部件,可以并發處理大量請求。

XeonSP的旗艦型号Platinum8180處理器(左)實拍,右側參照物為E52699v4核心架構進化

雖然Skylake-SP内核與桌面版Skylake架構有相近之處,但也做出了不少改進以适應企業級應用的要求。比較重要的核心部分改進包括—分支預測單元大幅度改進、提高了解碼部分的吞吐能力以及更大的ILP提取窗口;調度器和執行引擎部分提高了效能、吞吐量并降低了延遲;緩存部分的改進在前文曾提到過一部分,主要在預取部分和緩沖區。最值得關注的部分則是全新的AVX-512增強,包括每個内核配備1+1個FMA單元以及搭配1MB的緩存。在全新Skylake-SP上,英特爾在AVX指令集上又做出了重大升級,加入了對AVX-512的支持—AVX-512實現了單次計算512位的矢量數據,大幅度提升了系統的浮點性能,這個計算能力之前出現在英特爾的XeonPhi(KnightsLanding)計算卡上,在至強中出現還是首次。

說起AVX-512指令集,就不得不提及AVX指令集。AVX指令集是英特爾繼MMX、SSE之後提出的一整套名為AdvancedVectorExtensions高級矢量擴展(簡稱為AVX)的指令集,指令集宣布時間為2008年3月,最早集成的實際産品是SandyBridge處理器,Windows7SP開始提供系統層面的支持。在最初的版本中,AVX指令集可以通過支持256位矢量計算大幅度提高浮點計算性能,并且可以實現包括數據重排、支持三操作數或者四操作數、支持不對齊的内存地址訪問等功能。由于AVX的存在,英特爾處理器在對浮點運算要求極高的視頻實時編解碼、FIR矢量操作、MatrixAddition操作等方面取得非常出色的性能提升。為了更好地支持AVX-512,英特爾在硬件設計上也有相應加強。比如Skylake-SP的内核不但有1個FMA用于加速AVX-512計算,Skylake-SP還可以通過加速接口Port5外挂一個AVX-512加速單元,這樣就能夠實現同時處理2個AVX-512指令。

在指令規格上,根據英特爾說明,Skylake-SP的AVX-512加速可以運行諸如AVX-512-F、AVX512-VL、AVX-512-BW、AVX512-DQ、AVX-512-CQ等不同的指令,面向不同應用領域,不但快,而且全。由于硬件大幅度加強,性能自然不會弱。從微架構角度來看,支持AVX-512的Skylake微架構的每周期DPFLOPS能力高達32,單精度SPFLOPS高達64,相比以前的Haswell和Broadwell翻了一番,相比早期的Nehalem的單精度8、雙精度4的計算能力更是不可同日而語。在實際産品的性能方面,根據英特爾數據,AVX-512每瓦特GFLOPS性能是SSE4.2的4.83倍、AVX的1.74倍、AVX2的2.92倍;每GHz的GFLOPS性能是SSE4.2的4.19倍、AVX的1.95倍、AVX2的3.77倍。如此強悍的規格和性能提升,使得SkylakeSP在面對編解碼、加密解密、數值計算、高精度渲染等應用上顯得更遊刃有餘。另外,由于AVX-512的存在,Skylake-SP在目前大熱的深度學習等方面也會有相對上代産品更為出色的性能表現。

在英特爾發布會體驗區,有合作夥伴展出了支持新一代至強可擴展處理器的單路主闆,适用于需要組建小型服務器、工作站的用戶。

①SPECcpu2006近年來應用最廣泛的版本為1.2(本文截稿期間官網已發布最新版本SPECcpu2017),它包括CINT2006和CFP2006兩個子項目,主要包括了12項整數運算和17項浮點運算,它以一台SunUltraEnterpirse2工作站作為基準參考系統,系統基于一顆296MHz的UltraSPARCII處理器,測試的得分就表明這個項目中測試系統相對基準系統性能的比值。SPECCPU2006會給出8組測試數據,每組數據包含不同的測試内容。

②SiSoftwareSandra這款軟件在MC評測室的日常評測中很常見,這款軟件可以對于系統進行方便、快捷的基準測試,最高可支持32、64路平台。

③CineBench是是基于Cinem4D工業三維設計軟件引擎的測試軟件,可以完善地支持多核、多處理器。其最新版本R15可以很好地支持雙路至強可擴展處理器的56核心112線程運算,可幫助清楚展現新一代處理器的單核、多核性能提升幅度。

搭配芯片組更強大

最後再來看看芯片組方面的改進。Skylake-SP采用全新LGA3647封裝,搭配SocketP接口的C620芯片組,支持雙路、四路或者八路處理器,在八路運行的情況下,系統中将存在224個處理器核心和448個線程。外部接口方面,Skylake-SP的芯片組可以提供14個SATA6Gbps、10個USB3.0、20個PCIe3.0、SATAExpress、NVMe、RSTe、四個萬兆以太網端口的等外部配置。如此強大的擴展能力與新一代至強可擴展處理器的48條PCIe3.0通道搭配,可滿足數據中心和雲計算中心等需要大量存儲場合的用戶需求。

基準性能實測

2016年,《微型計算機》評測室在同一台英特爾雙路服務器(基于S2600WT主闆)上分别安裝了至強E5v3的旗艦型号E52699v3和至強E5v4的旗艦型号E52699v4,内存統一為8條32GBDDR42400組成的256GB四通道内存(E5v3由于内存控制器的限制,最大僅運行在DDR42133頻率)進行了一系列測試。為了更直觀地觀測新一代至強可擴展處理器平台(雙路Platinum8180及六通道、12條DDR42666内存)在性能上相對上兩代産品的進步幅度,我們搭建了與去年高度一緻的系統環境。

測試環境

本次測試以行業公允的SPECcpu2006v1.2為主要考察對象,由于時間及版面的限制,同時為了使得測試成績能與我們先前測試過的至強E5V4、E5V3等曆史産品的成績進行橫向對比,本次測試暫時未采用SPECcpu2017(2017年6月下旬發布)。為了運行SPECcpu2006測試,我們為測試平台安裝了WindowsServer2012R2系統(與先前測試過的至強E5V4、E5V3一緻),還安裝了VisualStudio、C++/FortranCompiler編譯器。此外我們還額外加入了結果可讀性更高、更便于理解的SiSoftwareSandra、CineBenchR15測試。

測試結果點評

對于SPECcpu2006測試,我們一般關心SPECint_base2006、SPECfp_base2006、SPECint_rate_base2006和SPECfp_rate_base2006這4個得分,前一組(_base)得分衡量平台完成單個任務的快慢,後一組(_rate_base)得分衡量平台的運算吞吐性能。此外,SPECCPU測試還會給出兩種類型的結果:Base基準測試結果和Peak峰值測試結果,Base測試要求編譯器套件按照指定的規則進行優化,而Peak測試則可以允許使用更多優化技術,作為平台對比,我們均選擇Base測試結果。最終測試結果顯示新一代至強可擴展處理器比上一代産品在性能方面有顯著提升,例如在SPECcpu2006Cintrate性能測試中,至強鉑金8180的性能得分2720,比上一代型号E5-2699v4的1690分高出了60.9%。通過對比,至強鉑金8180的單個任務處理能力相比上一代産品分别提升15.5%(SPECint_base2006得分81.2)和33%(SPECfp_base2006得分153),由于該項測試大部分時候僅使用到單個核心(處理器運行在最高睿頻),至強鉑金8180(3.8GHz)相比E52699v4(3.5GHz)頻率有所提升,可見主頻及架構優勢明顯;在多核心滿負荷測試(運行CineBench或SiSoftwareSandra)時,至強鉑金8180全部核心可工作在2.9GHz~3.0GHz頻率(Skylake-SP的睿頻具有6檔峰值頻率),憑借主頻、架構以及更多核心的優勢,相對于滿載全核心2.8GHz的E52699v4而具可具有50%左右的綜合性能提升。

SPECcpu2006是行業公允的服務器、工作站處理器性能測試軟件,可以看出,新一代雙路至強鉑金8180處理器相比上代雙路E52699V4平台有着全面性能優勢。

CineBenchR15結果表明新一代至強可擴展處理器在多核心性能上相對于消費級處理器的巨大優勢,至強鉑金8180處理器在單核心性能方面也有亮眼表現。

從SiSoftwareSandra的測試結果,我們可以一窺新一代至強可擴展處理器相比上一代産品在内存帶寬、延遲、内聯核帶寬等方面的提升幅度。寫在最後

數字化經濟在改變着每行每業,在2017英特爾至強可擴展處理器發布會上,英特爾行業解決方案集團中國區總經理梁雅莉女士舉了一個例子—滴滴出行,一個沒有車、沒有司機的公司在五年之内改變了每個人出行的方式,将來也許會改變城市交通運營和管理的方式。我們生活在數據“洪流”的時代,随着技術不斷創新,從互聯網到移動互聯網到物聯網、雲計算、人工智能和的無人駕駛,所有的數字化應用無論在消費市場還是在企業市場都處于快速增長之中。

據預測,到2020年為止,每天,每個互聯網用戶将産生1.5GB的數據、一個數字化的醫院會産生3TB數據、一台無人駕駛汽車産生4TB數據。所有海量數據背後對大家意味着什麼?意味着處理這些數據所需的服務器運算能力面臨嚴峻考驗。從新一代至強可擴展處理器的升級之處、應用實例來看,業界對更多核心、更高性能、更好互聯性的追求是永無止境的。如何更好地把海量數據變成企業的競争先機?這是留給新一代至強可擴展處理器這樣的雲時代基礎設施及相關參與者的宏大命題。

騰訊雲副總裁王龍2017至強可擴展處理器前沿應用實例

騰訊雲:攜手新至強共創更大價值

“過去十年,騰訊的數據存儲量增長非常迅猛,我們預計很快我們到ZB級别。為處理這些數據,我們不斷更新基礎架構,使用英特爾最新的産品滿足爆發式的需求。如今英特爾的多核并行技術,使用更高密度的CPU、更多核芯來并行處理數據,之前很多台服務器處理的數據現在單台就能完成,而IntelAVX-512,也使得新一代處理器的處理能力大大提升。基于我們與英特爾新産品的合作,我們目前單CPU的vCPU核數高達96個,較之前提升了71%,而功耗僅為1.25PUE—這相比目前國内的平均水平節能15%以上。根據最新的測試結果,搭配英特爾六通道的DDR4内存,相比下一代我們的第三代雲服務器,内存性能提高高達60%,最受市場歡迎的定制化物理服務器黑石産品整體計算性能最高提升88%。對于雲計算服務使用者這意味着更低功耗、更低的創新成本,帶來更多的創新機會。我們相信随着騰訊雲自然語言處理、語音識别、圖像識别、大數據和人工智能服務的廣泛應用,騰訊和英特爾的合作将基礎繼續加速社會的智能化創新以及創新發展”

中國國家氣象局研究員和首席科學家金之雁國家氣象局:新至強助力“看雲識天象”

“中央氣象台除了向公衆提供預報外,防洪減災是我們氣象部門每年工作的重中之重……定時定量的氣象預報,背後的支撐就是‘數值天氣預報系統’,我們國家‘數值天氣預報系統’是建立在超級計算機之上的一個天氣預報系統。天氣預報是一個非常典型的高性能計算的問題。目前,國家氣象中心采用的天氣預報系統是建立在兩台高性能計算機上,峰值性能500TFLOPS。這兩台系統非常繁忙,就像高峰時期北京的交通一樣不堪重負,所以我們計劃很快将建立一個新的更高性能的高性能計算機。這台高性能計算機預計它的峰值性能應該在8PB左右,它的基礎就是今天發布的新一代至強處理器。我們也對這個新的至強CPU進行了一點測算,測算結果是在沒有改變任何程序的情況下,沒有做任何針對至強優化的情況下,它的性能比上一代CPU計算性能提升30%。我們希望盡快的能夠建立這套系統,在不久的将來我們能夠讓新一代至強可擴展處理器在我們的業務數值天氣預報中采用,在我們國家未來的防災減災工作中發揮作用。”
   

熱門書籍

熱門文章