人人書

雜誌

保存到桌面 | 簡體人人書 | 手機版
傳記回憶文學理論偵探推理驚悚懸疑詩歌戲曲雜文隨筆小故事書評雜誌
人人書 > 雜誌 > 新的人工智能硬件加速器現爆炸式增長

新的人工智能硬件加速器現爆炸式增長

時間:2024-10-31 09:04:17

專業硬件平台是每一等級人工智能、機器學習和深度學習的未來,也是我們今後生活的雲到邊緣世界中每一項任務的未來。

人工智能的快速發展促進了機器學習和深度學習等新一類硬件加速器的爆炸式發展。

有人将其稱為“寒武紀爆炸”,恰當地比喻了當前狂熱的創新。寒武紀指的是大約5億年前的一段時期,基本上每一種生物體都首次出現了“身體結構”。從那時起,這些生物——包括我們自己在内,開始四處遷徙,從而徹底改變了地球上的生态。

創新的人工智能硬件加速器架構的範圍在不斷擴展。雖然你可能認為圖形處理單元(GPU)是主要的人工智能硬件架構,但這遠非事實。在過去幾年中,初創公司和成熟的芯片供應商都推出了令人印象深刻的新一代新硬件架構,适用于機器學習、深度學習、自然語言處理和其他人工智能工作負載。

除了新一代GPU之外,在這些新的人工智能優化芯片組架構中,最主要的是神經網絡處理單元(NNPU)、現場可編程門陣列(FPGA)、專用集成電路(ASIC)和各種相關的方法,這些方法都被統稱為神經突觸體系結構。正如一些業界專家所指出的,今天的人工智能市場并沒有像英特爾的X86CPU(曾經主宰了桌面計算領域)那樣隻存在一種硬件架構。這是因為這些新的人工智能加速器芯片架構适應了迅速發展的雲到邊緣生态系統(如計算機視覺)中的各類特殊用途。

人工智能加速器芯片的發展

要想了解人工智能加速器芯片的快速發展,最好是關注一下本文介紹的市場機遇和挑戰。

人工智能等級

要了解人工智能加速器是怎樣發展的,看一看邊緣,在那裡,新的硬件平台正在被優化,以便讓移動、嵌入式和物聯網(IoT)設備具有更大的自主性。除了智能手機嵌入式人工智能處理器的快速發展之外,在這方面最值得注意的是人工智能機器人創新,涉及到從自動駕駛汽車到無人機、智能設備和工業物聯網的方方面面。

在這方面最值得注意的進展之一是英偉達(Nvidia)進一步增強了其JetsonXavierAI系列芯片的人工智能片上系統(SOC)。英偉達已經發布了Isaac軟件開發工具包,以幫助構建運行在其專用機器人硬件中的機器人算法。

反映了智能機器人的複雜性,JetsonXavier芯片由6個處理器單元組成,包括一個512核的NvidiaVolta張量内核GPU、一個8核的CarmelArm64CPU、一個雙核的Nvidia深度學習加速器,以及圖像、視覺和視頻處理器。這些使其能夠處理幾十種算法來幫助機器人自主的感知環境,有效地進行響應,并與人類工程師一起安全地工作。

人工智能任務

人工智能加速器開始滲透到分布式雲到邊緣、高性能計算、超融合服務器和雲存儲架構的每一等級中。一股新的硬件創新浪潮正源源不斷地湧向所有這些領域,以支持更快速、高效和準确的人工智能處理。

人工智能硬件創新正在走向市場,以加速這些不同應用環境中具體的數據驅動任務。市場上無數的人工智能芯片組架構反映了機器學習、深度學習、自然語言處理和其他人工智能工作負載的多樣性——從需要大量存儲的訓練,到計算密集型推斷,而且涉及不同程度的設備自主性和人在環路交互性。

為能夠讓人工智能芯片組适用于如此衆多的工作負載,供應商在其系列産品中甚至在特定的嵌入式人工智能部署中混合了各種各樣的技術,例如驅動智能機器人和移動應用的SOC。

作為一個例子,英特爾的XeonPhiCPU架構已被用來加速人工智能任務。但英特爾認識到,如果沒有專門的人工智能加速器芯片,它将無法與NvidiaVolta(在GPU中)以及大量生産NNPU和其他人工智能芯片的廠商相競争。因此,英特爾現在有一個産品部門正在開發一款新GPU,并将在未來兩年發布該産品。

同時,它繼續看好人工智能優化芯片組的幾類架構:神經網絡處理器(Nervana)、FPGA(Altera)、計算機視覺ASIC(Movidius)和自動駕駛汽車ASIC(MobilEye)。它還計劃為解決下一代人工智能挑戰構建自學習神經形态和量子計算芯片。

人工智能的市場承受能力

每一人工智能加速硬件創新必須是可生存的,必須能夠滿足相關運行和經濟承受能力指标。

在運行指标中,每一人工智能芯片組必須在外形封裝、能效、散熱和電磁輻射以及堅固性方面符合相關标準。

在經濟指标中,它必須在性能和總體擁有成本方面具有競争力,以滿足其設計部署的等級和任務要求。比較行業基本标準将成為決定人工智能加速器技術是否具有在激烈競争的市場中生存下去的性價比指标的關鍵因素。

在一個正在朝着工作負載優化人工智能架構發展的行業中,用戶将在每一等級中采用最快、最具可擴展性、最具功效和成本最低的硬件、軟件和雲平台來運行自己的人工智能任務,包括開發、訓練、運行和推斷等。

人工智能加速器ASIC的多樣性

人工智能加速器硬件架構并非單一化。它們是如此的多樣化,發展的如此之快,以至于人們很難跟上這一市場不斷創新的步伐。

除了Nvidia和IntelASIC等核心人工智能芯片組制造商之外,平台專用人工智能工作負載比比皆是。我們可以在最近的一些新聞中看到這種趨勢:

●微軟正在為其HoloLens增強現實頭盔準備一款人工智能芯片。

●谷歌有一款特殊的NNPU——張量處理單元,可用于谷歌雲平台上的人工智能應用程序。

●據報道,亞馬遜正在為其Alexa家庭助手設計一款人工智能芯片。

●蘋果公司正在開發一款人工智能處理器,用于Siri和FaceID。

●特斯拉正在為其自動駕駛電動汽車開發一款人工智能處理器。

人工智能加速器基準框架開始出現

人工智能加速器市場中的跨供應商合作夥伴關系變得越來越複雜和重疊。例如,可以看看中國科技巨頭百度是怎樣分别與英特爾和英偉達合作的。除了推出自己的NNPU芯片進行自然語言處理、圖像識别和自主駕駛之外,百度還與英特爾合作,在其公共雲中實現FPGA支持的人工智能工作負載加速,還有用于XeonCPU的人工智能框架,配有人工智能的自動駕駛汽車平台,具有計算機視覺功能的零售相機,并采用了英特爾的nGraph硬件無關深度神經網絡編譯器。這些發布緊随英偉達類似的公告,例如,将VoltaGPU引入到百度雲計劃中,對百度Volta的PaddlePaddleAI開發框架進行調整,以及向中國消費市場推出英偉達支持的人工智能等。

面對如此令人眼花缭亂的人工智能加速器硬件選擇和組合——無論是雲還是在專門的SoC中,人們很難對其進行梳理。如果沒有靈活的基準測試框架,要想針對任何任務找出人工智能加速器硬件對總體性能的貢獻是非常棘手的。

幸運的是,人工智能行業正在開發開放的、透明的、與供應商無關的框架,以便在不同的工作負載中評估不同硬件/軟件堆棧的相對性能。

MLPerf

例如,MLPerf開源基準測試部門正在開發一個标準套件,用于對機器學習軟件框架、硬件加速器和雲平台的性能進行基準測試。MLPerf可以在GitHub上使用,目前是測試版,為當今人工智能部署中占主導地位的一些人工智能任務提供了參考實現。它涉及到對具體算法(例如,Resnet-50v1)采用具體數據集(例如ImageNet)執行具體的人工智能任務(例如圖像分類)進行基準測試。核心基準測試集中于特定的硬件/軟件部署,比如在Ubuntu16.04、NvidiaDocker和CPython2上運行的圖像分類訓練工作,這些平台由16個CPU芯片、一個NvidiaP100VoltaGPU和600G的本地硬盤組成。

MLPerf框架非常靈活,因此可以想象基于GPU的圖像分類訓練能夠針對在不同硬件加速器(例如最近宣布的百度昆侖FPGA)上運行的相同任務進行基準測試——但是要在基本相同的軟件/硬件堆棧中進行。

其他人工智能行業基準測試方案還允許在可替代的人工智能加速器芯片上進行比較性能評估,以及采用其他硬件和軟件組件在部署中使用相同的模型對相同的訓練或者運行數據來處理相同的任務。這些其他基準測試方案包括DawnBench、ReQuest、會話處理性能委員會的人工智能工作組和CEAN2D2。它們都足夠靈活,可以應用于任何部署等級中運行的任何人工智能負載任務,并且經濟上可行。

EEMBC機器學習基準測試套件

反映了人工智能工作負載向邊緣的移動,一些人工智能基準測試方案完全集中于測量部署到這一等級的硬件/軟件堆棧的性能。例如,行業聯盟EEMBC最近開始了一項新工作,定義一個用于機器學習的基準測試套件,這些機器學習運行在功率受限的邊緣設備的優化芯片組中。由英特爾主持,EEMBC的機器學習基準測試套件部門将使用來自虛拟助手、智能手機、物聯網設備、智能揚聲器、物聯網網關和其他嵌入式/邊緣系統的實際機器學習工作負載,以便确定用于加速機器學習推斷工作的處理器内核的性能和功效。

EMEBC機器學習基準測試将測量低、中、高複雜度的推斷任務的推斷性能、神經網絡加速時間,以及功效。它與機器學習前端框架、後端運行時環境和硬件加速器目标無關。該部門正在進行概念驗證,并計劃在2019年6月之前發布其第一版基準測試套件,以滿足一系列神經網絡架構以及基于邊緣的推斷應用情形需求。

EEMBCAdasmark基準測試框架

針對邊緣層和任務較窄範圍的應用,EEMBC的Adasmark基準測試框架重點是支持采用了人工智能的智能車輛。與其機器學習基準測試工作不同,EEMBC正在為高級輔助駕駛系統中嵌入的人工智能芯片開發一種單獨的性能測量框架。

該套件有助于測量在多設備、多芯片、多應用智能車輛平台中執行的人工智能推斷任務的性能。它對與高度并行的智能汽車應用相關的實際推斷工作負載進行基準測試,例如,計算機視覺、自動駕駛、汽車環視、圖像識别和移動增強現實等。它測量複雜智能汽車邊緣架構的推斷性能,通常包括多個專用CPU、GPU和其他硬件加速器芯片組,它們在共同的底盤上執行不同的任務。

新興的人工智能應用場景将需要更多的專業芯片

幾乎可以肯定的是,會出現其他的專業人工智能邊緣應用場景,它們需要自己的專用芯片、SoC、硬件平台和基準測試方法。人工智能芯片組的下一巨大增長領域可能是在用于加密貨币挖礦的加速邊緣節點上,這種應用場景與人工智能和遊戲一樣,需要大量的NvidiaGPU。

一個專門從事這一小衆市場的供應商是DeepBrainChain,該公司最近宣布了一個可以在分布式配置中部署的計算平台,幫助實現人工智能工作負載的高性能處理,以及挖掘加密貨币令牌。挖礦站有兩個、四個和八個GPU配置,還有獨立工作站和128個GPU定制的人工智能高性能計算集群。

不久之後,我們幾乎肯定能夠看到專門用于分布式加密貨币挖礦的新一代人工智能ASIC。

專業硬件平台是每一等級人工智能的未來,也是我們今後生活的雲到邊緣世界中每一項任務的未來。

JamesKobielus是SiliconAngleWikibon的人工智能、數據科學以及應用開發首席分析師。

原文網址

https://www.infoworld/article/3290104/artificial-intelligence/powering-ai-the-explosionof-new-ai-hardwareaccelerators.html
   

熱門書籍

熱門文章