為何都要開發AI芯片?
去年3月,谷歌AlphaGo人機圍棋大賽讓人工智能躍入大衆視野。軟銀集團創始人孫正義曾表示2040年會有100億的機器人,我們每個人都會擁有一到兩個機器人,我們的生活乃至各行各業都會被人工智能的時代所颠覆。但是,如今人工智能的硬件水平還沒有成熟到可以大規模産業化的程度。大體上看,目前限制人工智能發展的核心因素有兩個,一是算法上還沒有達到完善的程度,大家對智能計算的過程理解不夠。二是硬件性能不夠,人腦是由千億個神經元,百萬億突觸構成的複雜網絡,現在主流的神經網絡算法(如AlexNet和VGG)也有百萬、千萬的神經元和突觸,而現有芯片和這種神經網絡算法還存在數量級的差距。舉例來說,谷歌目前需要使用上萬個CPU運行7天來訓練一個識别貓臉的深度學習神經網絡;科大訊飛曾經采用大量CPU來支持大規模數據預處理,運行GMMHMM等經典模型的訓練,但在千小時數據量下效果也不理想。
因此,這就需要重新設計一顆專門服務于人工智能的處理器芯片。所以我們看到,在有衆多技術人員執着于算法研發的同時,也有很多廠商選擇開發出性能足夠強的硬件,來滿足人工智能對計算資源的需求。在硬件選擇上,CPU、GPU、FPGA、DSP、ASIC都成為了大家的選擇方案,而不同的選擇方向所表現出來的就是,國内外衆多廠商推出的五花八門、服務于人工智能的芯片。随着人工智能潮流的演進以及英特爾、英偉達等巨頭關于人工智能戰略的快速推進,人工智能芯片大戰的格局正在形成。
英特爾和英偉達:強者之争
在人工智能硬件的話語權争奪上最響亮的莫過于CPU巨頭英特爾和GPU巨頭英偉達。2015年12月,英特爾以167億美元收購了Altera,這成為英特爾曆史上最大金額的收購案。2016年4月,英特爾收購了意大利半導體制造商Yogitech,這家公司制造了專為機器人和無人駕駛汽車開發的芯片。2016年8月,英特爾又以4億美元的價格收購了一家AI初創企業Nervana;2016年,英特爾宣布開發用于深度學習的處理器XeonPhi家族新成員KnightsMill。而英特爾的競争對手英偉達因為在人工智能領域有着不錯的優勢,成為了資本市場的寵兒。曾經以遊戲GPU芯片見長的英偉達,股價從徘徊在30美元迅速飙升至現在的100多美元。除了股價的連連上漲,目前谷歌、微軟、百度等互聯網巨頭都在使用英偉達的GPU芯片,讓服務器學習海量的照片、視頻、聲音文檔以及社交媒體上的信息,來改善搜索和自動化照片标記等各種各樣的軟件功能。
因此,英特爾和英偉達這兩個強者之間的芯片之争的焦點主要在于,CPU和GPU誰更适合應用在人工智能領域?去年展示KnightsMill特性之後,英特爾還将其與英偉達的MaxwellGPU的性能功耗對比做過論戰。
其實,KnightsMill和英偉達的GPGPU都是在人工智能硬件中扮演加速器的角色,這和衆核芯片與GPGPU在超算中扮演的角色頗有類似之處。據悉,英特爾的衆核芯片雙精浮點性能為3TFlops,性能功耗比為12GFlops/W。英特爾宣稱:“四片KnightsLandingXeonPhi芯片比四片GPU快2.3倍”、“使用英特爾優化版的Caffe深度學習框架時,XeonPhi芯片比标準Caffe實現快30倍。”言下之意就是英特爾的衆核芯片在深度學習上比英偉達的GPU更為高效。當然,英偉達宣稱英特爾提供的測試結果有取巧的成分:“如果英特爾使用更新一點的CaffeAlexNet實現結果,它就會發現4塊上代英偉達MaxwellGPU實際上比4塊英特爾XeonPhi服務器集群快30%”。英偉達還以其DGX-1系統舉例說明DGX-1可以與21個XeonPhi服務器集群相媲美,甚至還略有勝出。
雖然英特爾和英偉達都宣傳自家的産品有優勢,但就目前情況來看,雙方實際上都還沒有完全戰勝對方。不過,本質上英特爾的衆核芯片和英偉達的GPGPU依舊是以CPU向量擴展和GPU架構這類傳統架構去處理深度學習應用,其優勢在于可以拿非常成熟的技術去搶占新興市場。雖然短期來看英特爾和英偉達的芯片可以憑借在集成度和制造工藝上的優勢和技術成熟度占據先機。但是長遠來看,由于CPU、GPU并非針對深度學習的專業芯片,和谷歌這類專門針對人工智能開發的處理器相比,在運算效率和性能功耗比上可能會處于劣勢。
去年4月6日,英偉達發布了一款支持深度學習的新型芯片TeslaP100以及可用于深度學習的計算機DGX-1。
時至今日,英偉達的人工智能硬件布局已經頗有建樹。
頻繁收購AI公司之後,英特爾算是補齊了人工智能技術的短闆。
除了收購AI公司,英特爾自家的XeonPhi系列處理器也非常适合用于深度學習領域。如果認為英特爾在人工智能領域隻有XeonPhi衆核芯片的話就未免太小瞧它了。英特爾在收購Altera之後,Altera也推出了可以用于深度學習和科學計算的FPGA。CPU+FPGA被認為是為人工智能硬件提供了一個新的選擇。不過這是否能壓倒英偉達呢?目前來看,兩者之間的競争還在繼續。
谷歌TPU:穩中前進
去年5月,谷歌CEO桑達爾·皮查伊在GoogleI/O開發者大會上公布了之前打敗九段棋手李世石的秘密武器—TPU(TensorProcessingUnit),這是一款為機器學習而定制的芯片。今年4月6日,谷歌首次公布了該芯片的技術細節。
谷歌表示,按照摩爾定律的發展軌迹,現在的TPU的計算能力相當于傳統CPU七年之後才能達到的計算水平。目前,TPU已經服務于谷歌的AI系統RankBrain、街景StreetView、AlphaGO等應用服務。不過,根據谷歌的論文顯示,TPU其實是定制的ASIC芯片,核心是一個64K的8位矩陣乘單元陣列和片上28MB的軟件管理存儲器,峰值計算能力為每秒92TOP/S,具有相對比較小的芯片面積和相對較低的功耗。
當然,谷歌公布TPU技術細節時也不忘與英特爾和英偉達的産品對比。根據谷歌發布的技術論文,TPU相比類似的服務器級英特爾HaswellCPU和英偉達K80GPU,TPU在AI運算測試中的平均速度要快15~30倍。重要的是,TPU的每瓦性能要比普通的GPU高出25~80倍。實際上,谷歌TPU在和英特爾、英偉達産品的對比中同樣略有取巧—拿相對老舊的英特爾Haswell和英偉達K80GPU來做對比。
盡管谷歌在強調TPU的優勢之時并沒有說明很多細節,但該篇論文透露出一個重要的細節—TPU采用了傳統脈動陣列機的結構。脈動陣列架構是一種非常老的技術,早在上世紀80年代初,中科院計算所的夏培肅院士和李國傑院士就曾将脈動陣列架構用于石油勘探。也許正是因為脈動陣列架構是非常經典的老技術,因而經過反複驗證後比較成熟,谷歌才會采用。
一直以來,谷歌都被冠以“最為成功的互聯網公司”的美名,但在這些絕佳的贊譽背後,其實每一天都是其龐大的服務器網絡在小心翼翼地支撐着這個科技巨頭的穩定運行。為了适應人工智能時代的遊戲規則,谷歌也不得不做出改變來開發機器學習專用處理器TPU。對于TPU,盡管谷歌表示并不會對外出售,但不可否認的是,它的出現加快了全球人工智能芯片大戰的進程。
正如20年前多媒體應用及3D遊戲蓬勃發展倒逼顯卡硬件升級一樣,互聯網大數據的興起對人工智能芯片提出了新的需求。
谷歌TPU支撐了AlphaGo強大快速的運算力,但谷歌此前一直未曾披露其細節。國家隊:鋒芒畢露
在人工智能芯片領域,除了英偉達、英特爾、谷歌等國際巨頭的争戰之外,還有一股力量不容忽視,那就是正在崛起的中國芯片行業。早在2013年,國内的寒武紀科技公司便成功研制了全球首個深度學習處理器;2014年,寒武紀科技發表了全球首個多核深度學習處理器架構;今年4月7日,寒武紀深度學習處理器獲得了中科院為期18個月,共計1000萬元的專項資金支持,用于項目研發及其産業化。而在此之前,寒武紀科技公司和中科院計算所已經研發了世界上首款深度學習處理器芯片“DaDianNao”、“DianNao”。
目前,寒武紀原型芯片的具體數據并沒有公開,從學術論文的角度來看,DianNao主頻為0.98GHz,峰值性能達每秒4520億次神經網絡基本運算,65nm工藝下功耗為0.485W,面積3.02mm2。DianNao的深度學習平均性能超過主流CPU核芯的100倍,但是面積和功耗僅為1/10,效能提升可達3個數量級。此外,DianNao的平均性能與主流GPGPU相當,但面積和功耗僅為主流GPGPU的百分之一。
而DaDianNao則是在DianNao的基礎上進一步擴大了處理器的規模,包含16個處理器核和更大的片上存儲,并支持多處理器芯片間直接高速互連,避免了高昂的内存訪問開銷。在28nm工藝下,DaDianNao的主頻為606MHz,面積67.7mm2,功耗約16W。單芯片深度學習性能超過了主流GPU的21倍,而能耗僅為主流GPU的1/330。64顆芯片組成的高效能計算系統較主流GPU系統的性能提升甚至可達450倍,但總能耗僅為1/150。可以看出,寒武紀這種針對深度學習而開發的專用芯片具有非常大的性能優勢。
除了寒武紀科技公司,國内傳統芯片企業也在布局人工智能芯片領域。比如中星微電子在去年6月20日率先推出“全球首顆具備深度學習人工智能的嵌入式視頻采集壓縮編碼系統級芯片”,并取名“星光智能一号”。據稱,這款基于深度學習的芯片運用在人臉識别上最高能達到98%的準确率,超過人眼的識别率,而且該芯片已于去年3月6日實現量産,出貨量為十幾萬件。
很長時間以來,中國的芯片行業都是處于旁觀者的角色,但在現在的人工智能芯片時代,以寒武紀科技公司為代表的中國企業也取得了不錯的成績,可以說如今中國芯片行業有了很大的進步。
寫在最後
綜合來看,無論是英特爾的衆核處理器,還是英偉達的GPGPU,本質上都是以CPU向量擴展和GPU架構這類傳統架構去處理深度學習應用;而FPGA雖然會在新興領域取得一定成績,但卻有可能缺乏性價比,而且在新興領域發展壯大後,容易轉為專用芯片;谷歌TPU選擇了脈動陣列機這個非常經典但卻相對保守的技術路線無疑也是在穩中求進,也許很有潛力。
其實,國外大公司之所以會選擇相對保守的技術路線,原因就在于它們在CPU、GPU、FPGA等方面已經取得技術優勢地位,這些技術成就使其在面臨劇烈變革時,過去的技術成果反而會成為其難以抛棄的包袱。相比之下,國内公司在上述領域和國外有着不小的差距,反而使科研團隊可以輕裝上陣,比如中國的寒武紀、中星微電子則做出了徹底的突破,找出了具有自我特色的通用智能處理器之路。
當然,對于國内公司來說,它們在市場推廣能力上可能無法和西方國際巨頭相比。對于這些中國公司而言,如何将優秀的技術轉變為優秀的産品并将之推廣出去,為市場所廣泛接受才是問題。隻有真正将産品産業化,并讓市場接受之後,國内的企業才能真正和國際巨頭在智能芯片這種基礎支撐性的産品上展開直接競争。
寒武紀DianNao結構
據悉,深層神經網絡學習技術使得機器的識别錯誤率下降了25%,但這一進步需要更強大的數據處理能力,為此谷歌開發了TPU。
或許在未來的人工智能時代,GPU不會替代CPU,TPU也不會取代GPU,AI芯片市場還可能出現更大的需求和繁榮。