二值神經網路晶元eth
Ⅰ 自動駕駛晶元市場火爆,科技巨頭搶灘,中國企業能否一戰
[汽車之家 新鮮技術解讀]? 自動駕駛系統,最關鍵的部件是什麼呢?是感測器?是控制軟體?還是處理晶元呢?我個人認為在目前這個階段來說,處理晶元是一個最關鍵的部件,它的性能直接影響自動駕駛系統的好壞。過去,頂尖的晶元技術一直是國外企業壟斷的,但隨著中國晶元企業近年的快速追趕,情況已經有所改觀。今天我們就來聊聊中國自動駕駛晶元究竟處於一個怎樣的水平?
● 自動駕駛晶元是干什麼用的?
雖然目前L3級別有條件自動駕駛車輛在中國尚未落地,但從一些帶有高階L2駕駛輔助系統的車輛上我們可以發現,這些車輛都帶有數量不少的感測器用以檢測車輛周圍的障礙物,從而為控制系統決策提供數據支持。這些感測器包括毫米波雷達、超聲波雷達、攝像頭等。這些感測器每秒鍾會產生數GB(1GB=1024MB=10242KB)的數據,自動駕駛晶元需要流暢地處理這些數據才能保證系統及時作出正確的決策,從而確保車輛的行駛安全。
可能大家對每秒數GB的數據沒有概念,這里舉一個生活中的例子。普通的USB3.0介面U盤,其讀取速度峰值接近200MB/s,要從這個U盤中讀取1GB的文件大約需要5秒左右的時間,足見每秒數GB的數據量是相當大的。
自動駕駛系統除了需要解決大流量數據傳輸問題,還需要解決的就是如何能快速處理這些海量數據,而強大的自動駕駛晶元正是那把正確的鑰匙。
● 國外的自動駕駛晶元處在怎樣的水平?
雖然本文主要是講中國自動駕駛晶元的,但知己知彼,百戰百勝,在審視本土狀況之前,我們還是先要來簡單了解國外的情況。國外自動駕駛晶元真正能夠大規模進入量產車市場的無非三家,英偉達、Mobileye(現已被英特爾收購)、特斯拉。
其中,走實用路線的Mobileye目前市場佔有率在70%以上,市場上的產品主要是應用於L2駕駛輔助系統的EyeQ3晶元(算力0.256TOPS,「TOPS」是每秒萬億次運算的意思,詳細介紹請看這篇文章相關介紹,本文標注的算力如無特別說明均指的是8位整數計算能力)以及具備L3級別自動駕駛能力的EyeQ4晶元(算力2.5TOPS)。像是小鵬G3、蔚來ES6/ES8、廣汽新能源Aion LX就採用了EyeQ4晶元作為其駕駛輔助系統的核心。
相較於英偉達上代自動駕駛平台旗艦之作DRIVE PX Pegasus 320TOPS的算力,新的DRIVE AGX Orin平台的旗艦配置實現了成倍的性能增長。此外,DRIVE AGX Orin平台的擴展柔性化程度相比以往平台進一步提升,能夠通過硬體配置的增減,滿足從一般駕駛輔助到L5級別完全自動駕駛等不同級別車輛的需求。
特斯拉Autopilot 1.0系統採用的是1顆英偉達Tegra3晶元+1顆Mobileye EyeQ3晶元;Autopilot 2.0系統採用的是1顆英偉達Tegra Parker晶元+1顆Pascal架構GPU晶元;Autopilot 2.5系統採用的是2顆英偉達Tegra Parker晶元+1顆Pascal架構GPU晶元。
已經搭載在最新下線特斯拉車型上的自研FSD晶元,單顆晶元算力為72TOPS,Full Self-Driving Computer集成有兩顆獨立工作的FSD晶元,一顆「掛了」,另外一顆馬上「頂上」,提升了整套系統的安全性和穩定性。
當然了,除了上面三家鋒芒畢露的企業,還有不少企業在垂涎自動駕駛晶元這塊蛋糕,其中包括高通、賽靈思、恩智浦等,但這些企業真正走向量產車的自動駕駛晶元還不成規模,限於篇幅,這里就不作介紹了。
● 迅速崛起的中國自動駕駛晶元企業
好了,看完國外的情況,我們目光回到國內。自動駕駛晶元市場火爆,國外科技巨頭搶灘登陸,中國企業究竟實力怎麼樣呢?下面我們一起來看看。
◆ 寒武紀
中科寒武紀科技股份有限公司(下稱「寒武紀」)的前身是中國科學院計算技術研究所下,由陳雲霽和陳天石兩兄弟領導的一個課題組。該課題組在2008年開始研究神經網路演算法和晶元,並在2012年開始陸續發表研究成果。
2016年,上述課題組提出的深度學習處理器指令集DianNaoYu被ISCA2016所接受,實驗表明搭載該指令集的晶元相較於傳統執行X86指令集的晶元,在神經網路計算方面有兩個數量級的性能優勢。隨著課題組的研究成果趨於成熟,中科寒武紀科技股份有限公司正式成立,並著手將其晶元和指令集向商業領域轉化。也是在2016年,寒武紀發布了首款商用深度學習處理器寒武紀1A。
聊完這家公司的身世,下面我們來看看它的產品。目前寒武紀有兩款最新的人工智慧晶元IP授權,分別是Cambricon-1M和Cambricon-1H。性能指標最強的Cambricon-1M-4K在1GHz時鍾頻率下擁有8TOPS的算力;性能指標最弱的Cambricon-1H8mini在1GHz時鍾頻率下擁有0.5TOPS的算力。所有型號的詳細算力參數可以參看下錶。
Cambricon-1M和Cambricon-1H被定義為終端智能處理器IP。我們在手機或者汽車這些終端上出現的人臉識別、指紋識別、障礙物識別、路標識別等應用都能通過在晶元中集成上述處理器IP實現加速。
上面提到的「邊緣」一詞來自於「邊緣計算」。 邊緣計算是指在靠近智能設備(終端)或數據源頭(雲端)的一端,提供網路、存儲、計算、應用等能力,達到更快的網路服務響應,更安全的本地數據傳輸。邊緣計算可以滿足系統在實時業務、智能應用、安全隱私保護等方面的要求,為用戶提供本地的智能服務。思元220在邊緣計算中扮演著提高數據安全、降低處理延時以及優化帶寬利用的角色。
目前寒武紀高算力晶元產品被定義為智能加速卡,可用於伺服器中加速人工智慧運算。谷歌的AlphaGo人工智慧機器人打敗韓國世界圍棋冠軍李世石的新聞相信各位有所耳聞,AlphaGo人工智慧機器人的背後其實是谷歌自研的TPU晶元。寒武紀的高算力晶元產品的特性和應用也與谷歌TPU類似,當然它們之間也可以算是競爭對手了。
所不同的是思元270-S4採用的是被動散熱設計,最大熱設計功耗為70W,定位為高能效比人工智慧推理設計的數據中心加速卡。這也意味著該卡會有「功耗牆」設定,即當加速卡功耗達到閾值上限時會降低算力以保證較低的功耗和發熱。
思元270-F4相當於是「滿血版」 思元270-S4,最大熱設計功耗150W,採用渦輪風扇進行主動散熱。良好的散熱和充足的供電使得思元270-F4能夠發揮出思元270晶元的全部性能。該卡定位是為桌面環境提供數據中心級人工智慧計算力,簡而言之就是為台式機配的高性能人工智慧加速卡。
雖然思元270在製造工藝上只採用了台積電的16nm工藝,但整體能耗比還是做得比較不錯的。雖然單卡算力不及最新的英偉達旗艦計算卡,但5張思元270-S4/思元270-F4並行的話,峰值算力也能達到英偉達A100的水平。只是英偉達A100更先進的工藝應該在能耗比上面會有一定的優勢。
其中思元100-C搭載了視頻和圖像解碼單元,採用被動散熱方式,最大熱設計功耗為110W;思元100-D不搭載視頻和圖像解碼單元,採用被動散熱方式,最大熱設計功耗為75W。目前思元100系列產品已經於2019年在滴滴雲和金山雲上得到應用。其中滴滴雲採用思元100板卡加速彈性推理服務,該服務用於深度學習推理任務;而金山雲則採用思元100板卡加速語音、圖像、視頻等人工智慧應用。
前面講的盡是伺服器級的計算卡,這是不是偏離了我們應該聊的自動駕駛晶元話題呢?其實不然。前面也提到了,寒武紀目前是一家專注於人工智慧晶元開發的企業,自動駕駛領域確實涉足不深,但通過和其他國內友商的聯合還是有一些建樹的。
WiseADCU CN1自動駕駛運算域控制器提供了L3或以上級別自動駕駛系統所需的算力以及感測器連接數量需求,實現了模擬、模型、系統、架構、編碼、加速、演算法七個關鍵控制點的自主可控。
實際上威盛集團由於處理器產品性能競爭力弱,早就退出了主流X86處理器市場的競爭,市場中就剩下英特爾和AMD在角力。兆芯成立後,吃透了威盛的X86技術,並在威盛當時最新的處理器架構基礎上進行全面的改進和優化,先後推出了ZX-A、ZX-C以及ZX-C+等處理器產品。
6月2日,科創板上市委發布2020年第33次審議會議結果公告,寒武紀上市獲得通過,從受理到審批通過,寒武紀只用了68天,刷新了科創板審核速度。寒武紀上市後成為A股中唯一一家人工智慧晶元公司,該領域的市場空間在2022年有望超過500億美元,發展潛力巨大。打通了A股融資渠道的寒武紀究竟能否憑借其獨特的技術優勢進一步發展壯大呢?這誰都說不準,但可以確定的是,寒武紀的成功上市讓很多投身於該領域的公司贏得了信心,看到了希望,中國人工智慧晶元時代或將由此開啟。
◆ 地平線機器人
好了,聊完寒武紀,我們來聊聊另外一家人工智慧晶元企業——地平線機器人技術研發有限公司(下簡稱「地平線」)。地平線是由前網路深度學習研究院常務副院長余凱於2015年創立的,專注於自動駕駛與人工智慧晶元的一家公司。余凱也是網路自動駕駛的發起人。
余凱建立的地平線,一直以來堅持的是軟體和硬體相結合的方向。他認為,演算法、晶元和雲計算將構成自動駕駛的三個核心支點。相比起前面介紹的寒武紀注重打造高性能硬體晶元,地平線的商業模式是把以「演算法+晶元」為核心的嵌入式人工智慧解決方案,提供給下游廠商。打個比方比較好理解,如果說寒武紀賣的是處理器晶元,那麼地平線賣的就是安裝了操作系統的整機。產品方面,相較寒武紀從終端到雲端的晶元產品布局,地平線雖然自研晶元,但更偏重的是以產品功能來劃分產品線。
硬體上,征程二代晶元內部集成了兩個Cortex A53核心、兩個自研的BPU(Brain Processing Unit,可用於加速人工智慧演算法)核心、DDR4內存控制器以及輸入輸出控制器,算力達到4TOPS,典型功耗為2W,這比起目前主流的Mobileye EyeQ4晶元的算力和能耗比都更優秀。
這些智能音箱有較強的自然語義識別功能,能夠識別人們發出的語音命令,結合物聯網技術,人們通過簡單的語音命令除了能夠讓音箱播放在線音頻資源外,還能夠控制各種家電,如開關、燈泡、風扇、空調等。這就是AIoT的一個最簡單的應用例子。
從硬體方面看,旭日二代晶元內部集成了兩個ARM Cortex A53核心、兩個自研的BPU核心、DDR4內存控制器以及輸入輸出控制器,算力達到4TOPS,典型功耗為2W。從參數上看,旭日二代和征程二代好像沒什麼差別,實際上征程二代可以看做是旭日二代的車規版,它滿足AEC-Q100標准,在工作溫度、電磁輻射等標准上會更高一些。雖然征程二代和旭日二代均採用台積電28nm工藝製造,但旭日二代晶元尺寸為14x14mm,比征程二代晶元17x17mm的尺寸更小,更有利於內嵌到AIoT設備當中。
和寒武紀一樣,地平線同樣擁有自研的人工智慧加速晶元技術。所不同的是,地平線更注重軟體和硬體的整合,從而為下游廠商提供成熟的解決方案。在資本市場,地平線同樣受到追捧,其投資者眾多,其中包括了世界半導體行業巨頭英特爾和SK海力士以及國內的一線汽車集團等。未來地平線是否會和寒武紀一樣登錄科創板目前還不得而知,但CEO余凱對於在科創板上市是持積極態度的。我個人是支持有更多像地平線這樣的企業登錄科創板,更充分的競爭可以避免壟斷同時促進該領域的加速發展。
◆ 西井科技
西井科技創辦於2015年,它起初是一家做類腦晶元的廠商。所謂的類腦晶元簡單來說就是以人腦的工作方式設計製造出來的晶元。目前大行其道的馮?諾依曼結構處理器晶元,其計算模塊和存儲單元是分離的,晶元工作的過程中需要通過數據匯流排來連接計算模塊和存儲單元,數據傳輸上的開銷太大從而限制著這類晶元的工作效率和能耗比的提升。
類腦晶元模仿的是大腦神經元的工作形式,大腦的處理單元是神經元,內存就是突觸。神經元和突觸是物理相連的,所以每個神經元計算都是本地的,而從全局來看神經元們是分布式在工作。類腦晶元由於具有本地計算和分布式工作的特點,所以在工作效率和能耗上相比馮?諾依曼結構處理器晶元更有優勢。
雖然這種類腦晶元看著和普通的處理器晶元在外觀上沒有什麼不同,但其實內部運作原理與傳統的處理器晶元有著本質的區別。國內除了西井科技開發出了類腦晶元,像是清華開發的天機(TianJic)晶元和浙大開發的達爾文(DARWIN)晶元都是類腦晶元。所不同的是,西井科技的DeepSouth晶元是全球首塊可商用5000萬類腦「神經元」晶元。
西井科技這艘大船拿著投資人動輒過億的投資款,肯定是要追求盈利的。不管公司的技術有多超前,無法商業化在逐利的資本市場必然是無法接受的。隨著人工智慧和自動駕駛產業的興起,西井科技找到了技術商業化的契機。
相比起我們前面兩個廠商動輒上百TOPS算力的產品,西井這兩款產品的算力確實有點拿不出手。但西井科技的這兩款晶元能夠實現片上學習,可以隨時新增樣本進行增量訓練來提升推理准確率。
可能大家看到這里還是沒看懂西井科技這兩塊晶元的優勢所在,我在這里稍微解析一下大家就能夠明白。目前的自動駕駛演算法都是通過高性能伺服器進行模型訓練(讓計算機去看攝像頭或激光雷達等感測器獲取的環境數據,學習目標判斷方法),然後將訓練好的模型再部署到車載硬體之中(把機器學習到的高效目標判斷方法固化到車載自動駕駛系統之中)。
在實際應用方面,西井科技並沒有一頭沖進乘用車自動駕駛系統領域,而是在智能港口和智能礦場干出了自己的一片天地,並把觸角伸向了智慧醫療和智慧物流領域。2017年10月,公司與全球知名港機巨頭振華重工建立長期合作夥伴關系,這是西井科技進軍智能港口的重要一步。
自動駕駛卡車要在港區自動裝卸集裝箱,需要自動駕駛系統精細的車輛控制、敏銳的環境識別以及准確的定位,這些都需要港區高清地圖配合。西井科技的無人集裝箱卡車定位精度在5cm以內,這是實現集裝箱自動裝卸的關鍵。全球首輛港區作業無人集裝箱卡車作業成功,充分展現了西井科技在卡車自動駕駛系統以及高精度地圖繪制領域的實力。
除了自動駕駛和高清地圖繪制外,西井科技還為企業打包了一整套智能港口和智能礦場解決方案,利用人工智慧技術提升港口和礦場的運作效率,同時能夠進一步降低其運營成本。深挖行業中存在的機遇,逐步築起行業壁壘是西井科技面對人工智慧晶元市場激烈競爭的重要策略。
作為全球最早落地行業應用的自動駕駛團隊,西井科技旗下自動駕駛品牌Qomolo逐路目前涵蓋了無人駕駛跨運車、無人駕駛新能源集卡和無人駕駛礦卡三大項目。
面對乘用車自動駕駛晶元領域的激烈競爭,我認為短期內西井科技不會進入該領域。相反它會通過深耕已有的智能港口、智能礦場以及無人駕駛重卡市場,進一步築高上述市場的壁壘,擴大自身的行業影響力和競爭力。但不能忽視的是,西井科技掌握的類腦晶元技術或有可能成為未來自動駕駛晶元領域的一個風口。
上文詳細介紹中國3家知名自動駕駛晶元公司及其產品,相信大家應該對目前國內自動駕駛晶元現狀有了一個更深了解。除了這三家公司,數字地圖供應商四維圖新通過收購傑發科技也布局自動駕駛晶元市場,但量產晶元目前尚未落地。網路的昆侖晶元以150W的功耗實現了260TOPS的算力,競爭力很強,但其定位為雲端全功能人工智慧晶元,主要用在伺服器之上。網路在自動駕駛領域的亮點還是在於其Apollo自動駕駛軟體平台。
● 全文總結:
寒武紀、地平線、西井科技這三家公司都有著各自的特色和亮點。寒武紀專注於晶元研發,產品算力最強;地平線除了研發晶元,還提供完整的自動駕駛軟體方案,對主機廠開發更友好;西井科技掌握獨特的類腦晶元設計,在智能港口、智能礦場以及無人駕駛卡車領域已經站穩了陣腳。整體來看,中國自動駕駛晶元在性能和功耗上和外國晶元相比並不差,如何在中國開放L3級別有條件自動駕駛車輛落地這個時間節點用產品和服務先發制人是中國自動駕駛晶元企業的制勝關鍵。究竟鹿死誰手,讓我們拭目以待吧,好戲即將上演!(圖/文/汽車之家 常慶林?部分圖片源於網路)
Ⅱ 獨家 | 寒武紀二代晶元發布在即,提前揭秘如何挑戰英偉達!
「初創公司要貿然打入雲端市場,簡直就是自尋死路」。
長久以來,雲端的數據中心市場被視為創業公司的禁地,因為英特爾、英偉達、AMD 等巨頭林立,競爭太過兇殘。
但近年來,雲計算勢不可擋,雲端晶元市場呈現爆發式增長,不乏勇者前來破局。
作為一家發源於中科院計算所、背靠多家「國字輩」資本、估值已經來到 30 億美金的硬核創業公司,寒武紀挑戰雲端市場的底氣十足。
2018 年 5 月,寒武紀發布首顆雲端 AI 晶元,並對外透露獲得中國前三大伺服器浪潮、聯想、曙光的訂單。據機器之心了解,滴滴、海康威視也已經成為寒武紀的客戶。
與此同時,寒武紀成數億美元 B 輪融資。據機器之心了解,目前寒武紀的估值約為 30 億美元,與今年 2 月完成 6 億美元融資後成為「全球最具價值的 AI 晶元公司」的地平線不相上下。
一年後,寒武紀二代晶元已經箭在弦上,這顆積蓄了中科院計算所研發實力四年之久的二代或將為行業帶來不小震盪。
機器之心獨家獲悉,寒武紀二代雲端晶元或將於本月公布,同時我們采訪到寒武紀技術研發相關知情人士、寒武紀雲端晶元客戶等多方信源,提前揭秘關於該顆晶元的細節亮點和核心技術。
這回有了中文名
據機器之心了解,寒武紀二代雲端 AI 晶元代號為「MLU270」,延續上一代晶元「MLU170」的 MLU(Machine Learning Unit)系列。今年初,寒武紀已經為旗下晶元注冊兩大中文商標名,分別是「思元」、「玄思」。綜上,寒武紀二代雲端 AI 晶元中文名為「思元 270」。
在今年的新品議程表上,雖然還名列有其他晶元,但「思元 270」及其板卡將會是重頭戲。這也表明寒武紀將從終端向華為等品牌商授權 IP 的模式,轉向主打雲端市場的晶元方案提供商。
在晶元架構方面,寒武紀二代晶元將從上一代的「MLUv01」升級為「MLUv02」。考慮到視頻數據正呈現爆炸性增長,成為數據中心的任務主流,寒武紀在「思元 270」里內建視頻解碼單元,瞄準海量的視頻處理市場專門配置。
據機器之心了解,寒武紀「思元 270」在今年年初研製成功,製程工藝方面明顯拋棄了此前終端市場的激進打法,選擇仍然沿用台積電 16nm 工藝,定位於「專注雲端訓練計算」。
對比兩大巨頭的主流雲端產品線,英偉達去年 9 月發布並已發貨的 Tesla T4 採用 14nm 工藝,AMD 去年 11 月發布的 Radeon Instinct MI60 和 MI50 採用 7nm 工藝,寒武紀這次似乎希望單純依靠技術路線取勝,不再如去年對於 7nm 工藝寄予厚望。
「讓英偉達難受」
在晶元性能方面,「思元 270」的性能參數有意向業界標桿英偉達 Tesla T4 看齊。
據機器之心目前了解到的情況來看,「思元 270」可支持 INT16/INT8/INT4 等多種定點精度計算,INT16 的峰值性能為 64Tops(64 萬億次運算),INT8 為 128Tops,INT4 為 256Tops。
對比 Tesla T4,FP16 的峰值性能為 65 Tops,INT8 為 130 Tops,INT4 為 260 Tops。
功耗方面,「思元 270」功耗為 75w,與 Tesla T4 持平。
但值得注意的是,這些「理論峰值」不過是紙面規格,真正實測水平相比理論峰值通常有一定縮水。據某大體量計算數據中心負責人,同時也是阿里雲早期核心技術研發人員李立表示,「T4 在實測過程中,75w 功耗維持不了多久就降一半頻率。」
據該負責人介紹,他在幾個月前已經拿到「思元 270」的具體規格和特性,「對比而言,第一代 MLU100 是試水,第二代 270 就聚焦多了,威力非常大,NV 後面會很難受。」
與此同時,該負責人還指出,「寒武紀的方案在某些領域可能不會特別好使,尚待觀察。」
核心技術解密
這里需要引入一對運算表示法的概念,整數運算(定點運算)與浮點運算。
它們是計算機計算中最為常用的兩種運算表示法,顧名思義,其差異就體現在整數和浮點上,加減乘除運算都是一樣的。
整數表示法,即所有位都表示各位數字,小數點固定;浮點表示法,則分成兩部分,階碼和尾數,尾數就是數字部分,階碼表示乘冪的大小,也就是小數點位置。所以浮點數在做運算的時候,除了對尾數做加減乘除,還要處理小數點位置。
基於兩種不同的運算表示法規則,導致面對同樣長度的整數和浮點運算,後者計算模式更為復雜,需要消耗更多的資源去處理,並且二者功耗差距通常是數量級的。 簡單來說,就是浮點運算佔用的晶元面積和功耗相比於整數運算器都要大很多倍。
但浮點運算又有其不可取代性。首先,定點表示法運算雖然直觀,但是固定的小數點位置決定了固定位數的整數部分和小數部分,不利於同時表達特別大的數或者特別小的數,可能「溢出」。
而浮點的精度雖然沒有定點大,但是浮點運算的小數點位置可以移動,運算時不用考慮溢出,所以科學計演算法一般都使用浮點。所謂「溢出」,指超出某種數據格式的表示範圍。
此外,具體到使用 GPU 做訓練,業界通常更傾向於浮點運算單元,主要是因為在有監督學習的 BP 演算法中,只有浮點運算才能記錄和捕捉到訓練時很小的增量。 由於訓練的部分模塊對精度要求比較高,所以通常必須是高精度的浮點運算,比如 FP32 才能搞定,FP16 都難。
綜上,雖然浮點運算相比定點運算在功耗、計算速度、性價比等方面都不佔優勢,但截止目前,浮點計算在雲端的訓練場景中仍具有不可替代的特性,並且以高精度運算為主。
那麼,如何在不增加晶元面積和功耗的前提下,如何大幅提升晶元做訓練的運算能力就成為雲端訓練晶元的主要研課題之一。
參考計算過程相對簡單的推斷計算思路,目前該領域的 AI 晶元多採用集成大量整數運算器或低精度浮點運算器。
面對計算過程更為復雜的訓練計算,業界一直在嘗試是否可能用性價比更高的定點運算器實現。「但這個問題在學術界也還沒有普適的解決方案。」王一說道。
李立表達了類似的觀點, 目前大家的研究熱點之一,就在於如何全部的定點單元(比如 INT8)代替浮點單元,或者以主要的定點單元配合少量的高精度浮點計算單元(比如 FP32)做更多的訓練任務,目的是達到定點計算的快速度,同時實現接近高精度浮點計算的精度。
談到目前該方向的研究成果和代表論文,李立表示,行業相關的研究文章已經有一些,不過都不具有普適性。
王一進一步向機器之心透露了關於實現低精度運算的「關鍵心法」,要做好低精度訓練,就要找到一個好的數據表示方法,既能表達最後大的數,又能讓 0 附近的小量能夠更好地表達,因此這個數據表示可能需要有自適應性,能隨著訓練的過程調整。
他還補充, 「低精度訓練確實未必要是浮點數,只要能把數域表達好,0 附近的小量表達好,什麼樣的數據表示都可以。」
綜上,寒武紀在大幅度提升訓練階段的計算功耗比方面,很有可能採用的是以整數為主的低精度運算,這在目前已公布的 AI 晶元項目中屬於首創。
實際上,寒武紀在計算機計算領域的開創精神和技術積淀由來已久。早在 2014 年—2016 年期間,寒武紀創始人兼 CEO 陳天石、陳雲霽兩兄弟的研究就基本奠定了神經網路晶元的經典設計思路,也就是現在常談到的 AI 晶元架構。
當時他倆的「DianNao 系列」論文橫掃體系結構學術圈: Diannao(電腦)是 ASPLOSཊ 最佳論文(亞洲第一次),DaDiannao(大電腦)是 MICROཊ 最佳論文(美國以外國家的第一次)……
而在大洋彼岸,美國兩家風頭正勁的 AI 晶元公司 Graphcore、GTI(Gyrfalcon Technology, Inc.)正是沿用了 DianNao 系列論文的基本思路,採用大量堆疊的簡單計算單元以實現復雜的雲端計算。(機器之心曾進行過相關報道,《一款晶元訓練推理全搞,Hinton 為其背書,Graphcore 完成 2 億美元融資》、《30 年前的「CNN 夢」在這顆晶元落地,能效比高出 Tesla10 倍 | CES 直擊》)
此外,要切數據中心市場的蛋糕,一套完備成熟的軟體生態也是其核心競爭力的重要體現。英偉達之所以能夠在雲端訓練領域成為絕對主流,其 CUDA 軟體生態的基礎功不可沒。
據機器之心了解,寒武紀從 2016 年起逐步推出了寒武紀 NeuWare 軟體工具鏈,該平台終端和雲端產品均支持,可以實現對 TensorFlow、Caffe 和 MXnet 的 API 兼容,同時提供寒武紀專門的高性庫,可以方便地進行智能應用的開發,遷移和調優。
「雲芯」之爭一觸即發
盡管前述了寒武紀的種種硬核技術護體、大資本和客戶加持,但想要真正在數據中心市場紮下根,以實現陳天石去年在發布會上談到的目標:到 2020 年底,力爭占據中國高性能智能晶元市場的 30% 份額,仍然面臨著異常殘酷的市場競爭。
整體上,英特爾在數據中心伺服器晶元市場仍然牢牢占據著的 95% 以上份額。
而隨著深度學習計算和人工智慧技術逐步興起的雲端訓練市場,同樣被巨頭絕對壟斷。目前 90% 以上的雲端加速採用英偉達 GPU,AMD、FPGA 占據非常小的份額,剩餘市場還在被國內外晶元創業公司不斷瓜分。
據機器之心了解,近期還有一家國內知名 AI 演算法公司將要入局雲端推理晶元市場。據德勤最新出爐的報道顯示,到 2022 年,全球人工智慧訓練市場的規模將達到約 170 億美元,雲端推理晶元市場的規模將達到 70 億美元。
可以預見,2019 年,AI 晶元之爭將從端燃及雲上,雲端的大體量、高增速市場勢必迎來更多強勁玩家。
(應采訪者需求,文中李立、王一均為化名。)
Ⅲ 中科院提出圖神經網路加速晶元設計,這是一種怎樣的晶元呢
隨著技術發展,人工智慧技術也在不斷的發展。現有的晶元已經難以滿足一些神經網路的計算了,中科院提出了圖神經網路加速晶元,這種晶元專用於圖神經網路的運算。讓我們一起來了解一下什麼是圖神經網路,這種晶元有什麼重大的突破。
圖神經網路的應用前景非常廣泛,不僅用在日常交通預測、網約車調度、運動檢測等民用領域,還可以助力科研的知識推理、化學研究以及在知識圖譜、視覺推理等學科發展方向上。
Ⅳ 馬斯克發布了個晶元,他想造世界第一超算
托尼看了以後,印象最深的就是那個 「 AI 」 機器人 。
發布會前半部分展示了半天的 FSD 多厲害 ,又說了自己的新晶元 DOJO 多牛逼,把這場發布會前沿 科技 的氛圍拉到頂點。
結果這 AI 機器人一上來徹底把氣氛整活躍 ( 尬 ) 了。
你想像中的機器人是不是下面這樣:
或者是這樣:
托尼當時心想,我特斯拉也是第一次搞機器人,哪怕搬個模型上來我也覺得牛逼。
結果沒想到是個 —— 舞蹈機器人?
關鍵它還是人假扮的!
如果我站在馬斯克的那個位置,當時我的大姆腳趾能犁出一個三室一廳來。
本來還在暢想威爾史密斯《 機械迷城 》里的畫面,這機器人一跳舞就瞬間把我拉回現實。
不過話說回來,你要是真把它當成一個搞行為藝術的機器人,那可就錯了。
PPT 里的他可是有不少的黑 科技 。
這個人形機器人身高 1.72 米,體重 65 公斤,承載力約 20 公斤。
但是機器人嘛,長的像人只是基本要求,行為舉止也要像人才行。
所以特斯拉給它身上裝了 40 個電機推桿 ,保證它可以像人的關節一樣自由活動。
馬斯克設想這個機器人的實體版本將在明年面世,設計初衷就是用來處理那些 「 不安全、重復的、無聊的工作 」。
比如山林滅火、救援、排爆等危險工作。
又或是像《 機械公敵 》里那樣,幫人們遛狗,送快遞,打掃房間。
馬斯克也聲稱特斯拉將成為 「 世界上最大的機器人公司 」,讓機器人更加成熟化和普遍化。
不過要想實現這個願望,這機器人還差一雙洞察全局的 「 雙眼 」。
也就是讓機器人和周圍的環境有更多的交互。
比如我們文章開頭波士頓動力搞的那個雙足人形機器人 Atlas。
為了保證它正常的行走,不僅在身上裝了電機, 還有各種液壓平衡裝置,處理器,感測器等等,後台要實時進行模擬模擬。
所以按照 Atlas 機器人的思路, 機器人要和人完全一樣,還必須擁有環境感知能力和運動協調性。
所以馬斯克的機器人就需要 一個 AI 或者說大腦,來進行實時感知和運算。
這就要介紹到特斯拉這次 AI 日的重磅嘉賓, DOJO 晶元。
其實這塊晶元馬斯克從 2019 年的時候就開始預熱,經常發推說特斯拉正在開發一個叫做 DOJO 的神經網路晶元,可以用來處理龐雜的視頻數據。
並且最後加上一句 ,它是個猛獸。
但它有多猛,咱先來列幾個參數。
台積電 7 nm 工藝,單晶元面積達 645 平方毫米,包含 500 億個晶體管, BF16 / CFP8 峰值算力達 362 TFLOPS,FP32 峰值算力達 22.6 TFLOPS。
DOJO 組成的一個訓練單元的介面帶寬每秒 36 TB,算力總達 9 PFLOPS。
我們拿目前全球第一的富岳超級計算機算力作比較, 它的超頻算力為 2.15 EFLOPS,默頻 1.95 EFLOPS,而特斯拉之前用英偉達 A100 GPU 組成的超算算力已經達到 1.8 EFLOPS,排到世界第五。
馬斯克還稱 DOJO 組成的新一代超算比上一代強 10 倍,這話難道是想爭超算界第一?
並且特斯拉還放了張圖來比較,大概意思就是:
你英偉達 GPU 和谷歌 TPU 連我 DOJO 的車尾燈都看不到。
不僅如此。
DOJO 還能進行模塊化組裝,多個晶元間無縫銜接,組成超大規模的計算陣列。
這也就是特斯拉最早在預熱海報里放的那個圖, 一個集合了 25 塊 DOJO 晶元的訓練模塊。
總之,強就完事了。
而且馬斯克這個 DOJO 只做一件事 ,訓練 AI。
我們可以理解為它被拿去 專門訓練輔助駕駛系統 AutoPilot 和 FSD。
咱都知道馬斯克一直想做的就是 純視覺端到端的自動駕駛 ,純視覺代表你要有大量的視頻數據去處理。
它們這次在車上用了 8 顆攝像頭,可以立體的描繪出周圍環境。
然後把這些數據交給 DOJO,DOJO 就可以實時繪制車周圍的環境圖,並且據此給車輛發出相應的指令,注意這里的關鍵點是實時。
這個過程像不像我們人類的大腦處理圖像的邏輯?
我們也是眼睛看到圖像,大腦處理圖像,然後下發指令,手腳給出相應的動作,而且也是實時的。
「 大批量的實時處理 」 是 DOJO 算力最好的體現,它直接把 自動駕駛系統改造成一有思想的生物體,有大腦、有眼睛、有神經甚至還有預感。
而 DOJO 的意義還不至於此。
無論是特斯拉 Autopilot 還是 FSD,或者是別的新能源車企,目前也都只是輔助駕駛的領域,並不是真正意義上的自動駕駛功能,而 DOJO 的成熟應用可以加速從輔助駕駛到自動駕駛的過度。
因為我們有足夠多的駕駛數據可以用來學習,但是現有的計算機處理能力導致 AI 學習效率不高。
而 DOJO 就像是圍棋領域的阿爾法狗,它專注於自動駕駛領域,所以甚至可以超過人類駕駛員,成為自動駕駛車輛的全能領航員。
馬斯克說 「 這些東西都是花費了巨資研製的,所以不太確定要不要開源,但是如果有其他公司想要獲得許可,那是可以做到的 」。
所以說 DOJO 也給了老馬堅定的走純視覺路線實現自動駕駛的決心。
雖然這個 DOJO 目前還沒個准消息啥時候能用上,但是馬斯克這個人懂得都懂,這人最擅長的就是製造驚喜。
但是請答應我,驚喜不是驚嚇。
以後別再辛苦員工穿個緊身衣在台上尬舞了,我寧可看一個海報或者模型放那,也不想再多看一次 「 超級變變變 」。