人工智能芯片主要包括NVidia GPU、Google的TPU、Intel的Nervana、IBM的TreueNorth、微軟的DPU和BrainWave、百度的XPU、Xilinx的xDNN、寒武紀芯片、地平線以及深鑒科技的AI芯片等,基本上是GPU、FPGA、神經網絡芯片三分天下的趨勢,三種芯片各有各自的優劣,都在面向自己獨特的細分市場。本章先聊一聊深度神經網絡和NVidia GPU的崛起。
人工智能的終極目標是模擬人腦,人腦大概有1000億個神經元,1000萬億個突觸,能夠處理復雜的視覺、聽覺、嗅覺、味覺、語言能力、理解能力、認知能力、情感控制、人體復雜機構控制、復雜心理和生理控制,而功耗只有10~20瓦。
這是人腦基本神經元和突觸:
這是人工神經元模擬神經元:

輸入模擬神經元輸入電信號,權值模擬神經元之間的突觸連接,激活函數模擬突觸之間的電信號傳導。
早在1981年David Hubel和Torsten Wiesel就發現了人的視覺系統的信息處理是分級的,因此獲得了諾貝爾醫學獎。如圖所示,從視網膜出發,經過低級的V1區邊緣特征提取,到V2區識別基本形狀或目標的局部,再到高層的目標識別(例如識別人臉),以及到更高層的前額葉皮層進行分類判斷等,人們意識到高層特征是低層特征的組合,從低層到高層越來越抽象,越來越能表達語義或者意圖。
深度神經網絡模型模擬人腦識別的分層識別過程:

深度神經網絡的輸入層模擬視覺信號的輸入,不同的隱藏層模擬不同級別的抽象,輸出層模擬輸出的對象分類或者語義等。
從上圖的典型的人臉識別的訓練任務來看,按照10層深度神經網絡、訓練上百萬張圖片,大概需要30 Exaflops的計算能力,如果還是用CPU來做訓練,大概需要訓練一年的時間,這顯然是無法忍受的速度,亟待需要計算能力更強的人工神經網絡芯片出現。
NVidia GPU的崛起
可能有很多人會問,目前在人工智能領域,NVidia GPU為什么具有無可撼動的霸主地位,為什么AMD的GPU和NVidia GPU性能相差不多,但是在人工智能領域的受歡迎的程度卻有天壤之別。
我們知道GPU原本就是顯卡,它是為游戲和渲染而生的,它里面核心運行單元是shader,專門用作像素、頂點、圖形等渲染用的。
NVidia在2006年的時候跨時代的推出了統一計算設備架構CUDA(Compute Unified Device Architecture)以及對應的G80平臺,第一次讓GPU具有可編程性,讓GPU的核心流式處理器Streaming Processors(SPs)既具有處理像素、頂點、圖形等渲染能力,又同時具備通用的單精度浮點處理能力,NVidia稱之為GPGPU(General Purpose GPU),黃教主的野心是讓GPU既能做游戲和渲染也做并行度很高的通用計算。

G80有16組流式處理器Streaming Processors(SPs),每組SP里有16個計算核心,一共128個獨立的計算核心,單精度峰值計算能力可達330 Gflops,而同期主流的Core2 Duo CPU只有50 Gflops的處理能力,更為重要的是從G80架構開始,GPU開始支持可編程,所有的計算密集型的并行任務都有可能通過程序移植在GPU上運行起來。
CUDA的編程模型
CUDA將GPU的計算單元抽象成3個編程層次:Grids、Blocks和Threads,一個CUDA kernel在執行的前會先把數據和指令傳到GPU上,在執行的時候會使用若干個Grids,一個Grid里含有多個Blocks,一個Block里含有多個Threads,調度上一個Block的Threads會調度到一個獨立的Streaming Processors上執行,而16/32個Threads稱為一個Warp,Warp是GPU上指令調度的最小單元,一個Warp會同時運行在16/32個計算核心上。

性能增長遠超CPU戰略
NVidia從2006年推出Tesla架構以來,不斷的更新架構和性能,陸續推出了Femi、Maxwell、Pascal還有最新的Volta架構,基本上保持著2年性能翻1倍的增長態勢。
而對CPU的性能加速比,在單精度計算能力上保持著遙遙領先的態勢,并且拉開的差距越來越大。

深度神經網絡+NVidia GPU掀起人工智能浪潮
深度神經網絡+NVidia GPU掀起了業界的人工智能浪潮,不得不說這只是老黃整體戰略的一個副產品,誰也沒有想到,高性能計算領域的一個分支--人工智能會如此火爆。
2011年,負責谷歌大腦的吳恩達通過讓深度神經網絡訓練圖片,一周之內學會了識別貓,他用了12片GPU代替了2000片CPU,這是世界上第一次讓機器認識貓。
2015年,微軟研究院用GPU加速的深度神經網絡,在ImageNet比賽中獲得了多項擊敗人的辨識準確度,這是第一次機器視覺的識別率打敗了人眼的識別率(錯誤率5%),可以認為是人工智能史上的一個重要里程碑事件。
2016年,谷歌旗下Deepmind團隊研發的機器人AlphaGo以4比1戰勝世界圍棋冠軍職業九段棋手李世石(AlphaGo的神經網絡訓練用了50片GPU,走棋網絡用了174片GPU),引發了圍棋界的軒然大波,因為圍棋一直被認為是人類智力較量的巔峰,這可以看做是人工智能史上的又一個重大里程碑事件。