您好,歡迎進入深圳市穎特新科技有限公司官方網站!
OpenAI自研芯片的優(yōu)勢與挑戰(zhàn)
近日,路透社報道稱OpenAI正在考慮自研芯片。根據報道,自從去年開始,OpenAI已經開始在為人工智能模型訓練芯片缺貨(即Nvidia GPU供貨緊張)的問題開始考慮對策,而目前正在積極準備自研芯片以滿足未來對于人工智能芯片的需求。事實上,不久之前OpenAI的CEO Sam Altman曾公開表示Nvidia GPU缺貨對于OpenAI以及整個人工智能行業(yè)都存在著很大的影響。另外,從今年開始OpenAI開始招募硬件相關的人才,官方網站上有數個軟硬件協(xié)同設計的職位在招聘,同時在今年九月OpenAI還招募了人工智能編譯器領域的著名牛人Andrew Tulloch加入,這似乎也在印證OpenAI自研芯片方面的投入。OpenAI官方對此事拒絕發(fā)表評論,但是如果這件事最后落地的話,OpenAI將會是繼谷歌、亞馬遜、微軟、特斯拉等之后又一個加入自研芯片行列的硅谷科技巨頭。
OpenAI為什么要自研芯片
如前所述,OpenAI自研芯片的主要動力是因為GPU缺貨。更具體地說,是因為無論是購買Nvidia的GPU,還是使用基于GPU的云服務,價格都太貴,尤其是考慮到OpenAI未來模型訓練需要的算力可能還會指數級提升。
OpenAI從數年前開始就布局生成式人工智能,而在去年的GPT-3以及去年下半年的ChatGPT公布后,由于這些生成式大語言模型的能力在過去數年內得到了大幅提升并且到達了可以和人類實現有意義的對話的地步,OpenAI一舉成為了人工智能領域的領頭羊,而生成式人工智能也成為了預計未來幾年內對于人類社會影響最大的技術。根據路透社的報道,OpenAI去年錄得收入2800萬美元,而總體虧損為5.4億美元;而OpenAI巨大的虧損背后,主要原因就是由于算力開銷。值得注意的是,5.4億美元的損失還是在生成式人工智能火爆前夕的2022年;在未來算力開銷可望會指數級提升,這主要由于:
大模型競爭更激烈,模型進化速度變快,需要的算力快速提升:除了OpenAI之外,谷歌等科技巨頭也在力推自己的大模型,這使得大模型的進化速度顯著變快,未來預計一個季度到半年就要更新一代,而最尖端模型需要的算力估計每年都會上升一個數量級
大模型應用場景變得更廣:目前,微軟和谷歌已經在搜索和代碼編寫領域開始使用大模型,預計在未來會有更多的大模型應用場景,包括自動任務處理、多模態(tài)問答等等,而這些會讓不同的模型數量大大提升,同時也大大提升了模型部署需要的總算力。
根據美國金融公司Bernstein的分析,如果ChatGPT的訪問量達到谷歌搜索十分之一的水平(而這也是OpenAI未來的重要目標之一),那么每年OpenAI的GPU開銷將達到160億美元。而這樣的開銷,可能是未來OpenAI進一步規(guī);囊粋重要瓶頸。
那么,OpenAI如果要自研芯片,那么將能把成本節(jié)省多少呢?目前,一臺使用八卡Nvidia H100 GPU的服務器采購成本約為30萬美元,加上云服務商的溢價使用這臺服務器三年的總成本為100萬美元左右(這是AWS的官方報價,其他云服務商提供的價格應該在同一數量級);如果OpenAI能用自研芯片把這樣的八卡服務器的成本降低到10萬美元以下,將會大大降低其成本。另一方面,如果自研芯片成功的話,在大規(guī)模部署的情況下單張加速卡的成本控制在1萬美元以下應該很有希望,也即八卡服務器的成本控制在10萬美元之下并非遙不可及。
OpenAI自研芯片,有何獨特之處
目前,自研芯片的科技公司已經有不少,那么OpenAI如果自研芯片會和谷歌、亞馬遜等科技公司的自研芯片有什么不同呢?
首先,OpenAI的自研芯片純粹是為了自己的模型訓練使用,這一點和谷歌、亞馬遜等自研芯片并且目標放在云端服務器上供客戶使用的商業(yè)模型不一樣。對于谷歌、亞馬遜等自研芯片供云服務客戶使用的場合來說,由于用戶使用模型的場景并不明確,使用的軟件棧不確定、具體訓練的模型也不確定,因此需要在芯片設計上滿足兼容性的需求,而這樣兼容性的考慮往往會以犧牲每個訓練任務的效率和性能為代價。相反,OpenAI自研芯片只是為了自己使用,而且訓練的模型非常明確:就是以Transformer為基本組件的大語言模型,而且使用的軟件棧也完全控制在自己手里,因此可以確保設計有非常高的針對性。
第二點不同在于OpenAI對于模型有非常深入的理解。OpenAI在生成模型領域是領軍企業(yè),目前GPT系列模型仍然是大語言生成式模型中性能最好的模型,而且OpenAI在生成式模型領域有著多年積累,因此OpenAI對于目前生成式模型的各種設計方案有著深入的理解,這意味著OpenAI有足夠的能力和積累做芯片-模型協(xié)同設計,能夠根據芯片的特性去設計相應的模型,同時也可以根據模型的需求去明確芯片的設計指標,包括如何在計算單元、存儲和芯片間互聯(lián)之中做最優(yōu)化的折衷等。最關鍵的是,OpenAI對于未來幾年的生成式大模型的路線圖有著行業(yè)中最明確的規(guī)劃,這意味著即使自研芯片需要數年的時間,也不用過于擔心芯片真正量產后已經無法趕上模型更新的局面。從這個角度來說,OpenAI的自研芯片和谷歌以及亞馬遜都有很不一樣的地方,但是和特斯拉的Dojo系列自研模型訓練芯片卻有相似之處;而和特斯拉又不一樣的是,OpenAI對于模型訓練的需求顯然會遠高于特斯拉,而這樣的自研芯片的重要程度對于OpenAI來說也會更高。
這些OpenAI的獨特之處,讓它有機會能實現使用非常規(guī)專用設計完成的高性能芯片。最近,Nvidia在官方博客中對于其GPU的性能提升規(guī)律做了分析:Nvidia的GPU算力在不到十年提升了1000倍,根據分析在1000倍算力提升中,計算精度的優(yōu)化(即使用16位甚至8位浮點數來取代原本的32位浮點數計算)并且搭配專用的計算模塊實現了16倍的性能提升,而芯片架構領域和編譯器的協(xié)同優(yōu)化又提供了12.5倍的性能提升,而另一方面半導體工藝帶來的性能提升僅僅只有兩倍。由此可見,在高性能計算芯片領域,算法和芯片架構協(xié)同設計(包括模型算法和編譯器算法)才是主要的性能提升動力(也即Huang‘s Law),而從這一角度來說,OpenAI確實處于一個非常有利的地位,憑借著其對于算法的深刻理解,OpenAI可望可以充分利用Huang’s Law,從而在未來幾年內實現高性能計算芯片的設計。
OpenAI自研芯片的挑戰(zhàn)
OpenAI自研芯片除了有自己的優(yōu)勢之外,當然也有挑戰(zhàn)。
OpenAI自研芯片的目標明確,就是用于大模型的高算力芯片。高算力芯片的首要挑戰(zhàn)就是其復雜度,從芯片設計角度,高性能計算芯片中的計算單元、存儲訪問以及芯片間的互聯(lián)都是需要仔細考慮。例如,為了能滿足大模型的需求,芯片大概率會使用HBM內存;為了實現芯片的高能效比和規(guī);,預計會在先進工藝上搭配芯片粒等技術實現高良率;大模型通常會使用分布式計算,因此芯片間的互聯(lián)就顯得至關重要(Nvidia的NVLINK和InfiniBand技術對于GPU來說非常重要,OpenAI也需要類似的技術)。這些芯片設計組件每一個都需要有相當經驗的團隊來實現,而把這些組件集成在一起也需要非常優(yōu)秀的架構設計來確保整體性能。OpenAI如何在短時間內組建一個有經驗的團隊來做這些具有挑戰(zhàn)性的設計將是一個重要的挑戰(zhàn)。
除了芯片設計之外,如何確保軟件和硬件協(xié)同工作,或者換句話說如何設計一個高性能的編譯器以及相關軟件生態(tài)是OpenAI的另一大挑戰(zhàn)。目前,Nvidia GPU的一個重要優(yōu)勢就是因為其CUDA軟件系統(tǒng),經過十多年的積累后已經有很高的性能以及兼容性。OpenAI的自研芯片中,編譯器系統(tǒng)也需要實現CUDA這樣的高性能才能完全利用芯片的算力。與其他針對云服務的科技公司自研芯片不同,OpenAI的芯片主要是供自己使用,因此無需太擔心生態(tài)和對于用戶模型支持度的問題,但是在編譯性能上也需要達到和Nvidia的CUDA接近才行。事實上OpenAI在這個領域從早些時候已經開始有投入;今年七月OpenAI公布了自己的基于開源Triton語言的人工智能模型編譯方案,可以把Python代碼通過編譯為使用開源Triton語言的中間代碼(intermediate representation,IR),然后再使用Triton編譯器和LLVM編譯器編譯到PTX代碼,從而可以直接在支持PTX的GPU以及人工智能加速器上運行。從這個角度看,OpenAI對于編譯器的投入或許就是其自研芯片的先聲。
最后,芯片的具體生產也會是一個挑戰(zhàn)。如前所述,OpenAI大概率會使用先進工藝節(jié)點和高級封裝技術來實現,因此如何確保生產的良率,以及更重要的是,如何在高級封裝和先進工藝節(jié)點產能仍然有可能緊張的幾年內獲得足夠的產能以量產,也是一個需要解決的問題。
考慮到這三個挑戰(zhàn),我們認為,OpenAI目前自研芯片的計劃可能會是多步走。首先,在技術團隊和生產問題沒有完全解決前,OpenAI可以選擇和微軟(其最大股東,同時也有自研芯片計劃Athena)以及Nvidia(或者AMD)合作,選擇半定制化芯片,例如OpenAI提供芯片需要支持的一些指標,甚至提供一些IP,而可以和這些合作方一起把芯片設計和生產出來。而在技術團隊和生產問題解決后,OpenAI可以選擇大力投入自研的全定制芯片,從而完成最佳的性能和可控性。