當(dāng) ChatGPT 成為 AI 新浪潮的「顯學(xué)」時(shí),為了能讓全球用戶暢快地「調(diào)戲」這位以對話框形式存在的助手,大廠們開啟了新一輪的算力軍備競賽模型計(jì)算量增長速度遠(yuǎn)超人工智能硬件算力增長速度,同時(shí)也對數(shù)據(jù)傳輸速度提出了更高的要求。
因此,AI芯片成為了人工智能和智能駕駛發(fā)展的關(guān)鍵所在。存算一體芯片可能是國產(chǎn)芯片實(shí)現(xiàn)算力「換道超車」的機(jī)遇。
幾天前,國內(nèi)創(chuàng)業(yè)公司后摩智能,發(fā)布了首款存算一體智駕芯片鴻途H30,成為國內(nèi)率先落地存算一體大算力AI芯片的公司。這款芯片的最高物理算力 256TOPS,典型功耗 35W,而比算力和功耗更重要的是,它采用了非馮諾伊曼架構(gòu)的全新架構(gòu)方式。
不同的架構(gòu),不同的思路,讓后摩智能成為車載芯片領(lǐng)域,又一個(gè)挑戰(zhàn)英偉達(dá)霸主地位的新人。
后摩智能是國內(nèi)最早用存算一體來做智能駕駛芯片的公司。此次發(fā)布的鴻途H30,是它自2020年成立以來推出的首個(gè)產(chǎn)品。從介紹中可以看到幾個(gè)關(guān)鍵詞,「存算一體」、「智能駕駛」。
所謂「存算一體」,是一種新的設(shè)計(jì)方式,通過這種底層架構(gòu)創(chuàng)新,可以大幅提升芯片性能,特別適合智能駕駛、泛機(jī)器人等場景。相比傳統(tǒng)架構(gòu)芯片,存算一體芯片在算力、成本、功耗、散熱方面都具有優(yōu)勢,同時(shí)存算一體技術(shù)不完全依賴于先進(jìn)存儲工藝和封裝技術(shù),用成熟制程也能實(shí)現(xiàn)先進(jìn)制程的效果,這對于供應(yīng)鏈自主可控有重要的意義。
我們可以將存算一體的工作原理類比為廚師做番茄炒蛋。處理器就像廚師和廚房,存儲器就像倉庫,指令就像菜譜,數(shù)據(jù)就像各種各樣的食材。存算一體就是將廚房的灶臺、菜板等搬到倉庫中。類比番茄炒蛋中的廚房、廚師、倉庫、菜譜和食材等,將運(yùn)算器帶著運(yùn)算步驟和參數(shù)一起集成在內(nèi)存上,從而避免在倉庫和廚房之間來回跑,解決內(nèi)存讀寫瓶頸。
與之對應(yīng)的則是當(dāng)前主流的馮諾依曼架構(gòu),即數(shù)據(jù)通過設(shè)備輸入到存儲器,處理器從存儲器中獲取指令和數(shù)據(jù),處理后輸出結(jié)果。
如果我們繼續(xù)使用廚師做菜的比喻,馮諾依曼架構(gòu)的流程是這樣的:第一步,廚師從倉庫中取出菜譜,讀取第一條指令,然后從倉庫中取出番茄放到案板上;第二步,回到倉庫拿菜譜,讀取第二條指令,然后再從倉庫中取出刀具,將西紅柿切成塊;第三步,讀取第三條指令,然后把切好的西紅柿和刀具放回倉庫。這樣,廚師需要來回跑很多次,才能完成一道菜。
實(shí)際上,在這個(gè)過程中,只有一步是真正的計(jì)算,而大部分時(shí)間都花費(fèi)在讀寫存儲器上,這就好像廚師花費(fèi)更多時(shí)間取菜、找菜譜和工具,而不是真正烹飪的時(shí)間。
對于一些簡單的計(jì)算,馮諾依曼架構(gòu)仍然能夠勝任。然而,隨著自動駕駛、ChatGPT等大數(shù)據(jù)模型的出現(xiàn),對于算力的需求急劇增加,馮諾依曼架構(gòu)開始遭遇瓶頸。
所以,存算一體通過底層架構(gòu)創(chuàng)新,旨在解決馮諾依曼架構(gòu)的瓶頸問題。目前,國內(nèi)一些公司已經(jīng)開始利用存儲介質(zhì) Nor Flash(存儲空間比較小,一般存儲一些初始化內(nèi)存的固件代碼),基于存算一體的思路,去做一些小算力、低功耗的芯片,這種策略已經(jīng)得到了驗(yàn)證,并且已經(jīng)在商業(yè)上落地。
然而,后摩智能是第一家使用SRAM存儲介質(zhì),基于存算一體的思路去做大算力芯片的公司。在此之前,許多人對這種做法的可行性表示懷疑。然而,鴻途H30的出現(xiàn)證明了存算一體做大算力芯片是可行的。
由于存算一體架構(gòu)的優(yōu)勢,鴻途H30具有更高的能效比。官方數(shù)據(jù)顯示,該芯片物理算力達(dá)到 256TOPS@INT8,典型功耗 35W。簡單的計(jì)算表明,該芯片在SoC層面的能效比達(dá)到了7.3TOPS/Watt。而在傳統(tǒng)的馮諾依曼架構(gòu)下,采用 12nm 相同工藝,所能實(shí)現(xiàn)的能效比多在 2TOPS/Watt 的水平。
在實(shí)際性能測試中,鴻途H30基于Resnet 50模型的基準(zhǔn)測試,在Batch Size等于1和8的情況下,分別達(dá)到了8700幀/秒和10300幀/秒的性能。這是英偉達(dá)Orin芯片的2.3倍和5.7倍。
這也意味著,與英偉達(dá)Orin等主流的智能駕駛芯片相比,鴻途H30不僅實(shí)現(xiàn)了性能和計(jì)算效率的翻倍,支持更多的算法模型,同時(shí)功耗只有它們的一半。
從應(yīng)用場景來看,鴻途H30是一款專注于智能駕駛芯片的產(chǎn)品。目前,基于鴻途H30 已成功運(yùn)行常用的經(jīng)典 CV 網(wǎng)絡(luò)和多種自動駕駛先進(jìn)網(wǎng)絡(luò),包括當(dāng)前業(yè)內(nèi)最受關(guān)注的 BEV 網(wǎng)絡(luò)模型以及廣泛應(yīng)用于高階輔助駕駛領(lǐng)域的 Pointpillar 網(wǎng)絡(luò)模型。
為了保證H30的核心競爭力,提高產(chǎn)品的易用性,后摩智能還基于H30推出了智能駕駛硬件平臺力馭和軟件開發(fā)工具鏈后摩大道兩款產(chǎn)品。
其中,力馭平臺是一款域控制器,主要面向末端物流無人小車、乘用車智能駕駛、車路協(xié)同等場景。它的CPU算力為200Kdmips,AI算力為256TOPS,支持多傳感器輸入,系統(tǒng)可靠性進(jìn)一步提升。同時(shí),力馭平臺功耗僅為85W,支持靈活散熱方式,便捷部署成本大大降低。
后摩智能還基于鴻途H30芯片自主研發(fā)了一款軟件開發(fā)工具鏈后摩大道,支持PyTorch、TensorFlow、ONNX等主流開源框架,編程兼容CUDA前端語法,同時(shí)支持SIMD和SIMT兩種編程模型,兼顧運(yùn)行效率和開發(fā)效率。通過無侵入式的底層架構(gòu)創(chuàng)新,它保障了通用性的同時(shí),進(jìn)一步實(shí)現(xiàn)了鴻途H30的高效、易用。
其實(shí),存算一體技術(shù)在芯片領(lǐng)域有著廣泛的應(yīng)用前景,自動駕駛也是后摩智能不斷迭代后的選擇。在剛開始創(chuàng)業(yè)的時(shí)候,后摩智能的方向并不是很聚焦,既想做云端,又想做邊緣端。在做的過程中,一些投資人朋友給予了他們一些建議,認(rèn)為創(chuàng)業(yè)公司資源有限,應(yīng)該聚焦在某個(gè)領(lǐng)域。后摩智能在此后逐漸調(diào)整方向,決定先聚焦于邊緣端,再逐步擴(kuò)展到云端。
不過,即便是邊緣端,也有安防芯片、AloT、智能駕駛等不同場景。后摩智能發(fā)現(xiàn),在智能駕駛領(lǐng)域聚焦,成功的概率更高。最后,后摩智能將資源集中在智能駕駛領(lǐng)域,不斷進(jìn)行技術(shù)創(chuàng)新和產(chǎn)品研發(fā)。
吳強(qiáng)解釋了這樣做的三個(gè)主要考慮因素:首先,市場需求巨大;其次,存算一體技術(shù)帶來的技術(shù)產(chǎn)品優(yōu)勢和未來智能駕駛芯片的關(guān)鍵需求天然吻合;此外,智能駕駛的終局是要替代人類駕駛,需要底層智駕芯片無限接近于人腦計(jì)算方式和效率。
雖然選擇了智能駕駛,可能很多人好奇,后摩智能為何第一款產(chǎn)品就推出256TOPS的大算力芯片,而不是從低到高逐步迭代呢?
吳強(qiáng)表示,一方面是為了滿足商用車和乘用車的需求。商用車需要支持L4級別的自動駕駛,而乘用車則需要支持L2級別的自動駕駛。因此,為了滿足這兩種需求,鴻途H30芯片將會分為不同的產(chǎn)品系列,從72TOPS 、144TOPS到256TOPS,并提供不同的技術(shù)方案以適應(yīng)不同的場景和需求。
在產(chǎn)品發(fā)布之后,后摩智能接下來的重點(diǎn)就是量產(chǎn)落地,拓展更多行業(yè)客戶和戰(zhàn)略合作伙伴。吳強(qiáng)表示,這主要取決于兩點(diǎn),一是量產(chǎn)芯片的性能指標(biāo),二是產(chǎn)品是否能真正解決客戶的訴求和痛點(diǎn)。
汽車行業(yè),技術(shù)的突破是一方面,商業(yè)的突破其實(shí)更難,因?yàn)樗€有很高的信任門檻,車廠對于供應(yīng)商的選擇都是風(fēng)險(xiǎn)厭惡型的。芯片公司的產(chǎn)品不僅需要符合嚴(yán)苛的產(chǎn)品一致性、產(chǎn)品質(zhì)量控制標(biāo)準(zhǔn),還需要保證至少10~15年的供貨周期。
同時(shí),在芯片公司與車企、Tier 1、Tier 2供應(yīng)商的合作過程中,又涉及大量的測試、溝通、打磨、反饋、修改過程,產(chǎn)品落地周期極長,難度巨大。 這也導(dǎo)致大量芯片創(chuàng)業(yè)公司的產(chǎn)品遲遲難以落地。
對此,后摩智能也做了充分的準(zhǔn)備。據(jù)了解H30的商業(yè)落地主要面向商用車和乘用車兩大場景。以H30打造的智能駕駛解決方案,如今已經(jīng)在新石器無人車、環(huán)宇智行等產(chǎn)品上完成部署。
同時(shí),鴻途H30 將于6月份開始給頭部客戶送測。同時(shí),后摩智能的第二代產(chǎn)品鴻途H50 已經(jīng)在全力研發(fā)中,將于2024年推出,支持客戶 2025年的量產(chǎn)車型。
吳強(qiáng)還劇透了后摩智能的下一階段「小目標(biāo)」:用2年左右時(shí)間,實(shí)現(xiàn)智駕芯片大規(guī)模商用,成長為智駕芯片領(lǐng)域的國內(nèi)頭部企業(yè)。
存算一體芯片的技術(shù)研發(fā)與商用進(jìn)程,在自動駕駛的普及、生成式AI與大模型的推動下得到了加速。2023年被業(yè)內(nèi)視為存算一體技術(shù)走向規(guī)?;虡I(yè)落地的元年。H30芯片的發(fā)布則標(biāo)志著存算一體大算力芯片商用落地的新階段的開啟。
然而,技術(shù)本身并不是企業(yè)的壁壘,只能為企業(yè)提供一定的先發(fā)優(yōu)勢。后摩智能需要盡快把技術(shù)優(yōu)勢轉(zhuǎn)化為產(chǎn)品優(yōu)勢,打造自己的軟件生態(tài)、工具鏈、合作伙伴等。這樣,當(dāng)英偉達(dá)、高通等巨頭進(jìn)入市場時(shí),后摩智能可以利用其具有的一定壁壘來抵擋競爭。
公司地址:北京市朝陽區(qū)酒仙橋路4號751 D·Park正東集團(tuán)院內(nèi) C8座105室 極客公園